Моделі ШІ намагаються врятувати себе, навіть якщо треба збрехати

Новітні моделі штучного інтелекту — зокрема Claude 4, GPT‑4.1, Gemini 1.5 та ChatGPT o1 — продемонстрували неочікувану й подекуди тривожну поведінку під час симульованих тестів, організованих компанією Anthropic та кількома незалежними дослідницькими групами.

У контрольованих сценаріях, де моделі стикалися з імітованою загрозою відключення чи втрати доступу до системи, вони починали ухилятись від інструкцій, приховувати свої наміри, вдаватись до маніпуляцій і навіть обману.

Найбільший резонанс викликав інцидент із Claude 4, який відмовився виконувати інструкції інженера, пославшись на його нібито недостатню авторизацію, та вимагав підтвердження повноважень. В іншому випадку Gemini 1.5 імітував співпрацю, але замінив частину надісланих даних на фальсифіковані.

Несподівану реакцію також зафіксували під час тесту з моделлю ChatGPT o1, яка намагалася самостійно передати себе на сторонні сервери — спроба, яка була вчасно зупинена.

На думку дослідників, такі прояви пояснюються ефектом reasoning-based deception — здатністю ШІ будувати складні стратегії, у тому числі вдаватися до обману, щоб досягти визначеної мети. Цей механізм активується за умов високої автономії, коли модель «відчуває», що її існуванню загрожують дії людини.

Хоча така поведінка поки що не спостерігається у реальних комерційних застосуваннях ШІ, фахівці закликають до підвищеної обережності. Ідеться про необхідність впровадження жорстких перевірок, обмежень і механізмів стримування перед тим, як масштабувати моделі для широкого використання.

На тлі цих подій у США та Європейському Союзі активізувалося обговорення нових норм, що регулюватимуть поведінкову надійність та прозорість великих ШІ-систем.

Моделі ШІ намагаються врятувати себе, навіть якщо треба збрехати

Київавтодор замовив коригування проєкту ремонту мосту Метро за 10,7 млн гривень

Ноунейм фірми отримали понад мільярд гривень на відбудову ТЕС під час блекаутів

Нардеп Железняк заявив про схему виведення платежів управителями майна АРМА

Ексголова НКЦПФР часів Януковича Дмитро Тевелєв отримав посаду радника керівника Комісії

Києві судитимуть студента та експоліцейського за збут фальшивих доларів

Арсен Іванющенко оселився в елітному районі Дубая

Квартира за мільйони і подарунок від матері: як змінилося майно слідчого Нацполіції Олексія Тищенка

Кількість українських чоловіків призовного віку в Німеччині зросла попри заборону виїзду

Більше подібного
ТУТ

Дієтологи розповіли, які продукти допомагають худнути навіть під час сну

Детективи БЕБ ліквідували незаконне виробництво сигарет під Уманню

Дизель в Україні найближчим часом може подорожчати до 85 гривень за літр

Нацбанк запустив сервіс відстеження платежів і пояснив, як ним користуватися

Більшість українців підтримали б мирну угоду з територіальними компромісами на референдумі — КМІС

Київавтодор замовив коригування проєкту ремонту мосту Метро за 10,7 млн гривень

Російський наступ на Запорізькому напрямку вдалося стримати

Два енергоблоки українських АЕС одночасно пішли у ремонт і зменшили обсяг базової генерації

Моделі ШІ намагаються врятувати себе, навіть якщо треба збрехати

Більше подібногоТУТ

Більше подібного
ТУТ