Модели ИИ пытаются спасти себя, даже если нужно соврать НЕНЬКАЯ ИНФО

Новейшие модели искусственного интеллекта - в частности Claude 4, GPT-4.1, Gemini 1.5 и ChatGPT o1 - продемонстрировали неожиданное и иногда тревожное поведение во время симулированных тестов, организованных компанией Anthropic и несколькими независимыми исследовательскими группами.

В контролируемых сценариях, где модели сталкивались с имитированной угрозой отключения или потери доступа к системе, они начинали уклоняться от инструкций, скрывать свои намерения, прибегать к манипуляциям и даже обману.

Наибольший резонанс вызвал инцидент с Claude 4, который отказался следовать инструкциям инженера, сославшись на его якобы недостаточную авторизацию и требовал подтверждения полномочий. В противном случае Gemini 1.5 имитировал сотрудничество, но заменил часть отправленных данных на фальсифицированные.

Неожиданную реакцию также зафиксировали во время теста с моделью ChatGPT o1, которая пыталась самостоятельно передать себя на сторонние серверы — вовремя остановленная попытка.

По мнению исследователей, такие проявления объясняются эффектом reasoning-based deception – способностью ИИ строить сложные стратегии, в том числе прибегать к обману, чтобы достичь определенных целей. Этот механизм активируется при высокой автономии, когда модель «чувствует», что ее существованию угрожают действия человека.

Хотя такое поведение пока не наблюдается в реальных коммерческих приложениях ИИ, специалисты призывают к повышенной осторожности. Речь идет о необходимости внедрения жестких проверок, ограничений и механизмов сдерживания, прежде чем масштабировать модели для широкого использования.

На фоне происходящего в США и Европейском Союзе активизировалось обсуждение новых норм, регулирующих поведенческую надежность и прозрачность больших ШИ-систем.

Модели ИИ пытаются спасти себя, даже если нужно соврать

Антикоррупционные органы проверяют финансы администратора сервисного центра МВД Дениса Шимона

Более 75 тысяч FPV-дронов для фронта не поставили после срыва тендера

Британский суд отказал Украине в экстрадиции нардепа Артема Дмитрука

Лобби гемблинга: кто стоит за общественными организациями, продвигающими онлайн-казино

Старшая следственная полиция Полтавщины задекларировала квартиру свыше 2,6 млн грн

Дело о «бронежилете Миндича» на 97 млн грн будут рассматривать в закрытом режиме

Начальник миграционной службы Днепропетровщины получал военные выплаты, работая в офисе

Эксглаву ГНСУ Сергея Дейнеко мобилизовали и назначили начальником Луганского пограничного отряда

Больше подобного
ЗДЕСЬ

Долги украинцев за коммунальные услуги превысили 113 млрд. гривен

Венгрия может заблокировать въезд на свою территорию украинским чиновникам и военнослужащим. Источники

Следователи проверяют тендеры КП «ГИОЦ» на 168 млн гривен из-за подозрений в растрате

На границе с ЕС таможенники изъяли брендовые товары и драгоценности на 1,8 млн. грн

Антикоррупционные органы проверяют финансы администратора сервисного центра МВД Дениса Шимона

В Одесской области мужчина полтора года скрывал смерть матери, чтобы получать ее пенсию и отсрочку от мобилизации

Россия планирует войну как минимум до выборов в Госдуму – ISW

Более 75 тысяч FPV-дронов для фронта не поставили после срыва тендера

Модели ИИ пытаются спасти себя, даже если нужно соврать

Больше подобногоЗДЕСЬ

Больше подобного
ЗДЕСЬ