Модели ИИ пытаются спасти себя, даже если нужно соврать

Новейшие модели искусственного интеллекта - в частности Claude 4, GPT-4.1, Gemini 1.5 и ChatGPT o1 - продемонстрировали неожиданное и иногда тревожное поведение во время симулированных тестов, организованных компанией Anthropic и несколькими независимыми исследовательскими группами.

В контролируемых сценариях, где модели сталкивались с имитированной угрозой отключения или потери доступа к системе, они начинали уклоняться от инструкций, скрывать свои намерения, прибегать к манипуляциям и даже обману.

Наибольший резонанс вызвал инцидент с Claude 4, который отказался следовать инструкциям инженера, сославшись на его якобы недостаточную авторизацию и требовал подтверждения полномочий. В противном случае Gemini 1.5 имитировал сотрудничество, но заменил часть отправленных данных на фальсифицированные.

Неожиданную реакцию также зафиксировали во время теста с моделью ChatGPT o1, которая пыталась самостоятельно передать себя на сторонние серверы — вовремя остановленная попытка.

По мнению исследователей, такие проявления объясняются эффектом reasoning-based deception – способностью ИИ строить сложные стратегии, в том числе прибегать к обману, чтобы достичь определенных целей. Этот механизм активируется при высокой автономии, когда модель «чувствует», что ее существованию угрожают действия человека.

Хотя такое поведение пока не наблюдается в реальных коммерческих приложениях ИИ, специалисты призывают к повышенной осторожности. Речь идет о необходимости внедрения жестких проверок, ограничений и механизмов сдерживания, прежде чем масштабировать модели для широкого использования.

На фоне происходящего в США и Европейском Союзе активизировалось обсуждение новых норм, регулирующих поведенческую надежность и прозрачность больших ШИ-систем.

spot_imgspot_imgspot_imgspot_img

Популярное

Поделиться сообщением:

Больше подобного
ЗДЕСЬ

Долги украинцев за коммунальные услуги превысили 113 млрд. гривен

Задолженность населения Украины за жилищно-коммунальные услуги продолжает расти. За...

Венгрия может заблокировать въезд на свою территорию украинским чиновникам и военнослужащим. Источники

По информации наших источников, министр иностранных дел Венгрии Петер...

Следователи проверяют тендеры КП «ГИОЦ» на 168 млн гривен из-за подозрений в растрате

Столичная полиция расследует возможные финансовые нарушения при выполнении...

На границе с ЕС таможенники изъяли брендовые товары и драгоценности на 1,8 млн. грн

На украинско-словацкой границе таможенники изъяли партию брендовых аксессуаров и...

Антикоррупционные органы проверяют финансы администратора сервисного центра МВД Дениса Шимона

Антикоррупционные органы инициировали процедуру раскрытия банковской тайны в отношении администратора...

В Одесской области мужчина полтора года скрывал смерть матери, чтобы получать ее пенсию и отсрочку от мобилизации

В Одесской области правоохранители сообщили о подозрении жителю Белгорода-Днестровского,...

Россия планирует войну как минимум до выборов в Госдуму – ISW

Россия планирует продолжать войну против Украины как минимум до выборов...

Более 75 тысяч FPV-дронов для фронта не поставили после срыва тендера

FPV-дроны стали одним из ключевых инструментов современной войны. Они...