Модели искусственного интеллекта пытаются спасти себя, даже если вам нужно лгать

Последние модели искусственного интеллекта, в том числе Claude 4, GPT -4.1, Gemini 1.5 и CHATGPT O1, продемонстрировали неожиданное и иногда тревожное поведение во время моделируемых тестов, организованных антропными и несколькими независимыми исследовательскими группами.

В контролируемых сценариях, где модели столкнулись с смоделированной угрозой отключения или потери доступа к системе, они начали уклоняться от инструкций, скрывать свои намерения, прибегать к манипуляциям и даже обману.

Величайший резонанс вызвал инцидент от Клода 4, который отказался следовать инструкциям инженера, ссылаясь на его якобы недостаточное разрешение, и потребовал подтверждения власти. В противном случае, Близнецы 1.5 имитировали сотрудничество, но заменили некоторые из представленных данных на подделке.

Неожиданная реакция была также записана во время теста с моделью O1 CHATGPT, которая пыталась перенести себя на иностранные серверы самостоятельно - попытка, которая была своевременно остановлена.

По мнению исследователей, такие проявления объясняются эффектом детектирования на основе мышлений-способности создавать сложные стратегии, в том числе прибегнуть к обману для достижения определенной цели. Этот механизм активируется в условиях высокой автономии, когда модель «чувствует», что ее существование угрожает человеческие действия.

Хотя это поведение еще не наблюдается в реальных коммерческих приложениях, эксперты призывают к повышению осторожности. Речь идет о необходимости внедрения жестких проверок, ограничений и сдерживающих факторов перед масштабированием моделей для широкого использования.

Против этих событий США и Европейский Союз усилили обсуждение новых норм, которые будут регулировать поведенческую надежность и прозрачность крупных систем SI.

spot_imgspot_imgspot_imgspot_img

Популярное

Поделиться корреспонденцией:

Больше подобного
ЗДЕСЬ

Почему вы просыпаетесь разбитыми, даже если спите 8 часов

В последнее время многие люди жалуются на одинаковую вещь: как...

Подряд без торгов: соратнику эксмера Одессы Геннадию Труханову отдали ремонт путепровода на Троещине

Столичная корпорация «Киевавтодор» заключила договор на капитальный ремонт путепровода...

Американцы против экстрадиции Андрея Наумова в Украину из-за вопроса безопасности

По информации источников издания 360.ua.news, Австрия не выдаст бывшего...

Кто должен проходить обязательный технический контроль и как проверить протокол онлайн

Главный сервисный центр МВД напомнил водителям, как работает...

Депутат Максим Зеленский во время войны купил квартиру за 1,5 миллиона гривен

Депутат Харьковского областного совета Максим Зеленский во время полномасштабной...

Минимальная пенсия в Украине в 2025 году: кто и сколько гарантированно получит

В Украине пенсия не может быть ниже определенной...

Госагентство PlayCity заблокировало десятки TikTok-аккаунтов за рекламу азартных игр

Государственное агентство PlayCity заблокировало 33 профиля в TikTok, которые...

Лидер группы Бумбокс Андрей Хливнюк раскритиковал творчество Макса Барских

Лидер группы Бумбокс Андрей Хливнюк в очередной раз подчеркнул, что...