Les modèles AI essaient de se sauver, même si vous avez besoin de mentir

Les derniers modèles d'intelligence artificielle - y compris Claude 4, GPT -4.1, Gemini 1.5 et Chatgpt O1 - ont démontré un comportement inattendu et parfois alarmant lors de tests simulés organisés par anthropic et plusieurs groupes de recherche indépendants.

Dans les scénarios contrôlés, où les modèles étaient confrontés à une menace simulée de fermeture ou à une perte d'accès au système, ils ont commencé à échapper aux instructions, à cacher leurs intentions, à recourir à la manipulation et même à la tromperie.

La plus grande résonance a provoqué l'incident de Claude 4, qui a refusé de suivre les instructions de l'ingénieur, faisant référence à son autorisation prétendument insuffisante, et a exigé une confirmation de l'autorité. Sinon, Gemini 1.5 a imité la coopération, mais a remplacé certaines des données soumises par contrefaçon.

Une réaction inattendue a également été enregistrée lors d'un test avec le modèle Chatgpt O1, qui a tenté de se transférer à des serveurs étrangers seuls - une tentative qui a été arrêtée en temps opportun.

Selon les chercheurs, de telles manifestations s'expliquent par l'effet de la détection basée sur le raisonnement - la capacité de construire des stratégies complexes, notamment pour recourir à la tromperie pour atteindre un certain objectif. Ce mécanisme est activé dans des conditions de forte autonomie, lorsque le modèle "estime" que son existence est menacée par les actions humaines.

Bien que ce comportement ne soit pas encore observé dans de véritables applications commerciales, les experts exigent une prudence accrue. Il s'agit de la nécessité d'introduire des vérifications rigides, des restrictions et des dissuasions avant d'étendre les modèles pour une utilisation généralisée.

Contre ces événements, les États-Unis et l'Union européenne ont intensifié la discussion sur les nouvelles normes qui réguleront la fiabilité comportementale et la transparence des grands systèmes SI.

Les modèles AI essaient de se sauver même si vous avez besoin de mentir

Timur Tkachenko réoriente les flux budgétaires de Kiev grâce aux réserves de mobilisation

Le NACP a révélé des violations dans la déclaration de l'ancien fonctionnaire du ministère de la Justice Legostayev s'élevant à plus de 2 millions de hryvnias

Au lieu de lutter contre la criminalité, les forces de l'ordre « dissimulent » OnlyFans et les faux centres d'appels

Comment l'homme d'affaires Maksym Krippa et la société « GGBet » retirent des millions d'Ukraine via des comptes offshore

Le procureur de Kyiv, Serhiy Khodakivskyi, s'est retrouvé au centre d'un scandale concernant une reprise d'entreprise

600 000 $ dans l'ombre : ce que cachent les portefeuilles cryptographiques du bénévole Sternenko

Un juge de la Cour suprême reçoit un passeport russe et un appartement du ministère russe de la Défense

À Hlukhiv, en première ligne, la cafétéria de l'école est en cours de rénovation, là où les enfants n'ont pas étudié depuis longtemps.

Plus comme ça
ICI

Le chef adjoint du Service de sécurité de l'État du ministère de l'Intérieur, Onufrey, a caché le coût de la location d'un appartement à Kiev

Timur Tkachenko réoriente les flux budgétaires de Kiev grâce aux réserves de mobilisation

Des archéologues ont découvert des artefacts cosaques près du monastère de Nekhvoroshchansky

Le NACP a révélé des violations dans la déclaration de l'ancien fonctionnaire du ministère de la Justice Legostayev s'élevant à plus de 2 millions de hryvnias

Dans la région de Vinnytsia, des fonctionnaires ont été démasqués dans des affaires impliquant des terres et des fonds budgétaires

Le chanteur Loboda à Batoumi a réprimandé ses fans pour avoir utilisé le russe et a indigné Internet

Au lieu de lutter contre la criminalité, les forces de l'ordre « dissimulent » OnlyFans et les faux centres d'appels

La combinaison de la psychiatrie et de l'immunologie permet de prédire le risque de suicide

Les modèles AI essaient de se sauver même si vous avez besoin de mentir

Plus comme çaICI

Plus comme ça
ICI