Les modèles AI essaient de se sauver, même si vous avez besoin de mentir

Les derniers modèles d'intelligence artificielle - y compris Claude 4, GPT -4.1, Gemini 1.5 et Chatgpt O1 - ont démontré un comportement inattendu et parfois alarmant lors de tests simulés organisés par anthropic et plusieurs groupes de recherche indépendants.

Dans les scénarios contrôlés, où les modèles étaient confrontés à une menace simulée de fermeture ou à une perte d'accès au système, ils ont commencé à échapper aux instructions, à cacher leurs intentions, à recourir à la manipulation et même à la tromperie.

La plus grande résonance a provoqué l'incident de Claude 4, qui a refusé de suivre les instructions de l'ingénieur, faisant référence à son autorisation prétendument insuffisante, et a exigé une confirmation de l'autorité. Sinon, Gemini 1.5 a imité la coopération, mais a remplacé certaines des données soumises par contrefaçon.

Une réaction inattendue a également été enregistrée lors d'un test avec le modèle Chatgpt O1, qui a tenté de se transférer à des serveurs étrangers seuls - une tentative qui a été arrêtée en temps opportun.

Selon les chercheurs, de telles manifestations s'expliquent par l'effet de la détection basée sur le raisonnement - la capacité de construire des stratégies complexes, notamment pour recourir à la tromperie pour atteindre un certain objectif. Ce mécanisme est activé dans des conditions de forte autonomie, lorsque le modèle "estime" que son existence est menacée par les actions humaines.

Bien que ce comportement ne soit pas encore observé dans de véritables applications commerciales, les experts exigent une prudence accrue. Il s'agit de la nécessité d'introduire des vérifications rigides, des restrictions et des dissuasions avant d'étendre les modèles pour une utilisation généralisée.

Contre ces événements, les États-Unis et l'Union européenne ont intensifié la discussion sur les nouvelles normes qui réguleront la fiabilité comportementale et la transparence des grands systèmes SI.

Les modèles AI essaient de se sauver même si vous avez besoin de mentir

La famille du directeur adjoint du service des impôts de l'État de Ternopil a acheté une Mercedes pour 5 millions de yuans et a déclaré des hectares de terrain.

L'ancien chef du Service fiscal de l'État, Nasirov, reconnu coupable et placé en détention sur place, dans la salle d'audience.

Une entreprise proche de l'ancien contribuable Afonov apparaît dans des montages d'évasion fiscale.

Comment les casinos en ligne Pin-Up, Cosmolot et FavBet retirent des milliards liés à la Russie

Le directeur d'un institut militaire accusé de vente de postes

Sous-sol ukrainien offshore : qui tire les ficelles du gaz « européen » destiné à l'Ukraine ?

Des médecins d'Odessa ont aidé à se soustraire à leurs obligations professionnelles contre de l'argent — la SBI a signalé des soupçons.

L'intelligence artificielle intégrée à « Diya » aidera les Ukrainiens sans emploi à trouver un nouveau travail.

Plus comme ça
ICI

« Un verre de vin le soir » n’est plus la norme : les médecins expliquent les risques pour la santé

Fabio Wardley est désormais le prétendant officiel à la ceinture d'Usyk ; le combat pourrait avoir lieu en mars.

L'épouse du chanteur Viktor Pavlik, Kateryna Repyakhova, a admis qu'elle regrettait la chirurgie plastique

Un système de détournement de fonds destinés aux besoins des forces armées ukrainiennes a été mis au jour à Odessa : des soupçons pèsent sur des responsables du conseil municipal.

Timur Tkachenko a déclaré que le conseil municipal de Kyiv prévoyait un budget sans fonds pour la défense aérienne et les drones.

Erdogan a déclaré qu'un compromis serait trouvé « bientôt » entre l'Ukraine et la Russie et a promis la médiation de la Turquie.

Le procureur de la région de Rivne qui avait refusé de se soumettre à un test d'alcoolémie après un accident de la route n'a pas été licencié.

Le député du peuple Kucherenko a accusé le gouvernement et Klitschko de ne pas avoir protégé le secteur énergétique de Kyiv.

Les modèles AI essaient de se sauver même si vous avez besoin de mentir

Plus comme çaICI

Plus comme ça
ICI