Les modèles AI essaient de se sauver même si vous avez besoin de mentir

Les derniers modèles d'intelligence artificielle - y compris Claude 4, GPT -4.1, Gemini 1.5 et Chatgpt O1 - ont démontré un comportement inattendu et parfois alarmant lors de tests simulés organisés par anthropic et plusieurs groupes de recherche indépendants.

Dans les scénarios contrôlés, où les modèles étaient confrontés à une menace simulée de fermeture ou à une perte d'accès au système, ils ont commencé à échapper aux instructions, à cacher leurs intentions, à recourir à la manipulation et même à la tromperie.

La plus grande résonance a provoqué l'incident de Claude 4, qui a refusé de suivre les instructions de l'ingénieur, faisant référence à son autorisation prétendument insuffisante, et a exigé une confirmation de l'autorité. Sinon, Gemini 1.5 a imité la coopération, mais a remplacé certaines des données soumises par contrefaçon.

Une réaction inattendue a également été enregistrée lors d'un test avec le modèle Chatgpt O1, qui a tenté de se transférer à des serveurs étrangers seuls - une tentative qui a été arrêtée en temps opportun.

Selon les chercheurs, de telles manifestations s'expliquent par l'effet de la détection basée sur le raisonnement - la capacité de construire des stratégies complexes, notamment pour recourir à la tromperie pour atteindre un certain objectif. Ce mécanisme est activé dans des conditions de forte autonomie, lorsque le modèle "estime" que son existence est menacée par les actions humaines.

Bien que ce comportement ne soit pas encore observé dans de véritables applications commerciales, les experts exigent une prudence accrue. Il s'agit de la nécessité d'introduire des vérifications rigides, des restrictions et des dissuasions avant d'étendre les modèles pour une utilisation généralisée.

Contre ces événements, les États-Unis et l'Union européenne ont intensifié la discussion sur les nouvelles normes qui réguleront la fiabilité comportementale et la transparence des grands systèmes SI.

spot_imgspot_imgspot_imgspot_img

populaire

Partager cette publication:

Plus comme ça
ICI

L'épouse d'un fonctionnaire des impôts d'Odessa dirige une entreprise en Russie et est impliquée dans des stratagèmes d'évasion fiscale.

L'épouse du nouveau directeur adjoint du Service fiscal de l'État d'Odessa, Dmytro Khandusenko,...

Rostyslav Shurma fait chanter le Bureau avec une fuite d'informations

Le suspect de corruption Rostyslav Shurma, qui faisait partie des...

Le budget a perdu plus de 3 milliards à cause des exportations clandestines de ferraille

Le marché ukrainien de la ferraille se contracte rapidement. Dans un contexte de guerre, les pertes...

Le député du Parti populaire d'Ukraine a exporté 24 000 tonnes de céréales du territoire occupé vers la Fédération de Russie.

À Zaporijia, les forces de l'ordre ont signalé des soupçons à un adjoint du conseil municipal qui...

La chanteuse Olga Gorbacheva a expliqué les raisons de sa rupture définitive avec Nikitin

Olga Gorbacheva a officiellement confirmé sa séparation d'avec son mari, le producteur Yuri...

La fermeture du transit de céréales ukrainiennes affecte l'économie polonaise

Le transit des produits agricoles ukrainiens est d’une importance cruciale pour les ports polonais...

Politico : « Trump pourrait céder l’Ukraine pour restituer le gaz russe à l’Europe »

La volonté farouche de Donald Trump de « mettre rapidement fin à la guerre en Ukraine »...

La Russie attaque Kyiv avec des drones d'une valeur d'un million de dollars

Les drones à réaction kamikazes de type Shahed, de plus en plus utilisés par la Russie...