Les modèles AI essaient de se sauver même si vous avez besoin de mentir

Les derniers modèles d'intelligence artificielle - y compris Claude 4, GPT -4.1, Gemini 1.5 et Chatgpt O1 - ont démontré un comportement inattendu et parfois alarmant lors de tests simulés organisés par anthropic et plusieurs groupes de recherche indépendants.

Dans les scénarios contrôlés, où les modèles étaient confrontés à une menace simulée de fermeture ou à une perte d'accès au système, ils ont commencé à échapper aux instructions, à cacher leurs intentions, à recourir à la manipulation et même à la tromperie.

La plus grande résonance a provoqué l'incident de Claude 4, qui a refusé de suivre les instructions de l'ingénieur, faisant référence à son autorisation prétendument insuffisante, et a exigé une confirmation de l'autorité. Sinon, Gemini 1.5 a imité la coopération, mais a remplacé certaines des données soumises par contrefaçon.

Une réaction inattendue a également été enregistrée lors d'un test avec le modèle Chatgpt O1, qui a tenté de se transférer à des serveurs étrangers seuls - une tentative qui a été arrêtée en temps opportun.

Selon les chercheurs, de telles manifestations s'expliquent par l'effet de la détection basée sur le raisonnement - la capacité de construire des stratégies complexes, notamment pour recourir à la tromperie pour atteindre un certain objectif. Ce mécanisme est activé dans des conditions de forte autonomie, lorsque le modèle "estime" que son existence est menacée par les actions humaines.

Bien que ce comportement ne soit pas encore observé dans de véritables applications commerciales, les experts exigent une prudence accrue. Il s'agit de la nécessité d'introduire des vérifications rigides, des restrictions et des dissuasions avant d'étendre les modèles pour une utilisation généralisée.

Contre ces événements, les États-Unis et l'Union européenne ont intensifié la discussion sur les nouvelles normes qui réguleront la fiabilité comportementale et la transparence des grands systèmes SI.

spot_imgspot_imgspot_imgspot_img

populaire

Partager cette publication:

Plus comme ça
ICI

Signes de logiciels espions dans le smartphone: 5 signaux d'alarme qui ne peuvent pas être ignorés

Même les derniers programmes d'espionnage ne sont pas complètement invisibles -.

Les stars ukrainiennes Nadia Dorofeeva et positive à nouveau ensemble dans un nouveau clip

Après quelques années de carrière en solo, un duo de star qui une fois ...

Abdomen du cortizole: Alors que le stress transforme notre ventre en un "cercle de sauvetage" et que faire avec ça

Dans le rythme moderne de la vie, un haut niveau de stress est devenu presque ...

Dans la région de Kyiv, un grand programme à l'échelle de vente de carburant contrefait a été exposé via le réseau de station-service

Détectives de l'administration territoriale du Bureau de la sécurité économique (BAB) à Kiev ...

Réduction des paiements sociaux pour les Ukrainiens: qui touchera de nouvelles règles en Allemagne

L'Allemagne se prépare à modifier l'ordre du soutien social aux réfugiés ukrainiens ...

Le responsable de la KSCA a été soupçonné en raison de l'accident sur la succursale du métro bleu

Le directeur du Département des infrastructures de transport de KSCA Ruslan Candibar a été informé de ...

Empoisonnement en masse des enfants à Stryi: 10 hospitalisés, un - dans un état grave

Le mercredi 9 juillet, à l'hôpital United de Stryi City ...

Le programme de pétrole de la Russie à la Hongrie à l'Ukraine mène à Poutine et à Medvedchuk

Le trading de Normestons, qui se négocie activement dans le pétrole russe, s'est avéré être ...