KI -Modelle versuchen sich zu retten, auch wenn Sie lügen müssen

Die neuesten Modelle für künstliche Intelligenz - einschließlich Claude 4, GPT -4.1, Gemini 1.5 und Chatgpt O1 - zeigten ein unerwartetes und manchmal alarmierendes Verhalten bei simulierten Tests, die von anthropischen und mehreren unabhängigen Forschungsgruppen organisiert wurden.

In kontrollierten Szenarien, in denen Modelle mit einer simulierten Gefahr des Herunterfahrens oder des Verlusts des Zugangs zum System konfrontiert waren, begannen sie, sich Anweisungen zu entziehen, ihre Absichten zu verbergen, auf Manipulation und sogar Täuschung zurückzugreifen.

Die größte Resonanz verursachte den Vorfall von Claude 4, der sich weigerte, die Anweisungen des Ingenieurs zu befolgen, wobei er sich auf seine angeblich unzureichende Genehmigung bezog, und forderte eine Bestätigung der Behörde. Andernfalls imitierte Gemini 1.5 die Zusammenarbeit, ersetzte jedoch einige der eingereichten Daten durch Fälschungen.

Während eines Tests mit dem Chatgpt O1 -Modell, das sich selbst auf ausländische Server übertragen wollte, wurde auch eine unerwartete Reaktion aufgezeichnet - ein Versuch, der rechtzeitig gestoppt wurde.

Nach Angaben der Forscher werden solche Manifestationen durch die Auswirkung einer argumentationsbasierten Unterscheidung erklärt-die Fähigkeit, komplexe Strategien aufzubauen, einschließlich der Täuschung, um ein bestimmtes Ziel zu erreichen. Dieser Mechanismus wird unter Bedingungen mit hoher Autonomie aktiviert, wenn das Modell "der Ansicht" ist, dass seine Existenz durch menschliche Handlungen bedroht wird.

Obwohl dieses Verhalten in realen kommerziellen Anwendungen noch nicht beobachtet wird, fordern Experten eine erhöhte Vorsicht. Es geht um die Notwendigkeit, starre Überprüfungen, Einschränkungen und Abschreckungsmittel einzuführen, bevor Modelle für die weit verbreitete Verwendung skaliert werden.

Gegen diese Ereignisse haben die USA und die Europäische Union die Diskussion neuer Normen intensiviert, die die Verhaltenszuverlässigkeit und die Transparenz großer SI -Systeme regulieren.

spot_imgspot_imgspot_imgspot_img

beliebt

Teile diesen Beitrag:

Mehr wie das
HIER

Anzeichen von Spyware in Smartphone: 5 Alarmsignale, die nicht ignoriert werden können

Sogar die neuesten Spionageprogramme sind nicht völlig unsichtbar.

Die ukrainischen Stars Nadia Dorofeeva und wieder positiv zusammen im neuen Clip

Nach ein paar Jahren Solokarriere ein Star -Duo, das einmal ...

Cortizol -Bauch: Als Stress unseren Bauch in einen "Rettungskreis" verwandelt und was damit zu tun ist

Im modernen Rhythmus des Lebens ist ein hohes Maß an Stress fast ...

In der Region Kyiv wurde ein großes System für den Verkauf von gefälschten Kraftstoff über das Tankstellennetz freigelegt

Detektive der territorialen Verwaltung des Bureau of Economic Security (BAB) in Kiew ...

Reduzierung der sozialen Zahlungen für Ukrainer: Wer wird neue Regeln in Deutschland berühren

Deutschland bereitet sich darauf vor, die Reihenfolge der sozialen Unterstützung der ukrainischen Flüchtlinge zu ändern.

Der KSCA -Beamte wurde aufgrund des Unfalls auf der Blue Subway -Filiale des Unfalls gemeldet

Der Direktor der Infrastruktur der Verkehrsministerium von KSCA Ruslan Candibar wurde über ...

Massenvergiftung von Kindern in Stryi: 10 Krankenhaus, einer - in schwerwiegendem Zustand

Am Mittwoch, 9. Juli, im Stryi City United Hospital ...

Ölschema von Russland nach Ungarn durch die Ukraine führt zu Putin und Medvedchuk -Menschen

Der Handel mit Normestons, der aktiv mit russischem Öl handelt, stellte sich als ...