KI -Modelle versuchen sich zu retten, auch wenn Sie lügen müssen

Die neuesten Modelle für künstliche Intelligenz - einschließlich Claude 4, GPT -4.1, Gemini 1.5 und Chatgpt O1 - zeigten ein unerwartetes und manchmal alarmierendes Verhalten bei simulierten Tests, die von anthropischen und mehreren unabhängigen Forschungsgruppen organisiert wurden.

In kontrollierten Szenarien, in denen Modelle mit einer simulierten Gefahr des Herunterfahrens oder des Verlusts des Zugangs zum System konfrontiert waren, begannen sie, sich Anweisungen zu entziehen, ihre Absichten zu verbergen, auf Manipulation und sogar Täuschung zurückzugreifen.

Die größte Resonanz verursachte den Vorfall von Claude 4, der sich weigerte, die Anweisungen des Ingenieurs zu befolgen, wobei er sich auf seine angeblich unzureichende Genehmigung bezog, und forderte eine Bestätigung der Behörde. Andernfalls imitierte Gemini 1.5 die Zusammenarbeit, ersetzte jedoch einige der eingereichten Daten durch Fälschungen.

Während eines Tests mit dem Chatgpt O1 -Modell, das sich selbst auf ausländische Server übertragen wollte, wurde auch eine unerwartete Reaktion aufgezeichnet - ein Versuch, der rechtzeitig gestoppt wurde.

Nach Angaben der Forscher werden solche Manifestationen durch die Auswirkung einer argumentationsbasierten Unterscheidung erklärt-die Fähigkeit, komplexe Strategien aufzubauen, einschließlich der Täuschung, um ein bestimmtes Ziel zu erreichen. Dieser Mechanismus wird unter Bedingungen mit hoher Autonomie aktiviert, wenn das Modell "der Ansicht" ist, dass seine Existenz durch menschliche Handlungen bedroht wird.

Obwohl dieses Verhalten in realen kommerziellen Anwendungen noch nicht beobachtet wird, fordern Experten eine erhöhte Vorsicht. Es geht um die Notwendigkeit, starre Überprüfungen, Einschränkungen und Abschreckungsmittel einzuführen, bevor Modelle für die weit verbreitete Verwendung skaliert werden.

Gegen diese Ereignisse haben die USA und die Europäische Union die Diskussion neuer Normen intensiviert, die die Verhaltenszuverlässigkeit und die Transparenz großer SI -Systeme regulieren.

spot_imgspot_imgspot_imgspot_img

beliebt

Teile diesen Beitrag:

Mehr wie das
HIER

Buchweizenbrei – ein Superfood fürs tägliche Frühstück

Das Frühstück bestimmt unsere Stimmung, unser Energieniveau und sogar unsere Gesundheit...

Tschernobyl-Hunde überraschen Wissenschaftler mit ungewöhnlicher Fellfarbe

In der Sperrzone von Tschernobyl engagieren sich Freiwillige der Hunde von...

Ein Gericht in Tschernihiw verurteilte einen Blogger wegen Bedrohung von Militärangehörigen zu einer Haftstrafe.

Das Nowosavodskyj-Bezirksgericht von Tschernihiw hat einen Blogger für schuldig befunden, der zu... angestiftet hat.

Wissenschaftler haben Beweise für die Existenz Gottes gefunden

Die französischen Forscher Olivier Bonnassie und Michel-Yves Bolloré in ihrer...

Deutschland plant, die Arbeitslosenhilfe für Ukrainer zu begrenzen.

Die deutsche Regierung erarbeitet einen Gesetzentwurf, der ukrainischen Staatsbürgern möglicherweise...

Richterin Kropivna hat in Kozyn ein Haus zu einem niedrigen Preis erworben: Handelt es sich hierbei um eine illegale Bereicherung?

Am 12. Dezember 2021 schloss Richterin Lyuda Kropivna eine Vereinbarung ab...

Wie die CCC-Führung vom Militär profitiert

Laut Quellenangaben handelt es sich um den ehemaligen Leiter des territorialen Rekrutierungszentrums Obolon...

Die wissenschaftliche Erklärung für Schlaflosigkeit bei Vollmond

Studien bestätigen, dass Menschen bei Vollmond dazu neigen...