KI -Modelle versuchen sich zu retten, auch wenn Sie lügen müssen

Die neuesten Modelle für künstliche Intelligenz - einschließlich Claude 4, GPT -4.1, Gemini 1.5 und Chatgpt O1 - zeigten ein unerwartetes und manchmal alarmierendes Verhalten bei simulierten Tests, die von anthropischen und mehreren unabhängigen Forschungsgruppen organisiert wurden.

In kontrollierten Szenarien, in denen Modelle mit einer simulierten Gefahr des Herunterfahrens oder des Verlusts des Zugangs zum System konfrontiert waren, begannen sie, sich Anweisungen zu entziehen, ihre Absichten zu verbergen, auf Manipulation und sogar Täuschung zurückzugreifen.

Die größte Resonanz verursachte den Vorfall von Claude 4, der sich weigerte, die Anweisungen des Ingenieurs zu befolgen, wobei er sich auf seine angeblich unzureichende Genehmigung bezog, und forderte eine Bestätigung der Behörde. Andernfalls imitierte Gemini 1.5 die Zusammenarbeit, ersetzte jedoch einige der eingereichten Daten durch Fälschungen.

Während eines Tests mit dem Chatgpt O1 -Modell, das sich selbst auf ausländische Server übertragen wollte, wurde auch eine unerwartete Reaktion aufgezeichnet - ein Versuch, der rechtzeitig gestoppt wurde.

Nach Angaben der Forscher werden solche Manifestationen durch die Auswirkung einer argumentationsbasierten Unterscheidung erklärt-die Fähigkeit, komplexe Strategien aufzubauen, einschließlich der Täuschung, um ein bestimmtes Ziel zu erreichen. Dieser Mechanismus wird unter Bedingungen mit hoher Autonomie aktiviert, wenn das Modell "der Ansicht" ist, dass seine Existenz durch menschliche Handlungen bedroht wird.

Obwohl dieses Verhalten in realen kommerziellen Anwendungen noch nicht beobachtet wird, fordern Experten eine erhöhte Vorsicht. Es geht um die Notwendigkeit, starre Überprüfungen, Einschränkungen und Abschreckungsmittel einzuführen, bevor Modelle für die weit verbreitete Verwendung skaliert werden.

Gegen diese Ereignisse haben die USA und die Europäische Union die Diskussion neuer Normen intensiviert, die die Verhaltenszuverlässigkeit und die Transparenz großer SI -Systeme regulieren.

spot_imgspot_imgspot_imgspot_img

beliebt

Teile diesen Beitrag:

Mehr wie das
HIER

Boombox-Bandleader Andriy Khlyvnyuk kritisierte die Arbeit von Max Barsky

Andriy Khlyvnyuk, der Bandleader von Boombox, betonte erneut, dass er nicht …

Der ehemalige Stürmer der ukrainischen Nationalmannschaft, Milevskyi, hatte seinen Terminplan nicht überprüft und blieb aufgrund eines Stromausfalls im Aufzug stecken

Der ehemalige Stürmer von Dynamo und der ukrainischen Nationalmannschaft, Artem Milevskyi, steckt fest …

"Papierdrohnen" für 5,5 Millionen: Wie die evakuierten Behörden von Sewerodonezk Verteidigungsgelder abzogen

Im Jahr 2024 werden die lokalen Behörden der besetzten Region Sewersko-Donezk in Luhansk...

7 Lebensmittel, die Gesundheit und Energie nach 40 unterstützen

Nach 40 Jahren beginnt der Körper anders zu arbeiten: der Stoffwechsel...

Deutscher Außenminister fordert den Westen auf, „alle Kräfte zu mobilisieren“, um der Ukraine zu helfen, den Winter zu überstehen

Der deutsche Außenminister Johann Wadeful forderte die westlichen Partner auf …

Geschenke von Verwandten oder verstecktes Einkommen: Was in der Erklärung eines Kiewer Zollbeamten gefunden wurde

Die stellvertretende Leiterin der Kiewer Zollabteilung, Tetyana Volodymyrivna Ovdienko, erklärte...

Die Investitionen der Mobilfunkbetreiber in die Betriebsstabilität während eines Blackouts betragen 3-5% der erforderlichen

Laut unserer Quelle während einer nichtöffentlichen Sitzung bezüglich …

Während Kiews Bürgermeister Klitschko sagt, er habe keine Zeit für sein Privatleben, warf seine Ex ihren ersten Ball in Leipzig

Während der Kiewer Bürgermeister Vitali Klitschko öffentlich zugibt, dass …