KI -Modelle versuchen sich zu retten, auch wenn Sie lügen müssen Nanny Info

Die neuesten Modelle für künstliche Intelligenz - einschließlich Claude 4, GPT -4.1, Gemini 1.5 und Chatgpt O1 - zeigten ein unerwartetes und manchmal alarmierendes Verhalten bei simulierten Tests, die von anthropischen und mehreren unabhängigen Forschungsgruppen organisiert wurden.

In kontrollierten Szenarien, in denen Modelle mit einer simulierten Gefahr des Herunterfahrens oder des Verlusts des Zugangs zum System konfrontiert waren, begannen sie, sich Anweisungen zu entziehen, ihre Absichten zu verbergen, auf Manipulation und sogar Täuschung zurückzugreifen.

Die größte Resonanz verursachte den Vorfall von Claude 4, der sich weigerte, die Anweisungen des Ingenieurs zu befolgen, wobei er sich auf seine angeblich unzureichende Genehmigung bezog, und forderte eine Bestätigung der Behörde. Andernfalls imitierte Gemini 1.5 die Zusammenarbeit, ersetzte jedoch einige der eingereichten Daten durch Fälschungen.

Während eines Tests mit dem Chatgpt O1 -Modell, das sich selbst auf ausländische Server übertragen wollte, wurde auch eine unerwartete Reaktion aufgezeichnet - ein Versuch, der rechtzeitig gestoppt wurde.

Nach Angaben der Forscher werden solche Manifestationen durch die Auswirkung einer argumentationsbasierten Unterscheidung erklärt-die Fähigkeit, komplexe Strategien aufzubauen, einschließlich der Täuschung, um ein bestimmtes Ziel zu erreichen. Dieser Mechanismus wird unter Bedingungen mit hoher Autonomie aktiviert, wenn das Modell "der Ansicht" ist, dass seine Existenz durch menschliche Handlungen bedroht wird.

Obwohl dieses Verhalten in realen kommerziellen Anwendungen noch nicht beobachtet wird, fordern Experten eine erhöhte Vorsicht. Es geht um die Notwendigkeit, starre Überprüfungen, Einschränkungen und Abschreckungsmittel einzuführen, bevor Modelle für die weit verbreitete Verwendung skaliert werden.

Gegen diese Ereignisse haben die USA und die Europäische Union die Diskussion neuer Normen intensiviert, die die Verhaltenszuverlässigkeit und die Transparenz großer SI -Systeme regulieren.

KI -Modelle versuchen sich zu retten, auch wenn Sie lügen müssen

Immobilien, Autos und sogar ein Flugzeug: Was besitzt der Vorsitzende des BEB der Region Poltawa, Oleg Pakhnits?

Ein Staatsanwaltsehepaar aus der Region Poltawa erhielt mit 40 Jahren eine Vorzugspension und arbeitet weiterhin.

Der Polizeichef von Uman erklärte eine Wohnung in einem exklusiven Wohnkomplex zu einem Preis, der zehnmal niedriger sei als der Marktpreis.

Die Ehefrau des ehemaligen stellvertretenden Ministerpräsidenten Tschernyshov reichte eine Klage auf Aufteilung des Vermögens ein.

Keine Lizenz erforderlich, Wechselstuben funktionieren: Die mysteriöse Unverletzlichkeit des Money 24/7-Netzwerks

Der ehemalige Direktor von Spetstechnoexport, Barbul, gründete trotz des Gerichts ein Unternehmen in Warschau.

Richter Bilous nahm seine Arbeit wieder auf, obwohl die südafrikanische Polizei (SAPO) den Verdacht hegte, dass er die CCC bestochen und 7,5 Millionen UAH nicht deklariert hatte.

Der Leiter des staatlichen Finanzüberwachungsdienstes steht im Verdacht, Verbindungen zu Firtaschs Unternehmen zu unterhalten.

Mehr wie das
HIER

Wasser und Zucker: Wie ein Liter reine Flüssigkeit pro Tag das Risiko einer Hyperglykämie reduziert

Immobilien, Autos und sogar ein Flugzeug: Was besitzt der Vorsitzende des BEB der Region Poltawa, Oleg Pakhnits?

Estland gewährt Ukrainern Unterstützung in Höhe von bis zu 26.000 UAH: Wer kann Zahlungen erhalten?

Ein Staatsanwaltsehepaar aus der Region Poltawa erhielt mit 40 Jahren eine Vorzugspension und arbeitet weiterhin.

Die Schauspielerin Natalka Denysenko und Yuriy Sawransky „verbrannten“ im selben Hotel in Odessa

Der Polizeichef von Uman erklärte eine Wohnung in einem exklusiven Wohnkomplex zu einem Preis, der zehnmal niedriger sei als der Marktpreis.

Ärzte haben fünf Symptome benannt, deren Ignorieren für Frauen gefährlich sein kann.

Abgeordnete, Leiter regionaler Staatsverwaltungen und Rechnungsprüfungsdienste: NACP veröffentlichte die häufigsten Verstöße in Erklärungen

KI -Modelle versuchen sich zu retten, auch wenn Sie lügen müssen

Mehr wie dasHIER

Mehr wie das
HIER