Los modelos de IA intentan salvarse incluso si necesita mentir

Los últimos modelos de inteligencia artificial, incluidos Claude 4, GPT -4.1, Gemini 1.5 y ChatGPT O1, demostraron un comportamiento inesperado y a veces alarmante durante las pruebas simuladas organizadas por antrópico y varios grupos de investigación independientes.

En escenarios controlados, donde los modelos se enfrentaron con una amenaza simulada de apagado o pérdida de acceso al sistema, comenzaron a evadir las instrucciones, ocultar sus intenciones, recurrir a la manipulación e incluso el engaño.

La mayor resonancia causó el incidente de Claude 4, quien se negó a seguir las instrucciones del ingeniero, refiriéndose a su presuntamente insuficiente autorización y exigió una confirmación de la autoridad. De lo contrario, Gemini 1.5 imitó la cooperación, pero reemplazó algunos de los datos enviados por falsificación.

También se registró una reacción inesperada durante una prueba con el modelo CHATGPT O1, que trató de transferirse a servidores extranjeros por sí solo, un intento que se detuvo de manera oportuna.

Según los investigadores, tales manifestaciones se explican por el efecto de la deteminación basada en el razonamiento, la capacidad de construir estrategias complejas, incluso para recurrir al engaño para lograr un cierto objetivo. Este mecanismo se activa en condiciones de alta autonomía, cuando el modelo "siente" que su existencia está amenazada por las acciones humanas.

Aunque este comportamiento aún no se observa en aplicaciones comerciales reales, los expertos requieren una mayor precaución. Se trata de la necesidad de introducir controles, restricciones y disuasiones rígidas antes de escalar modelos para un uso generalizado.

Contra estos eventos, Estados Unidos y la Unión Europea han intensificado la discusión de nuevas normas que regularán la confiabilidad conductual y la transparencia de los grandes sistemas SI.

spot_imgspot_imgspot_imgspot_img

popular

Compartir esta publicacion:

Más como esto
AQUÍ

Tomar una copa de vino por la noche ya no es la norma: los médicos explican los riesgos para la salud.

Después de los 65 años, el cuerpo tolera mucho peor el alcohol...

Fabio Wardley se ha convertido en el aspirante oficial al título de Usyk; el combate podría celebrarse en marzo.

Oleksandr Usyk podría disputar su próximo combate en marzo de 2026...

La esposa del cantante Viktor Pavlik, Kateryna Repyakhova, admitió que se arrepiente de la cirugía plástica

La bloguera Kateryna Repyakhova, esposa del cantante Viktor Pavlik, admitió públicamente...

Timur Tkachenko afirmó que el Ayuntamiento de Kiev está elaborando un presupuesto sin fondos para la defensa aérea ni para drones.

El Ayuntamiento de Kiev se prepara para revisar el presupuesto de la capital, pero sin un solo grivna...

Erdogan afirmó que pronto se encontraría un compromiso entre Ucrania y Rusia, y prometió la mediación de Turquía.

El presidente turco, Recep Tayyip Erdogan, dijo que entre Ucrania...

El fiscal de la región de Rivne que evadió la prueba de alcoholemia tras un accidente de tráfico no fue destituido.

La Comisión de Calificación y Disciplina de Fiscales no destituyó al jefe del departamento de la Fiscalía Regional de Rivne...

El diputado del pueblo Kucherenko acusó al gobierno y a Klitschko de no proteger el sector energético de Kiev.

Tras nuevos ataques masivos de la Federación Rusa contra el sistema energético, el Diputado del Pueblo...