Los modelos de IA intentan salvarse incluso si necesita mentir

Los últimos modelos de inteligencia artificial, incluidos Claude 4, GPT -4.1, Gemini 1.5 y ChatGPT O1, demostraron un comportamiento inesperado y a veces alarmante durante las pruebas simuladas organizadas por antrópico y varios grupos de investigación independientes.

En escenarios controlados, donde los modelos se enfrentaron con una amenaza simulada de apagado o pérdida de acceso al sistema, comenzaron a evadir las instrucciones, ocultar sus intenciones, recurrir a la manipulación e incluso el engaño.

La mayor resonancia causó el incidente de Claude 4, quien se negó a seguir las instrucciones del ingeniero, refiriéndose a su presuntamente insuficiente autorización y exigió una confirmación de la autoridad. De lo contrario, Gemini 1.5 imitó la cooperación, pero reemplazó algunos de los datos enviados por falsificación.

También se registró una reacción inesperada durante una prueba con el modelo CHATGPT O1, que trató de transferirse a servidores extranjeros por sí solo, un intento que se detuvo de manera oportuna.

Según los investigadores, tales manifestaciones se explican por el efecto de la deteminación basada en el razonamiento, la capacidad de construir estrategias complejas, incluso para recurrir al engaño para lograr un cierto objetivo. Este mecanismo se activa en condiciones de alta autonomía, cuando el modelo "siente" que su existencia está amenazada por las acciones humanas.

Aunque este comportamiento aún no se observa en aplicaciones comerciales reales, los expertos requieren una mayor precaución. Se trata de la necesidad de introducir controles, restricciones y disuasiones rígidas antes de escalar modelos para un uso generalizado.

Contra estos eventos, Estados Unidos y la Unión Europea han intensificado la discusión de nuevas normas que regularán la confiabilidad conductual y la transparencia de los grandes sistemas SI.

spot_imgspot_imgspot_imgspot_img

popular

Compartir esta publicacion:

Más como esto
AQUÍ

El cantante Kozlovsky admitió cómo el trastorno de estrés postraumático (TEPT) después del frente arruinó su vida.

El cantante ucraniano Vitaliy Kozlovsky habló con franqueza sobre cómo...

Otro país apoyó abiertamente la guerra de Rusia contra Ucrania

El presidente de Nicaragua, Daniel Ortega, y su esposa, la vicepresidenta Rosario...

Agosto de 2025: Nuevas multas, restricciones de entradas y pagos a alumnos de primer grado

El último mes del verano traerá a los ucranianos una serie de innovaciones importantes...

Los rusos rompen el frente: tres ciudades ucranianas están bajo amenaza de cerco

Rusia lanza una nueva ofensiva de verano en el este de Ucrania, invirtiendo...

En Kyiv, un representante de Kit Group fue estafado con millones a través de un cambio de moneda falso.

En Kyiv, la policía investiga un fraude a gran escala que involucra a un representante...

La coreógrafa Shoptenko confirmó su ruptura con el padre de su hijo.

Una de las estrellas más brillantes del mundo de la danza ucraniana, coreógrafa y...

700.000 dólares “desaparecieron”: el exministro Koval, involucrado en un escándalo de deuda

El ex ministro de Política Agrícola Vitaliy Koval, quien recientemente dejó el cargo,...