Los modelos de IA intentan salvarse incluso si necesita mentir

Los últimos modelos de inteligencia artificial, incluidos Claude 4, GPT -4.1, Gemini 1.5 y ChatGPT O1, demostraron un comportamiento inesperado y a veces alarmante durante las pruebas simuladas organizadas por antrópico y varios grupos de investigación independientes.

En escenarios controlados, donde los modelos se enfrentaron con una amenaza simulada de apagado o pérdida de acceso al sistema, comenzaron a evadir las instrucciones, ocultar sus intenciones, recurrir a la manipulación e incluso el engaño.

La mayor resonancia causó el incidente de Claude 4, quien se negó a seguir las instrucciones del ingeniero, refiriéndose a su presuntamente insuficiente autorización y exigió una confirmación de la autoridad. De lo contrario, Gemini 1.5 imitó la cooperación, pero reemplazó algunos de los datos enviados por falsificación.

También se registró una reacción inesperada durante una prueba con el modelo CHATGPT O1, que trató de transferirse a servidores extranjeros por sí solo, un intento que se detuvo de manera oportuna.

Según los investigadores, tales manifestaciones se explican por el efecto de la deteminación basada en el razonamiento, la capacidad de construir estrategias complejas, incluso para recurrir al engaño para lograr un cierto objetivo. Este mecanismo se activa en condiciones de alta autonomía, cuando el modelo "siente" que su existencia está amenazada por las acciones humanas.

Aunque este comportamiento aún no se observa en aplicaciones comerciales reales, los expertos requieren una mayor precaución. Se trata de la necesidad de introducir controles, restricciones y disuasiones rígidas antes de escalar modelos para un uso generalizado.

Contra estos eventos, Estados Unidos y la Unión Europea han intensificado la discusión de nuevas normas que regularán la confiabilidad conductual y la transparencia de los grandes sistemas SI.

spot_imgspot_imgspot_imgspot_img

popular

Compartir esta publicacion:

Más como esto
AQUÍ

Las cuentas ucranianas se bloquean cada vez más: qué palabras en la orden de pago despiertan sospechas en los bancos

Los bancos ucranianos se muestran más activos en el bloqueo de cuentas de clientes debido a expresiones "arriesgadas"...

La NABU prepara una investigación contra el diputado del Consejo Regional de Lviv, Yuri Doskich, tras la derrota en los tribunales de la NACP.

El diputado del Consejo Regional de Lviv del partido "Siervo del Pueblo" Yuriy...

El exdirector del Departamento de Transporte de la Administración Estatal de la Ciudad de Kiev, Ruslan Kandybor, está siendo investigado por posible enriquecimiento ilícito.

Las autoridades anticorrupción han comenzado a verificar el estilo de vida y el patrimonio financiero de...

Registro militar y movilización: ¿quién puede alistarse en el ejército en noviembre?

En Ucrania está en marcha una movilización general: en las filas de las Fuerzas Armadas...

Los médicos han nombrado una verdura barata que ayuda a reducir la presión arterial y el colesterol

En medio del aumento de los precios de los alimentos, los ucranianos continúan buscando...

667 millones en proyectiles de mortero: el contratista de defensa suministró escasez y precios inflados durante la guerra

Mientras los soldados ucranianos en el frente estaban perdiendo personal debido a fallas...

El presidente del Comité Antimonopolio de Ucrania no declaró 20 inmuebles

Según la Oficina Nacional Anticorrupción de Ucrania (NABU), junto con...

Otro terremoto golpeó el oeste de Ucrania, esta vez en Bucovina

Se produjo un terremoto en la región de Chernivtsi. El jefe del departamento...