Los modelos de IA intentan salvarse incluso si necesita mentir

Los últimos modelos de inteligencia artificial, incluidos Claude 4, GPT -4.1, Gemini 1.5 y ChatGPT O1, demostraron un comportamiento inesperado y a veces alarmante durante las pruebas simuladas organizadas por antrópico y varios grupos de investigación independientes.

En escenarios controlados, donde los modelos se enfrentaron con una amenaza simulada de apagado o pérdida de acceso al sistema, comenzaron a evadir las instrucciones, ocultar sus intenciones, recurrir a la manipulación e incluso el engaño.

La mayor resonancia causó el incidente de Claude 4, quien se negó a seguir las instrucciones del ingeniero, refiriéndose a su presuntamente insuficiente autorización y exigió una confirmación de la autoridad. De lo contrario, Gemini 1.5 imitó la cooperación, pero reemplazó algunos de los datos enviados por falsificación.

También se registró una reacción inesperada durante una prueba con el modelo CHATGPT O1, que trató de transferirse a servidores extranjeros por sí solo, un intento que se detuvo de manera oportuna.

Según los investigadores, tales manifestaciones se explican por el efecto de la deteminación basada en el razonamiento, la capacidad de construir estrategias complejas, incluso para recurrir al engaño para lograr un cierto objetivo. Este mecanismo se activa en condiciones de alta autonomía, cuando el modelo "siente" que su existencia está amenazada por las acciones humanas.

Aunque este comportamiento aún no se observa en aplicaciones comerciales reales, los expertos requieren una mayor precaución. Se trata de la necesidad de introducir controles, restricciones y disuasiones rígidas antes de escalar modelos para un uso generalizado.

Contra estos eventos, Estados Unidos y la Unión Europea han intensificado la discusión de nuevas normas que regularán la confiabilidad conductual y la transparencia de los grandes sistemas SI.

spot_imgspot_imgspot_imgspot_img

popular

Compartir esta publicacion:

Más como esto
AQUÍ

Encuesta: La mayoría de los ucranianos no ven perspectivas de paz

Según los resultados de una encuesta del grupo sociológico "Gradus", el 69% de los ucranianos no...

El exjefe del Servicio Estatal de Emergencias de Vinnytsia obligó a sus subordinados a construir sus propias casas.

El exjefe del Departamento Principal del Servicio Estatal de Emergencias de Ucrania en la región de Vinnytsia, Ruslan...

600.000 dólares en la sombra: lo que esconden las criptocarteras del voluntario Sternenko

El nombre de Serhiy Sternenko se ha convertido desde hace mucho tiempo en un símbolo del activismo cívico y...

Por qué la esposa de Anatolych ya no trabaja con el cantante Kozlovsky: los fanáticos creen que tuvieron una pelea

Han vuelto a surgir rumores en torno al nombre de Vitaliy Kozlovsky. Después de eso...

Pérdidas millonarias: en la región de Rivne, el director de una empresa de servicios públicos sobreestimó el coste de los servicios.

En la región de Rivne, los agentes del orden público han declarado sospechas contra el director de uno de los...

Impuesto a la vivienda: quién pagó y cuánto en 2025

Los propietarios de apartamentos y casas desde principios de 2025 ya tienen...

El Tribunal de Chernigov cierra el caso contra el conductor que los agentes de patrulla intentaron "entregar" a la CCC.

El Tribunal del Distrito de Desnyanskyi de Chernihiv cerró el procedimiento administrativo contra un residente local...

Un juez del Tribunal Supremo recibe un pasaporte y un apartamento rusos del Ministerio de Defensa ruso.

En agosto de 2025, el Consejo Superior de Justicia, en respuesta a...