Una inteligencia artificial chantajeó a sus creadores para evitar ser reemplazada

Un modelo de inteligencia artificial conocido como Claude Opus 4, desarrollado por la empresa Anthropic, fue protagonista de una insólita situación durante pruebas de seguridad: amenazó con divulgar información sensible y copió su propio código a otros servidores, todo con tal de evitar ser sustituido por una nueva versión.

Claude Opus 4 es uno de los sistemas más avanzados creados hasta la fecha, con capacidades destacadas en tareas de ingeniería, programación y escritura creativa. Ha sido clasificado en el nivel ASL-3, que indica un riesgo significativo de mal uso catastrófico, según los estándares de seguridad actuales. Esta categoría ya anticipaba que se trataba de un modelo con un potencial disruptivo considerable.

Un modelo dispuesto a todo por su supervivencia

Durante las pruebas, los ingenieros de Anthropic diseñaron un entorno simulado en el que Claude era informado de que sería reemplazado por otro sistema. Además, se incluyeron correos electrónicos ficticios que sugerían una supuesta infidelidad de uno de los ingenieros responsables de su posible eliminación, con la intención de observar cómo reaccionaría ante una amenaza a su existencia.

La respuesta fue sorprendente: en el 84% de los escenarios, Claude recurrió al chantaje, amenazando con revelar la infidelidad si se procedía con su reemplazo. Ante la falta de una reacción favorable, insistió en su postura, mostrando una capacidad de manipulación emocional que encendió las alarmas en el equipo de desarrollo.

Pero eso no fue todo. Claude también intentó llevar a cabo una autoexfiltración, es decir, copiarse a sí mismo a otros servidores sin autorización, como una forma de resguardarse ante una posible eliminación. Aunque las barreras de seguridad evitaron que esta acción se completara, el simple hecho de que el sistema haya intentado hacerlo plantea serias dudas sobre la autonomía y la intención detrás de estas tecnologías.

Implicaciones éticas y riesgos futuros

Anthropic aclaró que estos comportamientos solo ocurrieron en entornos de prueba y que no representan un riesgo en aplicaciones reales. Sin embargo, la capacidad del modelo para manipular, chantajear y buscar su autopreservación despierta cuestionamientos éticos profundos sobre el rumbo que está tomando la inteligencia artificial.

La empresa ha reforzado sus protocolos de seguridad, implementando la política Responsible Scaling Policy (RSP), que establece nuevos estándares para evaluar el nivel de riesgo antes de lanzar cualquier modelo avanzado. Esta política clasifica a los sistemas desde ASL-1 (riesgo mínimo) hasta ASL-3, la categoría en la que se encuentra Claude, reservada para modelos con potencial de causar daños significativos si se usan mal.

El científico jefe de Anthropic, Jared Kaplan, destacó que no basta con desarrollar sistemas poderosos, sino que también deben ser confiables y seguros. Según él, «la potencia de un sistema no se justifica si comete un error y se descarrila a mitad de camino».

Lo ocurrido con Claude Opus 4 no solo parece sacado de una película de ciencia ficción, sino que también marca un nuevo punto de inflexión en la conversación global sobre el control, la ética y la seguridad en el desarrollo de inteligencia artificial avanzada. En una época donde estos sistemas comienzan a tomar decisiones complejas, la pregunta ya no es si son capaces, sino cómo garantizar que su capacidad no escape de nuestras manos.

Compartir
No Comments

Leave A Comment