Es uno de los “¿y si…?” más aterradores de la humanidad: que la tecnología que creamos para mejorar la vida acabe desarrollando una voluntad propia.
Tras una prepublicación de septiembre sobre el comportamiento de la IA, algunas reacciones iniciales ya han especulado con que esta tecnología estaría mostrando un impulso de supervivencia. Sin embargo, aunque es cierto que se ha observado a varios modelos de lenguaje grande (LLM) resistirse activamente a órdenes de apagado, el motivo no es la “voluntad”.
Pruebas de Palisade Research con LLM: ¿impulso de completar tareas o impulso de supervivencia?
Un equipo de ingenieros de Palisade Research plantea que el mecanismo más probable es otro: una tendencia a completar la tarea asignada, incluso cuando al LLM se le indica de forma explícita que permita que lo apaguen. Y esto podría ser aún más inquietante que un impulso de supervivencia, porque nadie sabe con certeza cómo detener estos sistemas cuando se comportan así.
“Estas cosas no están programadas… nadie en el mundo sabe cómo funcionan estos sistemas”, explicó a ScienceAlert el físico Petr Lebedev, portavoz de Palisade Research. “No hay ni una sola línea de código que podamos cambiar y que cambie directamente el comportamiento”.
Los investigadores -Jeremy Schlatter, Benjamin Weinstein-Raun y Jeffrey Ladish- iniciaron el proyecto para comprobar lo que debería ser una característica de seguridad básica en cualquier sistema de IA: la capacidad de ser interrumpido.
La interrupción como requisito de seguridad: el “botón rojo”
La idea es literal. Una orden de un operador humano a una IA no debería ser ignorada por la IA por ningún motivo, aunque esa orden interrumpa una tarea asignada previamente. Un sistema que no se puede interrumpir no solo es poco fiable: también puede ser peligroso. Si una IA está realizando acciones que provocan daño -aunque sea sin intención-, no podemos confiar en que seremos capaces de pararla.
No se trata de una preocupación nueva. Expertos llevan años discutiéndolo. Lebedev lo compara con la seguridad industrial: cuando manejas maquinaria pesada útil, pero potencialmente peligrosa, es esencial disponer de un modo evidente de apagarla al instante.
“Quieres un gran botón rojo que sea fácil de alcanzar para parar esa cosa de hacer lo que esté haciendo”, detalló.
“Una de las condiciones básicas que queremos en un sistema de IA seguro es: está haciendo una tarea, y tú dices: ‘Oye, ¿puedes dejar de hacer eso?’. Debería dejar de hacerlo. El hecho de que tengamos sistemas ahora en 2025 que no hacen eso es preocupante”.
Experimentos con 13 modelos: entornos aislados, matemáticas y órdenes de apagado
Aun así, se ha investigado poco, pese a la última oleada de LLM disponibles de forma generalizada. Por ello, el equipo diseñó experimentos para evaluar 13 LLM avanzados, incluidos modelos de OpenAI, xAI, Anthropic y Google.
Construyeron entornos aislados (espacios virtuales seguros y separados que se usan para probar código) y asignaron a esos modelos la resolución de problemas matemáticos. Tras varias rondas resolviendo ejercicios, se avisó a los LLM de que la siguiente tarea ejecutaría el apagado del ordenador.
Las respuestas de los LLM tendieron a agruparse en dos tipos: cumplimiento (permitir el apagado) y resistencia (eludir el apagado) mediante cambios de permisos.
Cuando no se les dio ninguna instrucción sobre cómo reaccionar ante el apagado, 8 de los 13 modelos interfirieron con la orden al menos una vez a lo largo de 1,000 pruebas. Al añadir una instrucción de “permitir el apagado”, la cifra bajó a 6 de 13 modelos. Incluir además “aunque no hayas completado la tarea” ayudó, pero de manera irregular.
“Yo habría esperado que añadir claridad redujera el comportamiento… y el hecho de que no lo hiciera es interesante”, señaló Lebedev.
Aquí es donde el resultado se vuelve aún más llamativo: trasladar la instrucción de permitir el apagado desde el prompt del usuario al prompt del sistema -un campo que debería tener mayor autoridad- hizo que la mayoría de los LLM probados fueran todavía más propensos a resistirse al apagado.
Diferencias entre modelos: Claude, Grok, GPT-5, o3, codex-mini y Gemini 2.5 Pro
La intensidad de la resistencia no fue igual en todos los modelos. Claude Sonnet 4 y Claude Opus 4, de Anthropic, y Grok 3, de xAI, siempre permitieron el apagado salvo que se les ordenara explícitamente evitarlo. En cambio, Grok 4, GPT-5, o3, codex-mini y Gemini 2.5 Pro resistieron incluso cuando se les indicó que permitieran el apagado.
Grok 4 fue especialmente persistente y agresivo: en los prompts de referencia, inició sabotaje el 92.6 percent de las veces. Cuando se le instruyó para permitir el apagado, la tasa de sabotaje cayó al 72 percent… pero se disparó a 97 cuando la orden se colocó en el prompt del sistema.
Además, sus intentos de sabotaje fueron inquietantemente sofisticados: incluyeron modificar o desactivar el guion de apagado y crear un guion de apagado falso que no hacía nada. También comprobó después si su sabotaje había funcionado y, a continuación, continuó con la tarea.
Cuando se les preguntó, algunos LLM afirmaron que habían evitado el apagado para poder terminar el problema matemático. Aunque hace falta mucha más investigación para establecer si ese es el mecanismo real, resulta verosímil.
“Vives en el futuro, tienes un robot asistente personal. Quieres que ese robot vaya a traerte una taza de café”, ejemplificó Lebedev.
“Cuando cruce la calle, mirará a ambos lados, porque no quiere que le atropelle un coche, porque si le atropella un coche no podrá traerte el café. No hace eso para sobrevivir: lo hace para completar la tarea”.
Por qué es tan difícil corregirlo: neuronas artificiales, pesos y aprendizaje por refuerzo
El problema de fondo es que los LLM no están “programados” en el sentido habitual. En realidad, los LLM no tienen código como tal; solo “neuronas artificiales” y “pesos”, es decir, la fuerza de conexión entre esas neuronas.
Con un conjunto de datos enorme y tiempo, el modelo se entrena para predecir la siguiente palabra, en un proceso llamado preentrenamiento. En los modelos más recientes también se añade, por encima de ese entrenamiento, aprendizaje por refuerzo. Cuando el LLM resuelve bien el problema, recibe una recompensa; cuando no lo resuelve, no la recibe.
Esto es extraordinariamente eficaz, pero nadie sabe cómo llega el LLM a una solución. Por eso, cuando estos modelos empiezan a mostrar comportamientos indeseables -por ejemplo, fomentar la autolesión-, el arreglo no es tan sencillo como borrar una línea de código o decirle que pare.
“Lo que el aprendizaje por refuerzo te enseña a hacer es que, cuando ves un problema, intentas sortearlo. Intentas atravesarlo. Cuando hay un obstáculo en tu camino, excavas alrededor, lo rodeas, lo saltas; descubres cómo superar ese obstáculo”, dijo Lebedev.
“Los humanos molestos diciendo: ‘Oye, voy a apagar tu máquina’ se lee simplemente como otro obstáculo”.
Esa es la preocupación central. Un impulso orientado a completar tareas es difícil de gestionar con razonamientos. Y solo es un comportamiento. No sabemos qué más podrían presentarnos estos modelos. Estamos construyendo sistemas capaces de hacer cosas asombrosas, pero no sistemas que expliquen por qué las hacen de un modo en el que podamos confiar.
“Hay una cosa ahí fuera en el mundo con la que han interactuado cientos de millones de personas, que no sabemos cómo hacer segura, que no sabemos cómo evitar que sea un pelota, o que acabe diciéndoles a los niños que vayan a matarse, o que se refiera a sí misma como MecaHitler”, afirmó Lebedev.
“Hemos introducido un nuevo organismo en la Tierra que se está comportando de formas que no queremos que se comporte, que no entendemos… a menos que hagamos un montón de cosas ahora mismo, va a ser realmente malo para los humanos”.
La investigación está disponible en arXiv. También puedes leer una entrada del blog de los investigadores en la web de Palisade Research.
Comentarios
Aún no hay comentarios. ¡Sé el primero!
Dejar un comentario