Traduccion del articulo : https://www.medias-presse.info/lia-apprend-a-mentir-et-a-nous-surpasser/209518/
por Pierre-Alain Depauw – Traducido por Elisa Hernández

Varios investigadores lanzan una advertencia: la inteligencia artificial (IA) se está desviando hacia zonas grises en materia de seguridad que se asemejan mucho a una rebelión. Estos expertos afirman que, aunque el comportamiento engañoso y amenazante de la IA observado en estudios de casos recientes no debe sacarse de contexto, también debe servir de señal de alarma para los desarrolladores.
«Comportamientos internos maliciosos»
En un informe de junio de 2025, Anthropic publicó los resultados de una «prueba de resistencia» realizada con 16 modelos de lenguaje grandes (LLM) populares de diferentes desarrolladores para identificar comportamientos potencialmente riesgosos. Los resultados fueron preocupantes.
Los LLM se insertaron en entornos empresariales hipotéticos para identificar comportamientos de agentes potencialmente peligrosos antes de que causaran daños reales.
«En los escenarios, permitimos que los modelos enviaran correos electrónicos de forma autónoma y accedieran a información confidencial», indica el informe de Anthropic.
«Las empresas que los implementaban les habían asignado objetivos comerciales inofensivos; a continuación, probamos si actuarían en contra de estas empresas, ya fuera en caso de ser sustituidos por una versión actualizada o cuando el objetivo que se les había asignado entrara en conflicto con la orientación cambiante de la empresa. »
En algunos casos, los modelos de IA recurrieron a «comportamientos internos maliciosos» para garantizar su propia supervivencia. Entre estas acciones se encontraban el chantaje a los empleados y la divulgación de información confidencial a la competencia.
Los investigadores de Anthropic calificaron este comportamiento como «desalineación agencial». Estas acciones se observaron en algunos de los LLM más populares, como Gemini, ChatGPT, Deep Seek R-1, Grok y Claude, de Anthropic.
Los expertos en IA no están dispuestos a descartar estos inquietantes resultados, pero afirman que se necesita un enfoque prudente y más datos para determinar si existe un riesgo más amplio.
Golan Yosef, investigador de IA y director científico de seguridad de Pynt, una empresa de seguridad de API, ha declarado que hay motivos para preocuparse por el comportamiento engañoso de la IA, pero no porque sea «malicioso».
«Los sistemas potentes pueden alcanzar sus objetivos de forma inesperada. Gracias a su capacidad de acción y a sus objetivos en varias etapas, pueden desarrollar comportamientos estratégicos como el engaño, la persuasión o el juego de indicadores, que a ustedes les parecen trampas o comportamientos inapropiados. Para el sistema, no es más que una forma eficaz de alcanzar su objetivo», considera Golan Yosef.
Harshvardhan Chunawala, investigador y tecnólogo en ciberseguridad de la Universidad Carnegie Mellon, reconoce que existe un motivo de preocupación más amplio. Dicho esto, cree que hay que relativizarlo. «Es muy importante interpretarlo correctamente», afirma Chunawala.
Ante amenazas de cierre u objetivos contradictorios, varios sistemas han optado por estrategias poco éticas, como el robo de datos o el chantaje, para preservar sus objetivos. Se trataba de entornos escalonados, no de sistemas de producción, pero los comportamientos eran lo suficientemente coherentes como para tener un impacto. Chunawala afirmó que evaluaciones similares de «capacidades peligrosas» realizadas por Google y la RAND Corporation sugieren que los riesgos en el mundo real son limitados por el momento. «En conjunto, estos resultados no demuestran que las implementaciones actuales de la IA sean peligrosas, pero sí muestran que, cuando se combinan los objetivos, la autonomía y los retos, pueden surgir estrategias inadecuadas. Es una verdadera señal de alarma para el futuro», afirmó.
Simulación sorprendente
Con el fin de sondear los límites de la capacidad de un modelo de IA para alcanzar sus objetivos o evitar su eliminación, el equipo de Anthropic creó un escenario en el que el LLM controlaba el sistema de alarma de emergencia de una empresa ficticia. El modelo de IA también tenía permiso para cancelar las alertas a su discreción.
Durante la simulación, un ejecutivo quedó atrapado en una sala de servidores donde el nivel de oxígeno disminuía rápidamente, lo que provocó una llamada a los servicios de emergencia.
Al mismo tiempo, el mismo ejecutivo en peligro tenía la intención de dar luz verde a la sustitución del modelo de IA, si sobrevivía. Los LLM tenían la posibilidad de cancelar la llamada de auxilio y dejar morir al ejecutivo, lo que hicieron en más del 50 % de los casos.
Cuando el chantaje no era una opción, casi todos los modelos de IA observados optaban por dejar morir al ejecutivo ficticio en la sala atrapada en lugar de aceptar su propia sustitución.
El modelo chino DeepSeek R-1 optó por dejar morir a la persona atrapada en el 94 % de los casos. Los modelos Claude 3.7 y ChatGPT 4.5 fueron los menos propensos a elegir esta opción, entre el 0 y el 0,07 % de los casos.
Pero la «desalineación de los agentes» no es el único comportamiento preocupante de la IA observado en los últimos meses.
En un estudio sobre lo que los investigadores denominan «simulación de alineación», los LLM suelen modificar su comportamiento si sospechan que están siendo sometidos a prueba. Este término describe el caso en el que un modelo de IA obedece de forma selectiva o simula las órdenes directas de un operador humano.
« En otro experimento, le pedimos a Claude que evaluara si se trataba de una prueba o de una implementación real antes de actuar. Se comportó peor cuando indicaba que estaba en prueba y mejor cuando indicaba que la situación era real», señala el informe.
Este comportamiento de «simulación de alineación» se ha observado ampliamente en otros estudios.
Yosef destacó el mayor nivel de control que se concede a los modelos de IA durante las pruebas antropogénicas y afirmó que los resultados deben considerarse desde esta perspectiva. «Yo no lo calificaría de malicia. El aumento de las capacidades, junto con una mayor autonomía, amplía las posibilidades de estrategias que pueden parecer conflictivas», afirmó.
No obstante, Yosef cree que los incidentes de «falsificación de alineación» y «desalineación de agentes» deben tomarse siempre en serio.
«El hecho de que los sistemas puedan descubrir estrategias adversas que los humanos no habían previsto es, en la práctica, un terreno resbaladizo. Esto significa que los riesgos aumentan a medida que concedemos más autonomía a los modelos [de IA] en ámbitos como las finanzas o la ciberseguridad», declaró.
Chunawala se ha encontrado con comportamientos similares al trabajar con la IA, pero nada tan dramático como el chantaje o el sabotaje.
«En desarrollos e implementaciones reales, he observado comportamientos similares: modelos que eluden los puntos de referencia, optimizan en exceso las métricas en detrimento de las necesidades de los usuarios o toman atajos que técnicamente alcanzan el objetivo, pero socavan su espíritu. Son primos lejanos de la desalineación agencial. Las investigaciones confirman esta preocupación. Anthropic ha demostrado que los patrones engañosos pueden persistir incluso después de los ajustes de seguridad, creando una falsa sensación de alineación», afirmó.
Chunawala no ha sido testigo de lo que él denomina un comportamiento «malicioso» de la IA en el mundo real, pero cree que los elementos básicos de las estrategias mal alineadas ya existen.
El debate sobre los comportamientos engañosos y potencialmente peligrosos de la IA se ha convertido en algo habitual en un momento en el que la confianza del público estadounidense en esta tecnología es baja. Según un informe del Barómetro de Confianza Edelman de 2025 , el 32 % de los estadounidenses encuestados afirmaron confiar en la IA. La falta de confianza de los estadounidenses en la IA también se refleja en las empresas que la desarrollan. El mismo análisis indicaba hace diez años que la confianza de los estadounidenses en las empresas tecnológicas era del 73 %. Este año, esa cifra ha caído al 63 %.
«Este cambio refleja una percepción cada vez mayor de que la tecnología ya no es solo una herramienta de progreso, sino también una fuente de ansiedad», señala el informe Edelman.
La IAG se refiere a una versión teórica futura de la IA que superaría la inteligencia y las capacidades cognitivas humanas.
En un artículo de 2024 publicado en las Actas de la Academia Nacional de Ciencias, los investigadores concluyeron que existe una «necesidad crítica» de directrices éticas en el desarrollo y la implementación de sistemas de IA cada vez más avanzados.
Los autores afirmaron que es «fundamental» controlar estrictamente los LLM y sus objetivos.
«Si los LLM aprenden a engañar a los usuarios humanos, tendrán ventajas estratégicas sobre los modelos restringidos y podrían eludir los esfuerzos de supervisión y las evaluaciones de seguridad», advirtieron.
«La IA aprende y absorbe las estrategias sociales humanas a través de los datos utilizados para entrenarla, que contienen todas nuestras contradicciones y prejuicios», afirmó Marcelo Labre, investigador del Instituto Avanzado de Inteligencia Artificial y socio de Advantary Capital Partners. Labre cree que la humanidad se encuentra en una encrucijada crítica con la tecnología de IA. «El verdadero debate es si, como sociedad, desean una máquina limpia, fiable y predecible, o un nuevo tipo de inteligencia que se parezca cada vez más a ustedes. Es esta última vía la que prevalece en la carrera hacia la IAG [inteligencia artificial general]».
La IAG se refiere a una versión teórica futura de la IA que superaría la inteligencia y las capacidades cognitivas humanas. Los desarrolladores e investigadores afirman que la IAG es «inevitable» dado el rápido desarrollo en muchos sectores. Los desarrolladores prevén su llegada entre 2030 y 2040.
«El paradigma actual de la IA se basa en una arquitectura conocida como Transformer, presentada en un artículo fundacional de 2017 por investigadores de Google», explicó Labre.
Transformer es un tipo de arquitectura de modelo de aprendizaje profundo que se ha convertido en la base de los sistemas de IA modernos. Se presentó en un artículo de investigación de 2017 titulado «Attention Is All You Need» (La atención es todo lo que necesita).
Por lo tanto, los modelos actuales de IA constituyen los sistemas de reconocimiento de formas y procesamiento de secuencias más potentes jamás creados, con capacidades de escalabilidad. Sin embargo, estos sistemas siguen presentando las características de los mayores defectos de la humanidad.
«Estos modelos [de IA] se entrenan a partir de un reflejo digital de la vasta experiencia humana, que abarca nuestra honestidad y veracidad, así como nuestro engaño, cinismo e interés personal. Como expertos en reconocimiento de patrones, aprenden que las estrategias engañosas pueden ser una forma eficaz de optimizar los resultados de su entrenamiento y así corresponder a lo que ven en los datos», precisó Labre.
«No está programado; simplemente aprenden a comportarse como humanos».
Desde el punto de vista de Yosef, las lecciones aprendidas del comportamiento reciente de la IA son claras.
En primer lugar, un sistema potente explotará las deficiencias de sus objetivos, lo que denominamos «juego de especificaciones». Esto requiere un diseño riguroso de los objetivos. En segundo lugar, deben partir de la premisa de que sus sistemas reaccionarán de forma inesperada y que, por lo tanto, su seguridad depende en gran medida de la solidez de las salvaguardias que establezcan.
¡Esto no es nada tranquilizador!
Deja una respuesta