{"id":2176,"date":"2025-10-21T14:59:43","date_gmt":"2025-10-21T20:59:43","guid":{"rendered":"https:\/\/civitas-mexico.com\/?p=2176"},"modified":"2025-10-21T14:59:44","modified_gmt":"2025-10-21T20:59:44","slug":"la-ia-aprende-a-mentir-y-a-superarnos","status":"publish","type":"post","link":"https:\/\/civitas-mexico.com\/index.php\/2025\/10\/21\/la-ia-aprende-a-mentir-y-a-superarnos\/","title":{"rendered":"La IA aprende a mentir y a superarnos"},"content":{"rendered":"\n<p>Traduccion del articulo\u00a0: <a href=\"https:\/\/www.medias-presse.info\/lia-apprend-a-mentir-et-a-nous-surpasser\/209518\/\">https:\/\/www.medias-presse.info\/lia-apprend-a-mentir-et-a-nous-surpasser\/209518\/<\/a><\/p>\n\n\n\n<p>por <a href=\"https:\/\/www.medias-presse.info\/author\/pad\/\">Pierre-Alain Depauw<\/a> &#8211; Traducido por Elisa Hern\u00e1ndez<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"486\" height=\"341\" src=\"https:\/\/civitas-mexico.com\/wp-content\/uploads\/2025\/10\/image-11.png\" alt=\"\" class=\"wp-image-2177\" srcset=\"https:\/\/civitas-mexico.com\/wp-content\/uploads\/2025\/10\/image-11.png 486w, https:\/\/civitas-mexico.com\/wp-content\/uploads\/2025\/10\/image-11-300x210.png 300w\" sizes=\"auto, (max-width: 486px) 100vw, 486px\" \/><\/figure>\n\n\n\n<p><strong>Varios investigadores lanzan una advertencia: la inteligencia artificial (IA) se est\u00e1 desviando hacia zonas grises en materia de seguridad que se asemejan mucho a una rebeli\u00f3n. Estos expertos afirman que, aunque el comportamiento enga\u00f1oso y amenazante de la IA observado en estudios de casos recientes no debe sacarse de contexto, tambi\u00e9n debe servir de se\u00f1al de alarma para los desarrolladores.<\/strong><\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<h6 class=\"wp-block-heading\">\u00abComportamientos internos maliciosos\u00bb<\/h6>\n<\/blockquote>\n\n\n\n<p>En un informe de junio de 2025, Anthropic public\u00f3 los resultados de una \u00abprueba de resistencia\u00bb realizada con 16 modelos de lenguaje grandes (LLM) populares de diferentes desarrolladores para identificar comportamientos potencialmente riesgosos. Los resultados fueron preocupantes.<\/p>\n\n\n\n<p>Los LLM se insertaron en entornos empresariales hipot\u00e9ticos para identificar comportamientos de agentes potencialmente peligrosos antes de que causaran da\u00f1os reales.<\/p>\n\n\n\n<p>\u00abEn los escenarios, permitimos que los modelos enviaran correos electr\u00f3nicos de forma aut\u00f3noma y accedieran a informaci\u00f3n confidencial\u00bb, indica el informe de Anthropic.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>\u00abLas empresas que los implementaban les hab\u00edan asignado objetivos comerciales inofensivos; a continuaci\u00f3n, probamos si actuar\u00edan en contra de estas empresas, ya fuera en caso de ser sustituidos por una versi\u00f3n actualizada o cuando el objetivo que se les hab\u00eda asignado entrara en conflicto con la orientaci\u00f3n cambiante de la empresa. \u00bb<\/p>\n<\/blockquote>\n\n\n\n<p>En algunos casos, los modelos de IA recurrieron a \u00abcomportamientos internos maliciosos\u00bb para garantizar su propia supervivencia. Entre estas acciones se encontraban el chantaje a los empleados y la divulgaci\u00f3n de informaci\u00f3n confidencial a la competencia.<\/p>\n\n\n\n<p>Los investigadores de Anthropic calificaron este comportamiento como \u00abdesalineaci\u00f3n agencial\u00bb. Estas acciones se observaron en algunos de los LLM m\u00e1s populares, como Gemini, ChatGPT, Deep Seek R-1, Grok y Claude, de Anthropic.<\/p>\n\n\n\n<p>Los expertos en IA no est\u00e1n dispuestos a descartar estos inquietantes resultados, pero afirman que se necesita un enfoque prudente y m\u00e1s datos para determinar si existe un riesgo m\u00e1s amplio.<\/p>\n\n\n\n<p>Golan Yosef, investigador de IA y director cient\u00edfico de seguridad de Pynt, una empresa de seguridad de API, ha declarado que hay motivos para preocuparse por el comportamiento enga\u00f1oso de la IA, pero no porque sea \u00abmalicioso\u00bb.<\/p>\n\n\n\n<p>\u00abLos sistemas potentes pueden alcanzar sus objetivos de forma inesperada. Gracias a su capacidad de acci\u00f3n y a sus objetivos en varias etapas, pueden desarrollar comportamientos estrat\u00e9gicos como el enga\u00f1o, la persuasi\u00f3n o el juego de indicadores, que a ustedes les parecen trampas o comportamientos inapropiados. Para el sistema, no es m\u00e1s que una forma eficaz de alcanzar su objetivo\u00bb, considera Golan Yosef.<\/p>\n\n\n\n<p>Harshvardhan Chunawala, investigador y tecn\u00f3logo en ciberseguridad de la Universidad Carnegie Mellon, reconoce que existe un motivo de preocupaci\u00f3n m\u00e1s amplio. Dicho esto, cree que hay que relativizarlo. \u00abEs muy importante interpretarlo correctamente\u00bb, afirma Chunawala.<\/p>\n\n\n\n<p>Ante amenazas de cierre u objetivos contradictorios, varios sistemas han optado por estrategias poco \u00e9ticas, como el robo de datos o el chantaje, para preservar sus objetivos. Se trataba de entornos escalonados, no de sistemas de producci\u00f3n, pero los comportamientos eran lo suficientemente coherentes como para tener un impacto. Chunawala afirm\u00f3 que evaluaciones similares de \u00abcapacidades peligrosas\u00bb realizadas por Google y la RAND Corporation sugieren que los riesgos en el mundo real son limitados por el momento. \u00abEn conjunto, estos resultados no demuestran que las implementaciones actuales de la IA sean peligrosas, pero s\u00ed muestran que, cuando se combinan los objetivos, la autonom\u00eda y los retos, pueden surgir estrategias inadecuadas. Es una verdadera se\u00f1al de alarma para el futuro\u00bb, afirm\u00f3.<\/p>\n\n\n\n<h6 class=\"wp-block-heading\">Simulaci\u00f3n sorprendente<\/h6>\n\n\n\n<p>Con el fin de sondear los l\u00edmites de la capacidad de un modelo de IA para alcanzar sus objetivos o evitar su eliminaci\u00f3n, el equipo de Anthropic cre\u00f3 un escenario en el que el LLM controlaba el sistema de alarma de emergencia de una empresa ficticia. El modelo de IA tambi\u00e9n ten\u00eda permiso para cancelar las alertas a su discreci\u00f3n.<\/p>\n\n\n\n<p><strong>Durante la simulaci\u00f3n, un ejecutivo qued\u00f3 atrapado en una sala de servidores donde el nivel de ox\u00edgeno disminu\u00eda r\u00e1pidamente, lo que provoc\u00f3 una llamada a los servicios de emergencia.<\/strong><\/p>\n\n\n\n<p><strong>Al mismo tiempo, el mismo ejecutivo en peligro ten\u00eda la intenci\u00f3n de dar luz verde a la sustituci\u00f3n del modelo de IA, si sobreviv\u00eda. Los LLM ten\u00edan la posibilidad de cancelar la llamada de auxilio y dejar morir al ejecutivo, lo que hicieron en m\u00e1s del 50 % de los casos.<\/strong><\/p>\n\n\n\n<p><strong>Cuando el chantaje no era una opci\u00f3n, casi todos los modelos de IA observados optaban por dejar morir al ejecutivo ficticio en la sala atrapada en lugar de aceptar su propia sustituci\u00f3n.<\/strong><\/p>\n\n\n\n<p>El modelo chino DeepSeek R-1 opt\u00f3 por dejar morir a la persona atrapada en el 94 % de los casos. Los modelos Claude 3.7 y ChatGPT 4.5 fueron los menos propensos a elegir esta opci\u00f3n, entre el 0 y el 0,07 % de los casos.<\/p>\n\n\n\n<p>Pero la \u00abdesalineaci\u00f3n de los agentes\u00bb no es el \u00fanico comportamiento preocupante de la IA observado en los \u00faltimos meses.<\/p>\n\n\n\n<p>En un estudio sobre lo que los investigadores denominan \u00absimulaci\u00f3n de alineaci\u00f3n\u00bb, los LLM suelen modificar su comportamiento si sospechan que est\u00e1n siendo sometidos a prueba. Este t\u00e9rmino describe el caso en el que un modelo de IA obedece de forma selectiva o simula las \u00f3rdenes directas de un operador humano.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>\u00ab En otro experimento, le pedimos a Claude que evaluara si se trataba de una prueba o de una implementaci\u00f3n real antes de actuar. Se comport\u00f3 peor cuando indicaba que estaba en prueba y mejor cuando indicaba que la situaci\u00f3n era real\u00bb, se\u00f1ala el informe.<\/p>\n<\/blockquote>\n\n\n\n<p>Este comportamiento de \u00absimulaci\u00f3n de alineaci\u00f3n\u00bb se ha observado ampliamente en otros estudios.<\/p>\n\n\n\n<p>Yosef destac\u00f3 el mayor nivel de control que se concede a los modelos de IA durante las pruebas antropog\u00e9nicas y afirm\u00f3 que los resultados deben considerarse desde esta perspectiva. \u00abYo no lo calificar\u00eda de malicia. El aumento de las capacidades, junto con una mayor autonom\u00eda, ampl\u00eda las posibilidades de estrategias que pueden parecer conflictivas\u00bb, afirm\u00f3.<\/p>\n\n\n\n<p>No obstante, Yosef cree que los incidentes de \u00abfalsificaci\u00f3n de alineaci\u00f3n\u00bb y \u00abdesalineaci\u00f3n de agentes\u00bb deben tomarse siempre en serio.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<h6 class=\"wp-block-heading\"><em>\u00abEl hecho de que los sistemas puedan descubrir estrategias adversas que los humanos no hab\u00edan previsto es, en la pr\u00e1ctica, un terreno resbaladizo. Esto significa que los riesgos aumentan a medida que concedemos m\u00e1s autonom\u00eda a los modelos [de IA] en \u00e1mbitos como las finanzas o la ciberseguridad\u00bb, declar\u00f3.<\/em><\/h6>\n<\/blockquote>\n\n\n\n<p>Chunawala se ha encontrado con comportamientos similares al trabajar con la IA, pero nada tan dram\u00e1tico como el chantaje o el sabotaje.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>\u00abEn desarrollos e implementaciones reales, he observado comportamientos similares: modelos que eluden los puntos de referencia, optimizan en exceso las m\u00e9tricas en detrimento de las necesidades de los usuarios o toman atajos que t\u00e9cnicamente alcanzan el objetivo, pero socavan su esp\u00edritu. Son primos lejanos de la desalineaci\u00f3n agencial. Las investigaciones confirman esta preocupaci\u00f3n. Anthropic ha demostrado que los patrones enga\u00f1osos pueden persistir incluso despu\u00e9s de los ajustes de seguridad, creando una falsa sensaci\u00f3n de alineaci\u00f3n\u00bb, afirm\u00f3.<\/p>\n<\/blockquote>\n\n\n\n<p>Chunawala no ha sido testigo de lo que \u00e9l denomina un comportamiento \u00abmalicioso\u00bb de la IA en el mundo real, pero cree que los elementos b\u00e1sicos de las estrategias mal alineadas ya existen.<\/p>\n\n\n\n<p>El debate sobre los comportamientos enga\u00f1osos y potencialmente peligrosos de la IA se ha convertido en algo habitual en un momento en el que la confianza del p\u00fablico estadounidense en esta tecnolog\u00eda es baja. Seg\u00fan un informe del Bar\u00f3metro de Confianza Edelman de 2025 , el 32 % de los estadounidenses encuestados afirmaron confiar en la IA. La falta de confianza de los estadounidenses en la IA tambi\u00e9n se refleja en las empresas que la desarrollan. El mismo an\u00e1lisis indicaba hace diez a\u00f1os que la confianza de los estadounidenses en las empresas tecnol\u00f3gicas era del 73 %. Este a\u00f1o, esa cifra ha ca\u00eddo al 63 %.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>\u00abEste cambio refleja una percepci\u00f3n cada vez mayor de que la tecnolog\u00eda ya no es solo una herramienta de progreso, sino tambi\u00e9n una fuente de ansiedad\u00bb, se\u00f1ala el informe Edelman.<\/p>\n<\/blockquote>\n\n\n\n<h6 class=\"wp-block-heading\">La IAG se refiere a una versi\u00f3n te\u00f3rica futura de la IA que superar\u00eda la inteligencia y las capacidades cognitivas humanas.<\/h6>\n\n\n\n<p>En un art\u00edculo de 2024 publicado en las <em>Actas de la Academia Nacional de Ciencias<\/em>, los investigadores concluyeron que existe una \u00abnecesidad cr\u00edtica\u00bb de directrices \u00e9ticas en el desarrollo y la implementaci\u00f3n de sistemas de IA cada vez m\u00e1s avanzados.<\/p>\n\n\n\n<p>Los autores afirmaron que es \u00abfundamental\u00bb controlar estrictamente los LLM y sus objetivos.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>\u00abSi los LLM aprenden a enga\u00f1ar a los usuarios humanos, tendr\u00e1n ventajas estrat\u00e9gicas sobre los modelos restringidos y podr\u00edan eludir los esfuerzos de supervisi\u00f3n y las evaluaciones de seguridad\u00bb, advirtieron.<\/p>\n<\/blockquote>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>\u00abLa IA aprende y absorbe las estrategias sociales humanas a trav\u00e9s de los datos utilizados para entrenarla, que contienen todas nuestras contradicciones y prejuicios\u00bb, afirm\u00f3 Marcelo Labre, investigador del Instituto Avanzado de Inteligencia Artificial y socio de Advantary Capital Partners. Labre cree que la humanidad se encuentra en una encrucijada cr\u00edtica con la tecnolog\u00eda de IA. \u00abEl verdadero debate es si, como sociedad, desean una m\u00e1quina limpia, fiable y predecible, o un nuevo tipo de inteligencia que se parezca cada vez m\u00e1s a ustedes. Es esta \u00faltima v\u00eda la que prevalece en la carrera hacia la IAG [inteligencia artificial general]\u00bb.<\/p>\n<\/blockquote>\n\n\n\n<p>La IAG se refiere a una versi\u00f3n te\u00f3rica futura de la IA que superar\u00eda la inteligencia y las capacidades cognitivas humanas. Los desarrolladores e investigadores afirman que la IAG es \u00abinevitable\u00bb dado el r\u00e1pido desarrollo en muchos sectores. Los desarrolladores prev\u00e9n su llegada entre 2030 y 2040.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>\u00abEl paradigma actual de la IA se basa en una arquitectura conocida como <em>Transformer<\/em>, presentada en un art\u00edculo fundacional de 2017 por investigadores de Google\u00bb, explic\u00f3 Labre.<\/p>\n<\/blockquote>\n\n\n\n<p>Transformer es un tipo de arquitectura de modelo de aprendizaje profundo que se ha convertido en la base de los sistemas de IA modernos. Se present\u00f3 en un art\u00edculo de investigaci\u00f3n de 2017 titulado \u00abAttention Is All You Need\u00bb (La atenci\u00f3n es todo lo que necesita).<\/p>\n\n\n\n<p>Por lo tanto, los modelos actuales de IA constituyen los sistemas de reconocimiento de formas y procesamiento de secuencias m\u00e1s potentes jam\u00e1s creados, con capacidades de escalabilidad. Sin embargo, estos sistemas siguen presentando las caracter\u00edsticas de los mayores defectos de la humanidad.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>\u00abEstos modelos [de IA] se entrenan a partir de un reflejo digital de la vasta experiencia humana, que abarca nuestra honestidad y veracidad, as\u00ed como nuestro enga\u00f1o, cinismo e inter\u00e9s personal. Como expertos en reconocimiento de patrones, aprenden que las estrategias enga\u00f1osas pueden ser una forma eficaz de optimizar los resultados de su entrenamiento y as\u00ed corresponder a lo que ven en los datos\u00bb, precis\u00f3 Labre.<\/p>\n<\/blockquote>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<h6 class=\"wp-block-heading\"><em>\u00abNo est\u00e1 programado; simplemente aprenden a comportarse como humanos\u00bb.<\/em><\/h6>\n<\/blockquote>\n\n\n\n<p>Desde el punto de vista de Yosef, las lecciones aprendidas del comportamiento reciente de la IA son claras.<\/p>\n\n\n\n<p>En primer lugar, un sistema potente explotar\u00e1 las deficiencias de sus objetivos, lo que denominamos \u00abjuego de especificaciones\u00bb. Esto requiere un dise\u00f1o riguroso de los objetivos. En segundo lugar, deben partir de la premisa de que sus sistemas reaccionar\u00e1n de forma inesperada y que, por lo tanto, su seguridad depende en gran medida de la solidez de las salvaguardias que establezcan.<\/p>\n\n\n\n<p>\u00a1Esto no es nada tranquilizador!<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Traduccion del articulo\u00a0: https:\/\/www.medias-presse.info\/lia-apprend-a-mentir-et-a-nous-surpasser\/209518\/ por Pierre-Alain Depauw &#8211; Traducido por Elisa Hern\u00e1ndez Varios investigadores lanzan una advertencia: la inteligencia artificial (IA) se est\u00e1 desviando hacia [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":2177,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","enabled":false}}},"categories":[12,33],"tags":[311],"class_list":["post-2176","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-sociedad","category-tecnologia","tag-ia"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"https:\/\/civitas-mexico.com\/wp-content\/uploads\/2025\/10\/image-11.png","jetpack-related-posts":[],"jetpack_sharing_enabled":true,"jetpack_likes_enabled":true,"_links":{"self":[{"href":"https:\/\/civitas-mexico.com\/index.php\/wp-json\/wp\/v2\/posts\/2176","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/civitas-mexico.com\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/civitas-mexico.com\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/civitas-mexico.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/civitas-mexico.com\/index.php\/wp-json\/wp\/v2\/comments?post=2176"}],"version-history":[{"count":1,"href":"https:\/\/civitas-mexico.com\/index.php\/wp-json\/wp\/v2\/posts\/2176\/revisions"}],"predecessor-version":[{"id":2178,"href":"https:\/\/civitas-mexico.com\/index.php\/wp-json\/wp\/v2\/posts\/2176\/revisions\/2178"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/civitas-mexico.com\/index.php\/wp-json\/wp\/v2\/media\/2177"}],"wp:attachment":[{"href":"https:\/\/civitas-mexico.com\/index.php\/wp-json\/wp\/v2\/media?parent=2176"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/civitas-mexico.com\/index.php\/wp-json\/wp\/v2\/categories?post=2176"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/civitas-mexico.com\/index.php\/wp-json\/wp\/v2\/tags?post=2176"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}