-
Preventas del Grand Theft Auto VI empiezan la próxima semana
-
Un nuevo caso de rechazo de visado priva al marfileño Wahi de jugar contra Alemania
-
La policía brasileña investiga a un aliado de Lula por lazos con un escándalo bancario
-
Trump arremete contra quienes critican el acuerdo con Irán
-
Francia se sumerge en una ola de calor con el baño autorizado en los canales de París
-
La economía de Cuba necesita "cambios urgentes" para superar la crisis, dice el presidente
-
El líder de una red de tráfico de cuernos de rinoceronte es condenado a pagar ima multa en Sudáfrica
-
Con Trump no falta material para chistes, dice comediante Jordan Klepper
-
Nuevo caso de rechazo de visado priva a marfileño Wahi de jugar contra Alemania
-
Acuerdo entre EEUU e Irán demuestra que las armas nucleares son "estratégicamente irrelevantes", según ICAN
-
El rey de España y Sheinbaum se reunirán en México el 25 de junio
-
Israel rompe el contacto con la jefa de la diplomacia de la UE por comentarios sobre el "apartheid"
-
Imputadas las dos hijas de Zapatero en la causa contra el expresidente del Gobierno español
-
El Partenón de Atenas recupera el esplendor del siglo XIX tras ser restaurado
-
El boom de la IA elevará el precio de los iPhone, anticipa el jefe de Apple
-
El Real Madrid ficha al defensa francés Ibrahima Konaté
-
Aulas que queman: España se preocupa por el calor en sus centros educativos
-
El Banco de España revisa al alza su previsión de inflación en 2026, hasta el 3,6%
-
Cae una red que traía venezolanas a España para prostituirlas
-
EEUU e Irán comenzarán a negociar el viernes la aplicación de su acuerdo
-
En Gaza, el Mundial abre un halo de luz en medio de la oscuridad
-
Muere a los 35 años la actriz Daveigh Chase, voz de Lilo en "Lilo y Stitch"
-
Costa Rica captura al dirigente de un equipo de fútbol acusado de narcotráfico en EEUU
-
Cristiano, Lamine... No hay tiempo de lamentaciones en el Mundial
-
Objetivo número 1 para México: ganar a Corea del Sur y asegurar la primera plaza
-
Cristiano Ronaldo, una estrella apagada frente al brillo de Messi
-
El Partido Comunista de Cuba aprueba reformas hacia una mayor economía de mercado
-
Ucrania incendia refinería y perturba aeropuertos en su mayor ataque a Moscú en dos años
-
El líder de Taiwán dice esperar "lo antes posible" una venta de armas de EEUU por 14.000 millones
-
EEUU anuncia una reevaluación de su despliegue militar en Europa
-
Elección determinante en el norte de Inglaterra para el futuro de Starmer
-
Moscú enfrenta un ataque ucraniano con drones a "gran escala", dice su alcalde
-
EEUU e Irán firmaron un acuerdo para poner fin a la guerra en Oriente Medio
-
China se dispone a endurecer las normas del sector de la entrega de comida a domicilio
-
Últimos acontecimientos del Mundial de Norteamérica 2026
-
EEUU e Irán firmaron acuerdo para poner fin a la guerra en Oriente Medio
-
Impulsando las cadenas de suministro líderes: 9 clientes de OMP, incluidos en el Top 25 de Gartner 2026
-
U.S. Polo Assn. presenta su colección primavera-verano 2027 en la 110.ª edición de Pitti Immagine Uomo
-
Raúl Castro respalda reformas económicas en Cuba
-
Del G7 a Versalles: la relación chapada en oro entre Macron y Trump
-
EEUU e Irán ratifican que firmaron acuerdo para poner fin a la guerra en Oriente Medio
-
Últimos desarrollos vinculados al acuerdo entre Irán y EEUU
-
La Fed mantiene sus tasas de interés y apunta a una subida para fin de año
-
La UEFA multa a Marsella y Roma por incumplir el fair-play financiero
-
Un G7 de "unidad" celebra el "cambio" de Trump sobre Ucrania
-
La expresidenta de la OPEP Diezani Alison-Madueke, absuelta en un juicio en el Reino Unido
-
Una persona que trabajaba en una clínica londinense intentó vender el historial médico de Catalina
-
La UE afirma haber tenido "contactos diplomáticos" con Rusia
-
La red social W, la competencia europea de X, lanza su versión pública
-
Mangione alegará un problema psiquiátrico en el juicio por homicidio de un ejecutivo
La IA aprende a mentir, manipular y amenazar a sus creadores
Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.
Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.
Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.
No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.
Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.
o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).
Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.
De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.
"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".
Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.
Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.
Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).
Las regulaciones actuales no están diseñadas para estos nuevos problemas.
En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.
En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.
- ¿Se sentará la IA en el banquillo? -
"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.
Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.
Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.
"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".
Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.
Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.
Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".
A.Williams--AT