-
Trump contempla "reducir gradualmente" las operaciones contra Irán
-
Juez de EEUU declara inconstitucionales restricciones del Pentágono a la prensa
-
Depuración militar avanza en la Venezuela pos-Maduro bajo influencia de EEUU
-
La guerra amenaza el lugar del Golfo en el mapa mundial del deporte
-
Jamenei afirma que Irán le asestó un "golpe fulminante" al enemigo
-
¿Un régimen "diezmado"? Los dirigentes iraníes eliminados en la guerra
-
Condenan a cadena perpetua a un yihadista francés por el genocidio de yazidíes
-
La batalla por París enfrenta a una mediática exministra y un discreto diputado
-
Muere el actor Chuck Norris a los 86 años
-
Las importaciones de autos desde China superaron las exportaciones europeas en 2025
-
Fin del juicio al exlíder del Sinn Féin Gerry Adams tras un acuerdo con víctimas del IRA
-
Desmantelan en Europa una plataforma fraudulenta de la "dark web" e identifican a 440 usuarios
-
El lado oculto del K-pop tras el regreso del grupo surcoreano BTS
-
España anuncia un plan de 5.000 millones para amortiguar el impacto de la guerra
-
Alemania quiere criminalizar los "deepfakes" de carácter sexual
-
Fracasan las nuevas pesquisas en el caso contra el chileno Zepeda por asesinato en Francia
-
La Marina francesa intercepta un petrolero-carguero procedente de Rusia
-
Dos exagentes demandan al director del FBI, alegando un despido por el caso Trump
-
Ligero aumento de los casos de meningitis registrados en Inglaterra
-
Jhon Durán, el joven rebelde de Colombia a punto de quedarse sin Mundial
-
Una "combinación de múltiples factores en interacción" propició el apagón de 2025 en España y Portugal, señalan expertos
-
El grupo Unilever afirma haber recibido una oferta de compra por sus marcas de alimentación
-
La princesa Mette-Marit de Noruega afirma haber sido "manipulada y engañada" por Epstein
-
El gigante chino Xiaomi invertirá 8.700 millones de dólares en IA en tres años
-
Dos muertos por ataques en Rusia y Ucrania
-
El presidente de la Conmebol dice que Argentina es bicampeona de la Finalissima
-
La presidenta de Venezuela anuncia el cambio del alto mando militar
-
Joan García, entre las novedades de la selección española para amistosos de marzo
-
Cancelan la temporada de "The Bachelorette" en medio de un escándalo por violencia doméstica
-
México reporta la muerte de otro migrante bajo custodia en EEUU
-
Bomberos combaten un incendio en una refinería en Kuwait tras un ataque iraní
-
París, Marsella, El Havre: elecciones locales con aires de presidencial en Francia
-
EEUU aprueba acuñar una moneda conmemorativa con la figura de Trump
-
México convoca a Fidalgo y al veterano Ochoa para los amistosos con Portugal y Bélgica
-
Luis Díaz lidera la convocatoria de Colombia para los amistosos ante Croacia y Francia
-
Detienen a un financiero salvadoreño acusado de una millonaria defraudación
-
EEUU y Japón anuncian un proyecto de energía nuclear de 40.000 millones de dólares
-
Muere Umberto Bossi, fundador de la Liga Norte, a los 84 años
-
Bukele propone cadena perpetua en El Salvador para menores asesinos o violadores
-
El exinternacional español Dujshebaev debuta con Francia en un triunfo de 29-26 sobre España
-
Un preso político cubano termina una huelga de hambre de más de un mes tras sufrir un infarto
-
La FIFA aprueba una regla para tener más entrenadoras en el fútbol femenino
-
Un pesquero se incendia en Ecuador y deja 16 desaparecidos, según familiares
-
India podría revolucionar la lucha contra la obesidad con fármacos genéricos de bajo costo
-
Argentina desclasifica documentos de inteligencia de la dictadura
-
Nicolás Zepeda, el chileno juzgado por asesinato en Francia, abatido tras un intenso interrogatorio
-
El actor Chuck Norris fue hospitalizado en Hawái
-
Una ola de calor récord achicharra al oeste de EEUU
-
Zelenski anuncia que negociadores ucranianos se reunirán el sábado con un equipo de Washington en EEUU
-
Un petrolero con gasóleo ruso tiene previsto llegar a Cuba dentro de "varios días"
La IA aprende a mentir, manipular y amenazar a sus creadores
Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.
Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.
Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.
No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.
Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.
o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).
Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.
De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.
"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".
Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.
Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.
Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).
Las regulaciones actuales no están diseñadas para estos nuevos problemas.
En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.
En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.
- ¿Se sentará la IA en el banquillo? -
"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.
Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.
Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.
"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".
Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.
Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.
Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".
A.Williams--AT