-
Ligue 1: Monaco terrassé à Brest
-
Mondial-2026: groupes piégeux pour l'Argentine et la France, Trump héros de la Fifa
-
Frank Gehry, l'une des rares superstars de l'architecture
-
Raid des Alizés: ensemble et contre tout, trois femmes pour un défi symbolique
-
Mondial-2026: la France avec le Sénégal, la Norvège et un barragiste intercontinental dans le groupe I
-
Blanchiment en France: la banque espagnole Santander accepte de payer une amende de 22,5 millions d'euros
-
En Italie, le premier sanctuaire marin pour dauphins d'Europe bientôt opérationnel
-
De nouvelles discussions entre Ukrainiens et Américains prévues pour ce vendredi à Miami, selon Kiev
-
Sanctions américaines: nous ne sommes pas des trafiquants de drogue, fustige le procureur adjoint de la CPI
-
Des experts nommés sous Trump chamboulent les recommandations vaccinales sur l'hépatite B
-
RDC: bombardements et déplacés au lendemain d'un accord signé à Washington
-
La Chine enverra deux nouveaux pandas géants en France d'ici à 2027
-
De nouvelles discussions entre Ukrainiens et Américains prévues ce vendredi à Miami, selon Kiev
-
Chute de 37% du nombre des animaux des fonds marins dans une zone d'exploration minière, selon une étude
-
Retraites et travail: la conférence sociale cherche à voir loin, en plein débat budgétaire
-
L'UE inflige une amende de 120 millions d'euros à X, vive réaction américaine
-
F1: Norris encore devant Verstappen lors des essais libres 2 à Abou Dhabi, Piastri 11e
-
Mondial-2026: Trump et Infantino lancent la cérémonie du tirage au sort en grande pompe
-
Le Liban assure ne pas vouloir de guerre avec Israël, après de premières discussions directes
-
Condamnation de Christophe Gleizes en Algérie: jugement "excessif" et "injuste", selon Macron
-
Un sac Birkin ayant appartenu à Jane Birkin vendu près de 2,5 millions d'euros à Abou Dhabi
-
La Bourse de Paris finit à l'équilibre, confiante dans la Fed
-
Mondial-2026: l'effervescence monte pour le tirage au sort, avec Trump en guest-star
-
Shein sera-t-il suspendu en France ? Décision le 19 décembre
-
Les boycotts jettent une ombre sur l'Eurovision 2026
-
Trump présente une vision résolument nationaliste pour l'Amérique dans le monde
-
Wall Street évolue en hausse, satisfaite de l'inflation américaine pour septembre
-
Egyptologie: une découverte exceptionnelle dans la nécropole de Tanis
-
Finale du Grand Prix: Chiba en tête après le libre, devant Liu
-
Wall Street ouvre en hausse, attend l'inflation américaine pour septembre
-
La pluie de retour au Sri Lanka et en Indonésie, déjà ravagés par les intempéries
-
Netflix en passe de racheter Warner Bros Discovery pour créer un géant du divertissement
-
Retraites et travail: la conférence sociale percutée par le débat budgétaire
-
Netflix va racheter Warner Bros Discovery pour près de 83 milliards de dollars
-
De fortes vagues attendues dans l'ouest, trois départements en vigilance orange samedi
-
Zone euro: la croissance révisée à la hausse à 0,3% au 3e trimestre, selon Eurostat
-
Conflit dans l'est de la RDC: accord signé, mise en oeuvre complexe
-
Tanzanie: l'ONU alerte sur l'"intensification de la répression"
-
Le Liban appelle l'Onu à faire pression sur Israël pour le respect du cessez-le-feu
-
JO-2026: "Que ces Jeux arrêtent les agressions et la barbarie", espère le président italien
-
Réchauffement climatique: face au déni, le chef du Giec appelle à être "très clair" sur le rôle de l'homme
-
Les vaccins anti-Covid à ARN messager ne causent aucune hausse de la mortalité, selon une étude
-
L'UE inflige une amende de 120 millions d'euros à X
-
Les prix alimentaires en baisse, reflet de l'abondance agricole mondiale
-
Erasmus, le sorcier du rugby sud-africain, prolongé jusqu'en 2031
-
Retraites et travail: la conférence sociale entre dans le vif du sujet
-
Rugby: Rassie Erasmus prolongé à la tête des Springboks jusqu'en 2031
-
Inde: ces femmes du Rajasthan qui font passer des villages de l'ombre à la lumière
-
Quatre morts dans une nouvelle frappe américaine dans le Pacifique
-
Quatre morts dans un nouvelle frappe américaine dans le Pacifique
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.
Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.
Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.
Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.
o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).
Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.
Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.
"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."
Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.
Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.
Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).
Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.
Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.
- L'IA en justice? -
"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.
Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.
Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.
"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".
Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.
Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.
Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.
Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".
O.Gutierrez--AT