-
L'Iran parle de "progrès" en vue de négociations avec Washington
-
Italie: Maignan ange gardien du "Diavolo" milanais jusqu'en 2031
-
Iran: les forces armées en "alerte maximale", dans un climat de fébrilité
-
Gaza: 32 morts dans des frappes israéliennes, selon les autorités locales
-
Des milliers de manifestants à Saint-Gaudens contre la fermeture de l'usine Fibre Excellence
-
"CPE XXL", "CPE déguisé" : la proposition du Medef suscite l'ire de la CGT et de l'Unef
-
Danemark: 10.000 personnes défilent pour dénoncer les propos de Trump sur l'Afghanistan
-
A la frontière turque, des Iraniens appellent les Etats-Unis à l'aide contre les mollahs
-
Gaza: 28 morts dans des frappes israéliennes, selon les autorités locales
-
Open d'Australie: Rybakina soulève son deuxième trophée du grand Chelem
-
Pakistan: près de 90 morts après des attaques séparatistes au Baloutchistan
-
Le Japon et le Royaume-Uni renforcent leur coopération en matière de défense
-
Ski: à Crans-Montana, la locale Malorie Blanc remporte le dernier super-G avant les Jeux
-
Pakistan: plus de 70 morts après des attaques séparatistes au Baloutchistan
-
Tennis: Elena Rybakina remporte l'Open d'Australie, son 2e titre du Grand Chelem
-
Open d'Australie: Elena Rybakina, une force tranquille et impénétrable
-
L'Iran prévient que ses forces armées sont en état d'alerte maximale
-
En Haute-Marne, les éleveurs en détresse tentent de se protéger du loup
-
Présidentielle au Costa Rica: une grande favorite de droite et des candidatures éclectiques
-
Cinq choses à savoir sur le Costa Rica
-
Pakistan: plus de 40 morts après des attaques séparatistes au Baloutchistan
-
Dans les Alpes italiennes, l'hermine, mascotte olympique, joue sa survie
-
Grammy Awards: Bad Bunny tutoie les sommets aux Etats-Unis... et gêne les trumpistes
-
Accablés par la crise, les Cubains prônent le dialogue face aux menaces de Trump
-
Les traitements à la testostérone, un boom dopé par les réseaux sociaux
-
A Prague, une péniche pour accueillir des sans-abri de plus en plus nombreux
-
Chine: l'activité manufacturière perd son élan en janvier
-
De "Stranger Things" à "Dune", un studio québécois s'impose sur la scène des effets visuels
-
Open d'Australie: face à Alcaraz, Djokovic touche son rêve du doigt
-
Keir Starmer conclut sa visite en Chine sous les reproches de Trump
-
Ligue 1: Marseille et De Zerbi entre calme et tempête
-
NBA: Jokic revient bien contre les Clippers, Doncic en mode express face aux Wizards
-
Les Etats-Unis en paralysie budgétaire, mais une fin rapide espérée
-
Un public intrigué dans les salles américaines pour le film consacré à Melania Trump
-
La présidente par intérim du Venezuela annonce une amnistie générale
-
Découverte d'une nouvelle espèce de petit rongeur dans les Andes péruviennes
-
Venezuela: la présidente par intérim annonce une amnistie générale et la fermeture d'une prison redoutée
-
Le Sénat américain adopte un texte qui devrait écourter la paralysie budgétaire
-
Le chef de l'ONU alerte sur son "effondrement financier imminent"
-
Jeff Bezos suspend ses activités de tourisme spatial pour se concentrer sur la Lune
-
Le président élu du Chili au Salvador pour "étudier" le modèle carcéral
-
Manifestation à Minneapolis contre la police de l'immigration, des journalistes arrêtés
-
Ligue 1: Lens se relance face au Havre et reprend la tête
-
L'astronaute Sophie Adenot espère inspirer les générations à venir
-
Après la tempête Kristin, le Portugal redoute les crues
-
Euro de hand: le Danemark retrouvera l'Allemagne en finale
-
Les Etats-Unis vont entrer en paralysie budgétaire, une issue rapide espérée
-
Wall Street cale, le choix de Trump pour diriger la Fed dans toutes les têtes
-
Passe d'armes sur X entre Charlie Hebdo et Elon Musk
-
En Algérie, Ségolène Royal tente d'amorcer un dégel
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.
Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.
Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.
Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.
o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).
Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.
Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.
"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."
Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.
Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.
Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).
Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.
Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.
- L'IA en justice? -
"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.
Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.
Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.
"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".
Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.
Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.
Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.
Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".
O.Gutierrez--AT