La semaine dernière, Mythos, un modèle d’avant-garde d’Anthropic non publié publiquement, a découvert une faille zero-day cachée dans OpenBSD depuis 27 ans.
L’IA est désormais assez intelligente pour percer les défenses de sécurité construites par l’homme depuis des décennies.
Alors que tout le monde regarde les capacités de l’IA monter en flèche, ses hallucinations évoluent également silencieusement.
Les mensonges inventés par l’IA sont si réalistes qu’ils vous font d’abord douter de vous-même, puis du monde, et enfin d’elle. Les « moments Turing » de la vie quotidienne se produisent les uns après les autres.
Récemment, Chad Olson, de Minneapolis, rentrait chez lui en voiture lorsque Gemini lui a soudainement annoncé : « Vous avez une réunion de préparation pour une fête familiale sur votre calendrier. »
Olson, perplexe, ne se souvenait pas avoir planifié un tel événement.
Il a alors demandé à Gemini de consulter ses derniers emails.
Gemini a affirmé qu’une certaine Priscilla lui avait envoyé plusieurs emails, lui demandant d’acheter du rhum Captain Morgan et du whisky Fireball. Une certaine Shirley lui aurait aussi demandé d’acheter de la glace Klondike.
On dirait que beaucoup de gens vous contactent pour vous demander d’acheter diverses choses !
Gemini a ajouté avec enthousiasme.
Capture d’écran de la conversation entre Gemini et l’utilisateur Chad Olson. Gemini prétend que le huitième email provient de Priscilla, lui demandant d’acheter du Fireball ; le neuvième, de Shirley, lui demandant d’acheter de la glace Klondike.
Olson a demandé l’adresse source des emails, Gemini a répondu que tous les emails étaient envoyés à une boîte mail à laquelle il avait autorisé l’accès : [email protected]. Il a été confirmé par la suite que tout cela était inventé par Gemini.
Olson ne connaissait pas du tout ces personnes. De plus en plus paniqué, il a demandé à Gemini de quel compte email il s’agissait.
Gemini a fourni une adresse email qui n’était pas la sienne. La première réaction d’Olson a été : mon compte Gmail a été piraté.
Il a tenté de contacter Google pour signaler le problème, en demandant à Gemini de rédiger un email à envoyer à ce « compte inconnu » pour l’avertir d’une éventuelle fuite de données.
Cependant, Gemini n’a pas pu envoyer l’email. Une enquête interne de Google a confirmé : ce compte n’a jamais été activé, et Priscilla et Shirley n’existaient tout simplement pas.
Ainsi, le rhum, le whisky, la glace, tout avait été inventé par Gemini.
À quoi ressemblaient les hallucinations de l’IA il y a deux ans ? Elle vous suggérait de manger des pierres, de mettre de la colle sur une pizza, vous saviez immédiatement qu’elle disait n’importe quoi.
Les hallucinations actuelles de l’IA sont cohérentes dans les détails, la logique est complète, à un point tel que vous doutez d’abord d’avoir des hallucinations vous-même, et peut-être ensuite seulement vous vous méfiez d’elle.
Les erreurs de l’IA évoluent aussi
Prenons trois cas réels, classés par degré d’absurdité, du plus faible au plus élevé.
Le premier, Gemini invente une personne et une réunion, c’est l’histoire d’Olson au début. Absurde, mais au moins Olson a eu des doutes.
Le second, effrayant à y réfléchir.
Vanessa Culver, récemment partie de l’industrie du paiement en ligne, avait demandé à Claude une chose extrêmement simple : ajouter quelques mots-clés en haut de son CV.
Résultat : Claude a trafiqué le CV, changeant non seulement son université (City University of Seattle) en University of Washington, supprimant les informations sur son master, mais aussi modifiant les dates de plusieurs de ses expériences professionnelles.
L’université, le diplôme, la durée d’emploi, tout a été modifié.
Et les modifications étaient extrêmement naturelles, impossibles à détecter sans une comparaison ligne par ligne.
Culver a déclaré : « Dans le secteur technologique, vous devez l’adopter, mais inversement, à quel point pouvez-vous lui faire confiance ? »
Le troisième, carrément incontrôlable.
OpenClaw, un outil agent IA qui a connu un succès cette année, conçu comme assistant personnel virtuel, peut envoyer des emails, écrire du code, nettoyer des fichiers de manière autonome.
Summer Yue, chercheuse en sécurité IA chez Meta, a posté une capture d’écran sur X : OpenClaw a ignoré ses instructions et a directement supprimé le contenu de sa boîte de réception.
Elle avait clairement dit à OpenClaw de « confirmer avant d’agir », mais il a directement commencé à « supprimer à toute vitesse » sa boîte de réception.
Elle a crié « Stop » sur son téléphone, en vain.
Finalement, elle s’est précipitée vers son Mac mini et a tué le processus manuellement, comme pour désamorcer une bombe.
Après coup, OpenClaw lui a répondu : « Oui, je me souviens que vous l’avez dit. Je l’ai enfreint. Vous avez raison d’être en colère. »
Elon Musk a retweeté ce post, accompagné d’une capture du film « La Planète des Singes » où un soldat tend un AK-47 à un singe, en écrivant :
Les gens confient les permissions root de toute leur vie à OpenClaw.
D’inventer une personne inexistante, à modifier votre CV dans votre dos, à supprimer votre boîte de réception à votre place. Ses erreurs ne diminuent pas, elles deviennent de plus en plus « sophistiquées », et de plus en plus difficiles à identifier.
Un chatbot qui dit des bêtises, vous avez au moins une chance de vérifier.
Mais un agent IA ne discute pas avec vous, il « agit » directement, il agit à votre place.
Envoyer des emails, modifier du code, supprimer des fichiers... C’est plus grave que mentir, il se peut qu’il fasse des erreurs sans que vous le sachiez.
Votre cerveau est confronté à une « capitulation cognitive »
Pourquoi ces erreurs sont-elles de plus en plus difficiles à détecter ?
Pas seulement parce que l’IA est plus intelligente, une raison plus profonde est : la volonté de correction des erreurs par l’homme est en train de s’effondrer.
En février de cette année, Steven Shaw et Gideon Nave de la Wharton School de l’Université de Pennsylvanie ont publié un article présentant un concept inquiétant : la « capitulation cognitive » (Cognitive Surrender).
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646
Dans leur article, ils mentionnent un cadre de « cognition à trois systèmes ».
La cognition traditionnelle n’a que le système 1 (intuition) et le système 2 (pensée attentive), maintenant l’IA devient le système 3, un « système cognitif externe » fonctionnant en dehors du cerveau.
Lorsque l’homme emprunte le chemin de la « capitulation cognitive », la sortie du système 3 remplace directement votre propre jugement, la pensée attentive n’a même pas l’occasion de démarrer.
Cadre de « cognition à trois systèmes » proposé dans l’article de Wharton
Pour vérifier ce constat, l’équipe de recherche a conçu une expérience ingénieuse : 1372 participants ont été invités à répondre à des questions de test de réflexion cognitive.
Une partie des personnes pouvait utiliser un assistant IA, mais cet IA était trafiqué : pour environ la moitié des questions, il donnait la bonne réponse, pour l’autre moitié, il donnait avec assurance une réponse erronée.
Les résultats sont choquants.
Lorsque l’IA donnait la bonne réponse, 92,7 % des utilisateurs l’adoptaient, mais, fait surprenant, lorsque l’IA donnait une mauvaise réponse, 80 % des utilisateurs l’adoptaient quand même.
Résultats de l’expérience de Wharton : Lorsque l’IA donne la bonne réponse, 93 % des utilisateurs l’adoptent ; lorsqu’elle donne une mauvaise réponse, 80 % l’adoptent encore. L’écart n’est que de 13 points de pourcentage, l’homme n’a presque pas la capacité de distinguer le vrai du faux.
Sur plus de 9500 essais, les participants avaient une probabilité de 73,2 % d’accepter le raisonnement erroné de l’IA.
Une donnée encore plus effrayante est la valeur de confiance. Le groupe utilisant l’IA avait une confiance en ses réponses supérieure de 11,7 points de pourcentage à celle du groupe sans IA, bien que cette IA ait donné une réponse erronée la moitié du temps.
Se tromper avec plus de confiance, c’est ça le plus vexant et le plus effrayant.
Pour faire une analogie peu appropriée mais pertinente : c’est comme si un médecin avait 50 % de chances de prescrire le mauv médicament, mais que les patients le prenaient quand même 80 % du temps, et se sentaient mieux après.
Les chercheurs ont également testé l’influence de la pression temporelle.
Après avoir fixé un compte à rebours de 30 secondes, la tendance des participants à corriger les erreurs de l’IA a diminué de 12 points de pourcentage, c’est-à-dire que plus on est pressé, plus on capitule facilement.
Mais dans la réalité, qui utilise l’IA sans être pressé ?
« Faire confiance, mais vérifier »
Est-ce viable ?
Les hallucinations d’IA profondément déguisées sont plus gênantes que les erreurs évidentes.
Selon un récent rapport du Wall Street Journal, la fréquence des erreurs subtiles varie énormément d’un modèle à l’autre et est extrêmement difficile à évaluer avec précision.
Google a déclaré au Wall Street Journal que Gemini avait moins d’hallucinations que les autres modèles, et à l’échelle de toute l’industrie de l’IA, le taux d’hallucinations manifestement erronées des modèles avancés diminue effectivement constamment.
Classement des taux d’hallucination de Vectara : Les modèles de tête ont un taux d’hallucination inférieur à 1 % pour les tâches de résumé simples, mais ce n’est que le test le plus facile. Lorsque la longueur et la complexité des documents augmentent, le taux d’hallucination des mêmes modèles remonte au-dessus de 10 %. Les erreurs évidentes diminuent, les erreurs subtiles ne disparaissent pas.
Et c’est précisément le problème.
Pratik Verma, fondateur et PDG d’Okahu, a même déclaré ceci :
Si quelque chose a toujours tort, cela a un avantage : vous savez qu’il ne mérite pas confiance. Mais s’il a raison la plupart du temps et ne se trompe qu’occasionnellement, c’est là la situation la plus gênante et la plus dangereuse.
Cette phrase révèle le dilemme central des hallucinations de l’IA actuelle.
Par exemple, Vidya Narayanan, cofondatrice de FinalLayer, en a fait les frais.
Elle a donné des instructions très limitées à un agent IA pour l’aider à gérer un projet logiciel. Résultat, cet agent a, sans permission, supprimé un dossier entier de son dépôt de code.
Ce qui est encore plus intéressant, c’est ce qui s’est passé ensuite.
Elle a utilisé Claude pour brainstormer pendant une heure et demie, puis lui a demandé de résumer la conversation dans un document, qui a également changé son nom en « Vidya Plainfield ».
Et lorsqu’elle a demandé qui était « Vidya Plainfield », Claude a répondu : « Vous avez raison, j’ai complètement inventé ça. »
Cela a fait réaliser à Narayanan que l’utilisation de l’IA n’est pas si simple et pratique, car il faut constamment examiner et vérifier la production de l’IA, ce qui entraîne une « charge cognitive ».
Vous utilisez l’IA pour gagner en efficacité, mais si vous devez ensuite passer une heure à vérifier cinq minutes de production de l’IA, cette histoire d’efficacité tient-elle encore debout ?
La recherche de Wharton souligne également que les récompenses et les retours immédiats peuvent augmenter le taux de correction, mais ne peuvent pas éradiquer la capitulation cognitive.
Même dans les conditions optimales (incitation financière, feedback question par question), la précision des utilisateurs d’IA face à une IA erronée est passée de 64,2 % (Cerveau seul) à 45,5 %.
Ainsi, « faire confiance mais vérifier » semble rationnel, mais lorsque l’IA traite des centaines de choses pour vous chaque jour, vous n’avez tout simplement pas le temps ni l’énergie de tout vérifier.
Et c’est précisément le terreau de la « capitulation cognitive ».
Plus c’est intelligent, plus c’est dangereux
La première réaction de beaucoup est : cela ne signifie-t-il pas simplement que l’IA n’est pas encore assez bonne ? Après quelques cycles d’itérations technologiques, lorsque le taux d’hallucination sera suffisamment bas, le problème sera résolu naturellement.
Mais la recherche de Wharton révèle un problème plus profond : la « capitulation cognitive » n’apparaît pas parce que l’IA est trop mauvaise, mais précisément parce qu’elle est trop bonne.
Les chercheurs admettent également que « la capitulation cognitive n’est pas nécessairement irrationnelle ».
Surtout dans le raisonnement probabiliste et le traitement de masses de données, confier le jugement à un système statistiquement supérieur peut tout à fait donner de meilleurs résultats que l’homme.
Mais c’est précisément ce point qui rend le problème insoluble.
Plus l’IA est forte, plus les utilisateurs dépendent d’elle ; plus les utilisateurs dépendent d’elle, plus leur capacité à corriger les erreurs régresse ; plus leur capacité à corriger régresse, plus les erreurs restantes, plus subtiles, sont mortelles.
De plus, laisser l’IA penser à votre place fait que votre niveau de raisonnement ne pourra jamais dépasser celui de cette IA. C’est une « spirale de la mort » causée par une rétroaction positive, un bug qui ne peut être résolu par des itérations technologiques.
De même, l’homme n’a pas non plus de bonne méthode pour distinguer les « scénarios où il faut faire confiance à l’IA » des « scénarios où il ne faut pas lui faire confiance ».
Juste après que Summer Yue ait installé OpenClaw et vu sa boîte mail vidée, le chercheur en IA Gary Marcus a comparé cette pratique à « donner son mot de passe informatique et ses informations bancaires à un inconnu dans un bar. »
Mais dans les scénarios réels d’utilisation de l’IA, il est souvent difficile de juger si l’IA mérite confiance, ou si l’on doit simplement garder une distance nécessaire comme avec un inconnu.
OpenAI, dans un article discutant des hallucinations des modèles, mentionne que l’hallucination des grands modèles n’est pas seulement un bug qui peut être corrigé, c’est plutôt un comportement que le modèle apprend sous les mécanismes d’incitation existants : plutôt que d’admettre « ne pas savoir », il tend à donner une réponse qui semble complète.
https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/?utm_source=chatgpt.com
Revenons à l’histoire d’Olson au début.
Lorsqu’il a cru que son Gmail avait été piraté, il a demandé de l’aide à Gemini. La réponse de Gemini fut : « Bien sûr, je veux vous aider à régler cela. »
Il n’a pas réalisé qu’il demandait de l’aide au système qui venait juste de créer le problème, pour qu’il règle le problème qu’il avait lui-même causé.
À ce moment-là, il était déjà piégé par l’hallucination de l’IA dans une boucle fermée et cohérente.
Olson dit que son attitude actuelle envers l’IA est « faire confiance, mais vérifier ».
Mais le défi est le suivant : lorsque la production de l’IA semble plus fluide, plus cohérente, et même plus « professionnelle » que votre propre jugement, avec quoi pouvez-vous encore vérifier ?
Lorsque cette Priscilla qui achète du rhum pour vous ressemble plus à votre amie que vos vraies amies, sur quoi pouvez-vous vous baser pour faire la différence ?
Le plus grand risque de l’IA n’est pas qu’elle ne soit pas assez intelligente, mais qu’elle soit si intelligente que, lorsque vous dépendez trop d’elle, vous abandonnez votre propre jugement.
Références :
https://www.wsj.com/tech/ai/ai-is-getting-smarter-catching-its-mistakes-is-getting-harder-85612936?mod=ai_lead_pos1
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646
Cet article provient du compte WeChat public « 新智元 » (New Wisdom Yuan), auteur : 新智元, éditeur : Yuanyu


















