Des dizaines de millions d'erreurs par heure : une enquête révèle « l'illusion de précision » de la recherche IA de Google

marsbitPublié le 2026-04-13Dernière mise à jour le 2026-04-13

Résumé

Google, avec son énorme volume de recherches (5 billions par an), générerait des millions de réponses erronées chaque heure via sa fonction AI Overviews, selon une étude commandée par le *New York Times* et menée par Oumi. Bien que le taux de précision soit de 91% avec Gemini 3, cela représente toujours un flux massif de désinformation. Pire, plus de la moitié des réponses correctes citent des sources qui ne corroborent pas l'information donnée. Les plateformes comme Facebook et Reddit sont fréquemment citées, même pour des réponses fausses. De plus, le système est facilement manipulable : une fausse information a été intégrée en moins de 24 heures. Google conteste la méthodologie de l'étude, arguant que les tests ne reflètent pas les requêtes réelles des utilisateurs et utilisent une IA pour évaluer une autre IA.

Auteur: Claude, Deep Tide TechFlow

Guide de Deep Tide: Un test récent du New York Times et de la startup d'IA Oumi révèle que la fonction de résumé IA (AI Overviews) de Google Search a un taux de précision d'environ 91 %. Cependant, compte tenu du volume annuel de 5 000 milliards de recherches traitées par Google, cela signifie que des dizaines de millions de réponses erronées sont générées chaque heure. Plus problématique encore, même lorsque la réponse est correcte, plus de la moitié des liens de référence ne permettent pas d'étayer la conclusion.

Google diffuse des informations erronées à une échelle sans précédent, et la plupart des utilisateurs n'en ont pas conscience.

Selon le New York Times, la startup Oumi, mandatée par le journal, a évalué la précision de la fonction AI Overviews de Google en utilisant le test de référence SimpleQA, développé par OpenAI. Le test, portant sur 4326 requêtes de recherche, a été réalisé en octobre dernier (alimenté par Gemini 2) puis en février de cette année (après la mise à niveau vers Gemini 3). Les résultats montrent que le taux de précision de Gemini 2 était d'environ 85 %, et qu'il est passé à 91 % avec Gemini 3.

91 % semble correct, mais à l'échelle de Google, c'est une autre histoire. Google traite environ 5 000 milliards de requêtes de recherche par an. Avec un taux d'erreur de 9 %, AI Overviews génère plus de 57 millions de réponses inexactes par heure, soit près d'un million par minute.

La réponse est juste, mais la source est fausse

Plus inquiétant que le taux de précision est le problème du « décrochage » des sources de référence.

Les données d'Oumi montrent qu'à l'ère de Gemini 2, 37 % des réponses correctes présentaient un problème de « référence non fondée », c'est-à-dire que les liens fournis dans le résumé IA ne soutenaient pas l'information donnée. Après la mise à niveau vers Gemini 3, ce pourcentage n'a pas diminué mais a augmenté pour atteindre 56 %. En d'autres termes, le modèle donne de plus en plus de réponses correctes sans « rendre ses devoirs » (citer ses sources correctement).

La question du PDG d'Oumi, Manos Koukoumidis, est on point : « Même si la réponse est correcte, comment le savez-vous ? Comment pouvez-vous le vérifier ? »

Le fait qu'AI Overviews cite abondamment des sources de faible qualité aggrave ce problème. Oumi a découvert que Facebook et Reddit étaient respectivement les deuxième et quatrième sources les plus citées par AI Overviews. Parmi les réponses inexactes, Facebook était cité dans 7 % des cas, contre 5 % pour les réponses exactes.

Un faux article d'un journaliste de la BBC a « empoisonné » les résultats en moins de 24 heures

Un autre défaut grave d'AI Overviews est sa facilité à être manipulé.

Un journaliste de la BBC a testé le système avec un article délibérément fabriqué de toutes pièces. En moins de 24 heures, le résumé IA de Google présentait les fausses informations de l'article comme des faits aux utilisateurs.

Cela signifie que toute personne comprenant le fonctionnement du système pourrait potentiellement « empoisonner » les résultats de recherche IA en publiant du contenu faux et en augmentant son trafic. La réponse du porte-parole de Google, Ned Adriance, a été que la fonction de recherche IA s'appuie sur les mêmes mécanismes de classement et de sécurité que ceux utilisés pour bloquer le spam, et que « la plupart des exemples [du test] sont des requêtes irréalistes que les gens ne rechercheraient pas réellement ».

La contre-argumentation de Google : le test lui-même est problématique

Google a soulevé plusieurs objections concernant l'étude d'Oumi. Un porte-parole a qualifié l'étude de « gravement lacunaire », pour les raisons suivantes : le test de référence SimpleQA contient lui-même des informations inexactes ; Oumi a utilisé son propre modèle d'IA, HallOumi, pour évaluer les performances d'une autre IA, ce qui pourrait introduire des erreurs supplémentaires ; le contenu testé ne reflète pas le comportement de recherche réel des utilisateurs.

Les tests internes de Google ont également montré que Gemini 3, fonctionnant indépendamment du cadre de recherche Google, produisait des sorties hallucinées (fausses) à un taux élevé de 28 %. Mais Google a souligné qu'AI Overviews, en s'appuyant sur le système de classement des recherches, améliore la précision et surpasse les performances du modèle seul.

Cependant, comme le souligne un commentaire de PCMag mettant en lumière un paradoxe logique : si votre argument de défense est « le rapport qui pointe l'inexactitude de notre IA utilise lui-même une IA potentiellement inexacte », cela n'est probablement pas de nature à renforcer la confiance des utilisateurs en la précision de votre produit.

Questions liées

QQuel est la précision des résumés IA de Google selon l'étude du New York Times et Oumi ?

ASelon l'étude, la précision des résumés IA de Google (AI Overviews) est d'environ 91% avec Gemini 3, contre 85% avec Gemini 2.

QCombien de réponses inexactes les AI Overviews de Google produisent-elles par heure ?

ACompte tenu du volume de 5 000 milliards de recherches traitées par an par Google et d'un taux d'erreur de 9%, les AI Overviews produisent plus de 57 millions de réponses inexactes par heure.

QQuel est le problème principal avec les sources citées par les AI Overviews ?

ALe problème principal est le 'référencement non fondé' : même lorsque la réponse est correcte, plus de la moitié (56% avec Gemini 3) des liens cités ne soutiennent pas la conclusion de l'IA.

QQuels sont les sites web de faible qualité souvent cités par l'IA de Google ?

AFacebook et Reddit sont respectivement les deuxième et quatrième sources les plus citées par les AI Overviews, Facebook étant encore plus fréquemment cité dans les réponses inexactes.

QComment Google a-t-il répondu aux conclusions de l'étude d'Oumi ?

AGoogle a contesté l'étude, la qualifiant de 'présentant de graves lacunes', en critiquant le benchmark SimpleQA, l'utilisation d'un autre modèle IA (HallOumi) pour l'évaluation, et la non-représentativité des requêtes de test par rapport aux recherches réelles des utilisateurs.

Lectures associées

Trois jours, deux légendes de perdues : le barrage de talents en IA de Google est-il en train de se fissurer ?

En l'espace de trois jours, Google a perdu deux figures légendaires de l'IA, signe d'un exode massif de ses talents vers des concurrents comme OpenAI et Anthropic. Noam Shazeer, co-auteur de l'architecture Transformer, a rejoint OpenAI, tandis que John Jumper, lauréat du Nobel et responsable d'AlphaFold, est parti chez Anthropic. Ce mouvement, renforcé par le recrutement d'Andrej Karpathy par Anthropic, révèle une tendance structurelle. La cause profonde est un désalignement des missions. Les priorités de Google restent centrées sur son activité publicitaire, contraignant la recherche. À l'inverse, OpenAI et Anthropic offrent une focalisation exclusive sur l'innovation et la sécurité de l'AGI. De plus, les perspectives d'introduction en bourse de ces startups promettent des gains financiers considérables via leurs actions, un avantage que Google, déjà géant établi, ne peut égaler. La fusion de Google Brain et DeepMind en 2023, censée unifier les forces, a en réalité accru les tensions entre recherche fondamentale et pression commerciale, créant un environnement moins attractif pour les scientifiques de haut vol. Cette restructuration du paysage des talents, potentiellement irréversible, représente une crise silencieuse pour Google. Son avantage en matière de données, de puissance de calcul et de publications académiques dépend ultimement des personnes capables de les exploiter, et celles-ci partent.

marsbitIl y a 19 mins

Trois jours, deux légendes de perdues : le barrage de talents en IA de Google est-il en train de se fissurer ?

marsbitIl y a 19 mins

Derrière les bulletins de notes de l'IA, se cache un concepteur de "sujets d'examen" chinois

Le domaine de l'IA suit de près les scores des grands modèles sur des benchmarks comme MMLU-Pro et MMMU, devenus des références pour évaluer les capacités de raisonnement et de compréhension multimodale. Derrière ces outils d'évaluation influents se trouve Wenhu Chen, professeur assistant à l'Université de Waterloo et fondateur du TIGERLab. Face aux limites des anciens benchmarks comme MMLU, où les modèles de pointe atteignaient des scores quasi parfaits, Chen a dirigé le développement de MMLU-Pro. Cette nouvelle base de données, plus difficile et stable avec des questions à choix multiples élargis, permet de mieux distinguer les véritables capacités de raisonnement des modèles. Dans le domaine multimodal, les benchmarks MMMU et MMMU-Pro, également créés par son équipe, évaluent rigoureusement la capacité des modèles à combiner informations visuelles complexes et connaissances disciplinaires pour résoudre des problèmes avancés. Cette expertise en évaluation découle des recherches de Chen sur la compréhension d'informations complexes et le raisonnement, renforcée par son expérience chez Google DeepMind sur Gemini. Aujourd'hui au Meta Super-Intelligence Lab, il continue ses travaux sur l'évaluation et l'entraînement de modèles multimodaux. Son parcours illustre le rôle crucial, bien que moins visible, des chercheurs dans la construction des fondations méthodologiques qui guident les progrès de l'IA.

marsbitIl y a 32 mins

Derrière les bulletins de notes de l'IA, se cache un concepteur de "sujets d'examen" chinois

marsbitIl y a 32 mins

Sélection hebdomadaire de la rédaction Weekly Editor's Picks (13-19 juin)

**Résumé éditorial hebdomadaire (13-19 juin)** Face à un flux d'information trop rapide, cette sélection hebdomadaire vise à mettre en lumière des analyses de fond. Les principaux thèmes abordés cette semaine sont : **Situation macroéconomique :** Après la réouverture du détroit d'Ormuz, les marchés ajustent leurs positions, passant du "choc du conflit" à la "restauration de l'offre", avec des implications sur le pétrole, les transports, l'énergie en Asie et les obligations. **Investissement & Entrepreneuriat :** Ray Dalio met en garde contre la concentration excessive sur les géants de l'IA dans les indices boursiers, prônant plutôt la diversification. Des analyses examinent le cycle du BTC, suggérant des signaux de bas de cycle, et le lancement en bourse de SpaceX, interrogeant sa valorisation et ses risques systémiques potentiels. La dépendance des échanges cryptos coréens aux actifs très spéculatifs ("shitcoins") est également pointée, en raison de régulations restrictives. **Web3 & IA :** Un risque systémique de type "crise des subprimes" est évoqué dans le secteur de l'IA, lié à des engagements financiers hors bilan. L'utilisation des modèles d'IA pour prédire les résultats de la Coupe du Monde est analysée. Un schéma décompose les coûts d'un abonnement à un assistant IA comme Claude. **Marchés de prédiction :** La concurrence s'intensifie, Robinhood développant sa propre plateforme (Rothera) pour capter ce marché, illustrant l'importance cruciale des canaux de distribution. **CeFi & DeFi :** Le mécanisme des contrats perpétuels sur actifs pré-IPO (comme SpaceX) est testé, révélant des défis techniques. Le décrochage ("dépeçage") du jeton STRC (lié à MicroStrategy) fait l'objet de deux analyses sur la confiance dans son modèle financier. Le nouvel ETF Bitcoin à rendement de BlackRock (BITA) est présenté comme une opportunité ou un piège selon les perspectives. **Ethereum & Scaling :** L'avantage concurrentiel principal d'Ethereum est identifié comme sa vaste base de développeurs et son écosystème, plutôt que sa vitesse. **Autres actualités marquantes :** Accord USA-Iran et impact sur les marchés, décision de la Fed, mesures restrictives d'Anthropic sur l'accès à ses modèles, acquisition de Cursor par SpaceX, et la montée spectaculaire de l'action "Liuliumei" à Hong Kong en raison de son ticker (06658.HK).

marsbitIl y a 40 mins

Sélection hebdomadaire de la rédaction Weekly Editor's Picks (13-19 juin)

marsbitIl y a 40 mins

Trading

Spot
Futures
活动图片