Des dizaines de millions d'erreurs par heure : une enquête révèle « l'illusion de précision » de la recherche IA de Google

marsbitPublié le 2026-04-13Dernière mise à jour le 2026-04-13

Résumé

Google, avec son énorme volume de recherches (5 billions par an), générerait des millions de réponses erronées chaque heure via sa fonction AI Overviews, selon une étude commandée par le *New York Times* et menée par Oumi. Bien que le taux de précision soit de 91% avec Gemini 3, cela représente toujours un flux massif de désinformation. Pire, plus de la moitié des réponses correctes citent des sources qui ne corroborent pas l'information donnée. Les plateformes comme Facebook et Reddit sont fréquemment citées, même pour des réponses fausses. De plus, le système est facilement manipulable : une fausse information a été intégrée en moins de 24 heures. Google conteste la méthodologie de l'étude, arguant que les tests ne reflètent pas les requêtes réelles des utilisateurs et utilisent une IA pour évaluer une autre IA.

Auteur: Claude, Deep Tide TechFlow

Guide de Deep Tide: Un test récent du New York Times et de la startup d'IA Oumi révèle que la fonction de résumé IA (AI Overviews) de Google Search a un taux de précision d'environ 91 %. Cependant, compte tenu du volume annuel de 5 000 milliards de recherches traitées par Google, cela signifie que des dizaines de millions de réponses erronées sont générées chaque heure. Plus problématique encore, même lorsque la réponse est correcte, plus de la moitié des liens de référence ne permettent pas d'étayer la conclusion.

Google diffuse des informations erronées à une échelle sans précédent, et la plupart des utilisateurs n'en ont pas conscience.

Selon le New York Times, la startup Oumi, mandatée par le journal, a évalué la précision de la fonction AI Overviews de Google en utilisant le test de référence SimpleQA, développé par OpenAI. Le test, portant sur 4326 requêtes de recherche, a été réalisé en octobre dernier (alimenté par Gemini 2) puis en février de cette année (après la mise à niveau vers Gemini 3). Les résultats montrent que le taux de précision de Gemini 2 était d'environ 85 %, et qu'il est passé à 91 % avec Gemini 3.

91 % semble correct, mais à l'échelle de Google, c'est une autre histoire. Google traite environ 5 000 milliards de requêtes de recherche par an. Avec un taux d'erreur de 9 %, AI Overviews génère plus de 57 millions de réponses inexactes par heure, soit près d'un million par minute.

La réponse est juste, mais la source est fausse

Plus inquiétant que le taux de précision est le problème du « décrochage » des sources de référence.

Les données d'Oumi montrent qu'à l'ère de Gemini 2, 37 % des réponses correctes présentaient un problème de « référence non fondée », c'est-à-dire que les liens fournis dans le résumé IA ne soutenaient pas l'information donnée. Après la mise à niveau vers Gemini 3, ce pourcentage n'a pas diminué mais a augmenté pour atteindre 56 %. En d'autres termes, le modèle donne de plus en plus de réponses correctes sans « rendre ses devoirs » (citer ses sources correctement).

La question du PDG d'Oumi, Manos Koukoumidis, est on point : « Même si la réponse est correcte, comment le savez-vous ? Comment pouvez-vous le vérifier ? »

Le fait qu'AI Overviews cite abondamment des sources de faible qualité aggrave ce problème. Oumi a découvert que Facebook et Reddit étaient respectivement les deuxième et quatrième sources les plus citées par AI Overviews. Parmi les réponses inexactes, Facebook était cité dans 7 % des cas, contre 5 % pour les réponses exactes.

Un faux article d'un journaliste de la BBC a « empoisonné » les résultats en moins de 24 heures

Un autre défaut grave d'AI Overviews est sa facilité à être manipulé.

Un journaliste de la BBC a testé le système avec un article délibérément fabriqué de toutes pièces. En moins de 24 heures, le résumé IA de Google présentait les fausses informations de l'article comme des faits aux utilisateurs.

Cela signifie que toute personne comprenant le fonctionnement du système pourrait potentiellement « empoisonner » les résultats de recherche IA en publiant du contenu faux et en augmentant son trafic. La réponse du porte-parole de Google, Ned Adriance, a été que la fonction de recherche IA s'appuie sur les mêmes mécanismes de classement et de sécurité que ceux utilisés pour bloquer le spam, et que « la plupart des exemples [du test] sont des requêtes irréalistes que les gens ne rechercheraient pas réellement ».

La contre-argumentation de Google : le test lui-même est problématique

Google a soulevé plusieurs objections concernant l'étude d'Oumi. Un porte-parole a qualifié l'étude de « gravement lacunaire », pour les raisons suivantes : le test de référence SimpleQA contient lui-même des informations inexactes ; Oumi a utilisé son propre modèle d'IA, HallOumi, pour évaluer les performances d'une autre IA, ce qui pourrait introduire des erreurs supplémentaires ; le contenu testé ne reflète pas le comportement de recherche réel des utilisateurs.

Les tests internes de Google ont également montré que Gemini 3, fonctionnant indépendamment du cadre de recherche Google, produisait des sorties hallucinées (fausses) à un taux élevé de 28 %. Mais Google a souligné qu'AI Overviews, en s'appuyant sur le système de classement des recherches, améliore la précision et surpasse les performances du modèle seul.

Cependant, comme le souligne un commentaire de PCMag mettant en lumière un paradoxe logique : si votre argument de défense est « le rapport qui pointe l'inexactitude de notre IA utilise lui-même une IA potentiellement inexacte », cela n'est probablement pas de nature à renforcer la confiance des utilisateurs en la précision de votre produit.

Questions liées

QQuel est la précision des résumés IA de Google selon l'étude du New York Times et Oumi ?

ASelon l'étude, la précision des résumés IA de Google (AI Overviews) est d'environ 91% avec Gemini 3, contre 85% avec Gemini 2.

QCombien de réponses inexactes les AI Overviews de Google produisent-elles par heure ?

ACompte tenu du volume de 5 000 milliards de recherches traitées par an par Google et d'un taux d'erreur de 9%, les AI Overviews produisent plus de 57 millions de réponses inexactes par heure.

QQuel est le problème principal avec les sources citées par les AI Overviews ?

ALe problème principal est le 'référencement non fondé' : même lorsque la réponse est correcte, plus de la moitié (56% avec Gemini 3) des liens cités ne soutiennent pas la conclusion de l'IA.

QQuels sont les sites web de faible qualité souvent cités par l'IA de Google ?

AFacebook et Reddit sont respectivement les deuxième et quatrième sources les plus citées par les AI Overviews, Facebook étant encore plus fréquemment cité dans les réponses inexactes.

QComment Google a-t-il répondu aux conclusions de l'étude d'Oumi ?

AGoogle a contesté l'étude, la qualifiant de 'présentant de graves lacunes', en critiquant le benchmark SimpleQA, l'utilisation d'un autre modèle IA (HallOumi) pour l'évaluation, et la non-représentativité des requêtes de test par rapport aux recherches réelles des utilisateurs.

Lectures associées

Trading

Spot
Futures
活动图片