Des dizaines de millions d'erreurs par heure : une enquête révèle « l'illusion de précision » de la recherche IA de Google

marsbitPublié le 2026-04-13Dernière mise à jour le 2026-04-13

Résumé

Google, avec son énorme volume de recherches (5 billions par an), générerait des millions de réponses erronées chaque heure via sa fonction AI Overviews, selon une étude commandée par le *New York Times* et menée par Oumi. Bien que le taux de précision soit de 91% avec Gemini 3, cela représente toujours un flux massif de désinformation. Pire, plus de la moitié des réponses correctes citent des sources qui ne corroborent pas l'information donnée. Les plateformes comme Facebook et Reddit sont fréquemment citées, même pour des réponses fausses. De plus, le système est facilement manipulable : une fausse information a été intégrée en moins de 24 heures. Google conteste la méthodologie de l'étude, arguant que les tests ne reflètent pas les requêtes réelles des utilisateurs et utilisent une IA pour évaluer une autre IA.

Auteur: Claude, Deep Tide TechFlow

Guide de Deep Tide: Un test récent du New York Times et de la startup d'IA Oumi révèle que la fonction de résumé IA (AI Overviews) de Google Search a un taux de précision d'environ 91 %. Cependant, compte tenu du volume annuel de 5 000 milliards de recherches traitées par Google, cela signifie que des dizaines de millions de réponses erronées sont générées chaque heure. Plus problématique encore, même lorsque la réponse est correcte, plus de la moitié des liens de référence ne permettent pas d'étayer la conclusion.

Google diffuse des informations erronées à une échelle sans précédent, et la plupart des utilisateurs n'en ont pas conscience.

Selon le New York Times, la startup Oumi, mandatée par le journal, a évalué la précision de la fonction AI Overviews de Google en utilisant le test de référence SimpleQA, développé par OpenAI. Le test, portant sur 4326 requêtes de recherche, a été réalisé en octobre dernier (alimenté par Gemini 2) puis en février de cette année (après la mise à niveau vers Gemini 3). Les résultats montrent que le taux de précision de Gemini 2 était d'environ 85 %, et qu'il est passé à 91 % avec Gemini 3.

91 % semble correct, mais à l'échelle de Google, c'est une autre histoire. Google traite environ 5 000 milliards de requêtes de recherche par an. Avec un taux d'erreur de 9 %, AI Overviews génère plus de 57 millions de réponses inexactes par heure, soit près d'un million par minute.

La réponse est juste, mais la source est fausse

Plus inquiétant que le taux de précision est le problème du « décrochage » des sources de référence.

Les données d'Oumi montrent qu'à l'ère de Gemini 2, 37 % des réponses correctes présentaient un problème de « référence non fondée », c'est-à-dire que les liens fournis dans le résumé IA ne soutenaient pas l'information donnée. Après la mise à niveau vers Gemini 3, ce pourcentage n'a pas diminué mais a augmenté pour atteindre 56 %. En d'autres termes, le modèle donne de plus en plus de réponses correctes sans « rendre ses devoirs » (citer ses sources correctement).

La question du PDG d'Oumi, Manos Koukoumidis, est on point : « Même si la réponse est correcte, comment le savez-vous ? Comment pouvez-vous le vérifier ? »

Le fait qu'AI Overviews cite abondamment des sources de faible qualité aggrave ce problème. Oumi a découvert que Facebook et Reddit étaient respectivement les deuxième et quatrième sources les plus citées par AI Overviews. Parmi les réponses inexactes, Facebook était cité dans 7 % des cas, contre 5 % pour les réponses exactes.

Un faux article d'un journaliste de la BBC a « empoisonné » les résultats en moins de 24 heures

Un autre défaut grave d'AI Overviews est sa facilité à être manipulé.

Un journaliste de la BBC a testé le système avec un article délibérément fabriqué de toutes pièces. En moins de 24 heures, le résumé IA de Google présentait les fausses informations de l'article comme des faits aux utilisateurs.

Cela signifie que toute personne comprenant le fonctionnement du système pourrait potentiellement « empoisonner » les résultats de recherche IA en publiant du contenu faux et en augmentant son trafic. La réponse du porte-parole de Google, Ned Adriance, a été que la fonction de recherche IA s'appuie sur les mêmes mécanismes de classement et de sécurité que ceux utilisés pour bloquer le spam, et que « la plupart des exemples [du test] sont des requêtes irréalistes que les gens ne rechercheraient pas réellement ».

La contre-argumentation de Google : le test lui-même est problématique

Google a soulevé plusieurs objections concernant l'étude d'Oumi. Un porte-parole a qualifié l'étude de « gravement lacunaire », pour les raisons suivantes : le test de référence SimpleQA contient lui-même des informations inexactes ; Oumi a utilisé son propre modèle d'IA, HallOumi, pour évaluer les performances d'une autre IA, ce qui pourrait introduire des erreurs supplémentaires ; le contenu testé ne reflète pas le comportement de recherche réel des utilisateurs.

Les tests internes de Google ont également montré que Gemini 3, fonctionnant indépendamment du cadre de recherche Google, produisait des sorties hallucinées (fausses) à un taux élevé de 28 %. Mais Google a souligné qu'AI Overviews, en s'appuyant sur le système de classement des recherches, améliore la précision et surpasse les performances du modèle seul.

Cependant, comme le souligne un commentaire de PCMag mettant en lumière un paradoxe logique : si votre argument de défense est « le rapport qui pointe l'inexactitude de notre IA utilise lui-même une IA potentiellement inexacte », cela n'est probablement pas de nature à renforcer la confiance des utilisateurs en la précision de votre produit.

Questions liées

QQuel est la précision des résumés IA de Google selon l'étude du New York Times et Oumi ?

ASelon l'étude, la précision des résumés IA de Google (AI Overviews) est d'environ 91% avec Gemini 3, contre 85% avec Gemini 2.

QCombien de réponses inexactes les AI Overviews de Google produisent-elles par heure ?

ACompte tenu du volume de 5 000 milliards de recherches traitées par an par Google et d'un taux d'erreur de 9%, les AI Overviews produisent plus de 57 millions de réponses inexactes par heure.

QQuel est le problème principal avec les sources citées par les AI Overviews ?

ALe problème principal est le 'référencement non fondé' : même lorsque la réponse est correcte, plus de la moitié (56% avec Gemini 3) des liens cités ne soutiennent pas la conclusion de l'IA.

QQuels sont les sites web de faible qualité souvent cités par l'IA de Google ?

AFacebook et Reddit sont respectivement les deuxième et quatrième sources les plus citées par les AI Overviews, Facebook étant encore plus fréquemment cité dans les réponses inexactes.

QComment Google a-t-il répondu aux conclusions de l'étude d'Oumi ?

AGoogle a contesté l'étude, la qualifiant de 'présentant de graves lacunes', en critiquant le benchmark SimpleQA, l'utilisation d'un autre modèle IA (HallOumi) pour l'évaluation, et la non-représentativité des requêtes de test par rapport aux recherches réelles des utilisateurs.

Lectures associées

La Haute Cour d'Australie offre une victoire majeure à l'ASIC dans l'affaire du produit à rendement crypto de Block Earner

La Haute Cour d’Australie a donné raison à l’autorité des marchés financiers (ASIC) dans une affaire concernant le produit à rendement fixe « Earner » de Block Earner. La cour a jugé à l’unanimité que ce produit crypto, proposé entre mars et novembre 2022, constituait un produit financier et un dérivé, soumis à la réglementation existante. Block Earner aurait donc dû détenir une licence de services financiers australienne. L’affaire est renvoyée devant la Cour fédérale pour déterminer les sanctions. Ce verdict établit un précédent important : il confirme que les produits crypto offrant des rendements structurés ou une exposition de type dérivé peuvent être soumis aux règles de licence, indépendamment de leur étiquette technologique. Bien que le produit en cause ne soit plus commercialisé, la décision renforce la position de l’ASIC pour les futurs cas similaires et s’inscrit dans une tendance mondiale de régulation des produits de rendement crypto. Pour les entreprises, cela signifie que les offres générant des rendements via le déploiement d’actifs par un tiers risquent d’être considérées comme des produits d’investissement. Pour les consommateurs, cela rappelle que ces produits comportent des risques spécifiques et exigent une structure réglementaire appropriée. L’industrie crypto australienne devra désormais composer avec ce cadre réglementaire plus strict.

bitcoinistIl y a 8 h

La Haute Cour d'Australie offre une victoire majeure à l'ASIC dans l'affaire du produit à rendement crypto de Block Earner

bitcoinistIl y a 8 h

Les CPU retrouvent leur place à la table : le coup d'envoi d'un spectacle « d'accession au pouvoir » de 170 milliards de dollars

La scène des processeurs (CPU) pour serveurs connaît une transformation majeure, catalysée par l'ère de l'IA Agent (agente). Alors que le GPU était au cœur de l'entraînement des grands modèles, le passage à la phase d'inférence et aux tâches d'Agent complexes (appels d'outils, raisonnements multi-étapes) renverse la donne : le CPU assume désormais 70% à plus de 90% de la charge de travail. Ce changement se traduit par un besoin accru de cœurs, de mémoire et de performances de gestion des données intermédiaires (comme le KV Cache), dépassant souvent la capacité mémoire limitée des GPU. Cette nouvelle dynamique modifie radicalement le ratio CPU/GPU dans les serveurs IA, passant d'environ 1:8 pour l'entraînement à 1:4 pour l'inférence, et approchant même 1:1 pour les scénarios Agent. Cette demande explosive, qualifiée de "variable la plus inattendue du cycle actuel de l'IA", entraîne une pression sur l'offre et une hausse des prix de 10% à 15% pour les CPU serveurs, du jamais-vu depuis plus de dix ans. Les acteurs historiques (Intel, AMD) et nouveaux (NVIDIA avec sa puce ARM Vera) se positionnent sur ce marché dont la taille potentielle est réévaluée à la hausse, pouvant atteindre 1700 milliards de dollars d'ici 2030 selon certaines analyses. Cette croissance provient non seulement des CPU d'accompagnement des GPU en cluster, mais aussi d'un nouveau segment : les nœuds CPU indépendants dédiés à l'exécution des Agents. En Chine, cette tendance mondiale coïncide avec les impératifs du "Xin Chuang" (remplacement des imports), offrant une opportunité aux fabricants locaux de CPU (comme Hygon, Huawei Kunpeng) et aux entreprises de la chaîne d'approvisionnement (emballage/test, puces d'interface mémoire). La maturité accélérée des outils logiciels pour les puces domestiques est un signe positif pour l'écosystème. L'enjeu n'est plus la performance brute d'une puce unique, mais la capacité de synergie entre CPU et GPU pour l'IA à grande échelle.

marsbitIl y a 10 h

Les CPU retrouvent leur place à la table : le coup d'envoi d'un spectacle « d'accession au pouvoir » de 170 milliards de dollars

marsbitIl y a 10 h

TechFlow Intelligence : Le Directeur AI d'AMD critique publiquement Claude Code pour être "devenu plus bête et plus paresseux", Trump affirme qu'un cessez-le-feu général aura lieu dans le détroit d'Ormuz mais que 80 mines y restent

Selon un rapport exclusif de Wired, SK Telecom, partenaire stratégique d'Anthropic, fait l'objet d'un examen des contrôles à l'exportation américains concernant le transfert technologique potentiel du modèle Mythos. Par ailleurs, Z.AI a lancé le modèle GLM-5.2, rivalisant avec Claude Opus et n'utilisant aucun puce Nvidia, illustrant une voie chinoise en matière de puissance de calcul. Dans le secteur des semi-conducteurs, Amazon envisage de commercialiser ses puces AI maison, tandis que des allégations américaines sur des équipements ASML avancés en Chine sont contestées par l'entreprise. Du côté de la sécurité, GitHub a vu plus de 10 000 dépôts distribuer des logiciels malveillants, et Apple a corrigé une faille critique d'écoute sur les Beats Studio Buds. Sur les marchés, les actions semi-conducteurs ont bondi, notamment Intel (+10.6%). Sur le plan géopolitique, bien qu'un accord ait été annoncé concernant le détroit d'Hormuz, l'association Intertanko signale qu'environ 80 mines y restent actives, retardant le transit de pétroliers chargés de 80 millions de barils. L'Iran a reporté un déplacement diplomatique en Suisse, et l'ancien président Trump a qualifié l'accord avec l'Iran de "reddition inconditionnelle". En résumé, tandis que les tensions géopolitiques laissent persister des incertitudes opérationnelles, les avancées et restructurations technologiques, notamment dans les puces et l'IA, se poursuivent à un rythme soutenu.

marsbitIl y a 10 h

TechFlow Intelligence : Le Directeur AI d'AMD critique publiquement Claude Code pour être "devenu plus bête et plus paresseux", Trump affirme qu'un cessez-le-feu général aura lieu dans le détroit d'Ormuz mais que 80 mines y restent

marsbitIl y a 10 h

Trading

Spot
Futures
活动图片