Des dizaines de millions d'erreurs par heure : une enquête révèle « l'illusion de précision » de la recherche IA de Google

marsbitPublié le 2026-04-13Dernière mise à jour le 2026-04-13

Résumé

Google, avec son énorme volume de recherches (5 billions par an), générerait des millions de réponses erronées chaque heure via sa fonction AI Overviews, selon une étude commandée par le *New York Times* et menée par Oumi. Bien que le taux de précision soit de 91% avec Gemini 3, cela représente toujours un flux massif de désinformation. Pire, plus de la moitié des réponses correctes citent des sources qui ne corroborent pas l'information donnée. Les plateformes comme Facebook et Reddit sont fréquemment citées, même pour des réponses fausses. De plus, le système est facilement manipulable : une fausse information a été intégrée en moins de 24 heures. Google conteste la méthodologie de l'étude, arguant que les tests ne reflètent pas les requêtes réelles des utilisateurs et utilisent une IA pour évaluer une autre IA.

Auteur: Claude, Deep Tide TechFlow

Guide de Deep Tide: Un test récent du New York Times et de la startup d'IA Oumi révèle que la fonction de résumé IA (AI Overviews) de Google Search a un taux de précision d'environ 91 %. Cependant, compte tenu du volume annuel de 5 000 milliards de recherches traitées par Google, cela signifie que des dizaines de millions de réponses erronées sont générées chaque heure. Plus problématique encore, même lorsque la réponse est correcte, plus de la moitié des liens de référence ne permettent pas d'étayer la conclusion.

Google diffuse des informations erronées à une échelle sans précédent, et la plupart des utilisateurs n'en ont pas conscience.

Selon le New York Times, la startup Oumi, mandatée par le journal, a évalué la précision de la fonction AI Overviews de Google en utilisant le test de référence SimpleQA, développé par OpenAI. Le test, portant sur 4326 requêtes de recherche, a été réalisé en octobre dernier (alimenté par Gemini 2) puis en février de cette année (après la mise à niveau vers Gemini 3). Les résultats montrent que le taux de précision de Gemini 2 était d'environ 85 %, et qu'il est passé à 91 % avec Gemini 3.

91 % semble correct, mais à l'échelle de Google, c'est une autre histoire. Google traite environ 5 000 milliards de requêtes de recherche par an. Avec un taux d'erreur de 9 %, AI Overviews génère plus de 57 millions de réponses inexactes par heure, soit près d'un million par minute.

La réponse est juste, mais la source est fausse

Plus inquiétant que le taux de précision est le problème du « décrochage » des sources de référence.

Les données d'Oumi montrent qu'à l'ère de Gemini 2, 37 % des réponses correctes présentaient un problème de « référence non fondée », c'est-à-dire que les liens fournis dans le résumé IA ne soutenaient pas l'information donnée. Après la mise à niveau vers Gemini 3, ce pourcentage n'a pas diminué mais a augmenté pour atteindre 56 %. En d'autres termes, le modèle donne de plus en plus de réponses correctes sans « rendre ses devoirs » (citer ses sources correctement).

La question du PDG d'Oumi, Manos Koukoumidis, est on point : « Même si la réponse est correcte, comment le savez-vous ? Comment pouvez-vous le vérifier ? »

Le fait qu'AI Overviews cite abondamment des sources de faible qualité aggrave ce problème. Oumi a découvert que Facebook et Reddit étaient respectivement les deuxième et quatrième sources les plus citées par AI Overviews. Parmi les réponses inexactes, Facebook était cité dans 7 % des cas, contre 5 % pour les réponses exactes.

Un faux article d'un journaliste de la BBC a « empoisonné » les résultats en moins de 24 heures

Un autre défaut grave d'AI Overviews est sa facilité à être manipulé.

Un journaliste de la BBC a testé le système avec un article délibérément fabriqué de toutes pièces. En moins de 24 heures, le résumé IA de Google présentait les fausses informations de l'article comme des faits aux utilisateurs.

Cela signifie que toute personne comprenant le fonctionnement du système pourrait potentiellement « empoisonner » les résultats de recherche IA en publiant du contenu faux et en augmentant son trafic. La réponse du porte-parole de Google, Ned Adriance, a été que la fonction de recherche IA s'appuie sur les mêmes mécanismes de classement et de sécurité que ceux utilisés pour bloquer le spam, et que « la plupart des exemples [du test] sont des requêtes irréalistes que les gens ne rechercheraient pas réellement ».

La contre-argumentation de Google : le test lui-même est problématique

Google a soulevé plusieurs objections concernant l'étude d'Oumi. Un porte-parole a qualifié l'étude de « gravement lacunaire », pour les raisons suivantes : le test de référence SimpleQA contient lui-même des informations inexactes ; Oumi a utilisé son propre modèle d'IA, HallOumi, pour évaluer les performances d'une autre IA, ce qui pourrait introduire des erreurs supplémentaires ; le contenu testé ne reflète pas le comportement de recherche réel des utilisateurs.

Les tests internes de Google ont également montré que Gemini 3, fonctionnant indépendamment du cadre de recherche Google, produisait des sorties hallucinées (fausses) à un taux élevé de 28 %. Mais Google a souligné qu'AI Overviews, en s'appuyant sur le système de classement des recherches, améliore la précision et surpasse les performances du modèle seul.

Cependant, comme le souligne un commentaire de PCMag mettant en lumière un paradoxe logique : si votre argument de défense est « le rapport qui pointe l'inexactitude de notre IA utilise lui-même une IA potentiellement inexacte », cela n'est probablement pas de nature à renforcer la confiance des utilisateurs en la précision de votre produit.

Questions liées

QQuel est la précision des résumés IA de Google selon l'étude du New York Times et Oumi ?

ASelon l'étude, la précision des résumés IA de Google (AI Overviews) est d'environ 91% avec Gemini 3, contre 85% avec Gemini 2.

QCombien de réponses inexactes les AI Overviews de Google produisent-elles par heure ?

ACompte tenu du volume de 5 000 milliards de recherches traitées par an par Google et d'un taux d'erreur de 9%, les AI Overviews produisent plus de 57 millions de réponses inexactes par heure.

QQuel est le problème principal avec les sources citées par les AI Overviews ?

ALe problème principal est le 'référencement non fondé' : même lorsque la réponse est correcte, plus de la moitié (56% avec Gemini 3) des liens cités ne soutiennent pas la conclusion de l'IA.

QQuels sont les sites web de faible qualité souvent cités par l'IA de Google ?

AFacebook et Reddit sont respectivement les deuxième et quatrième sources les plus citées par les AI Overviews, Facebook étant encore plus fréquemment cité dans les réponses inexactes.

QComment Google a-t-il répondu aux conclusions de l'étude d'Oumi ?

AGoogle a contesté l'étude, la qualifiant de 'présentant de graves lacunes', en critiquant le benchmark SimpleQA, l'utilisation d'un autre modèle IA (HallOumi) pour l'évaluation, et la non-représentativité des requêtes de test par rapport aux recherches réelles des utilisateurs.

Lectures associées

Polymarket coincé : le véritable examen après avoir profité de l'effet de flux est arrivé

Polymarket, la principale plateforme de marchés prédictifs, fait face à de sérieux problèmes de performance et de latence qui dégradent l'expérience utilisateur. L'équipe, dirigée par le vice-président de l'ingénierie DeFi Josh Stevens, a reconnu que sa croissance a dépassé la capacité de son infrastructure actuelle, basée sur Polygon. La solution envisagée est une migration de la chaîne de base ("chain migration") et une refonte complète du système, notamment la reconstruction du carnet d'ordres (CLOB V2). L'objectif est d'obtenir plus d'espace bloc, des frais de gaz réduits et des temps de bloc plus rapides pour supporter une activité de trading plus fréquente et complexe, incluant bientôt des produits dérivés perpétuels ("Perps"). Cette annonce a déclenché une compétition entre plusieurs blockchains (Solana, Sui, Algorand, etc.) qui cherchent à accueillir Polymarket, un acteur majeur générant des revenus substantiels en frais. Pour Polygon, le départ potentiel de Polymarket représenterait une perte significative. Le véritable défi pour Polymarket n'est plus de prouver la demande pour son marché, mais de construire une infrastructure stable et fiable capable de retenir les utilisateurs et de supporter un trading intensif.

Odaily星球日报04/27 03:23

Polymarket coincé : le véritable examen après avoir profité de l'effet de flux est arrivé

Odaily星球日报04/27 03:23

Le principal obstacle à la nomination de Warsh à la présidence de la Fed le 15 mai est levé après le « revirement » d'un sénateur clé

L'obstacle clé à la nomination de Kevin Warsh comme président de la Fed a été levé après que le sénateur républicain Thom Tillis a retiré son opposition. Tillis, membre influent de la commission bancaire du Sénat, a justifié sa décision par la clôture de l'enquête criminelle visant le président sortant Jerome Powell, garantissant selon lui l'indépendance de la Fed. Le vote en commission est prévu le 29 avril, avec une confirmation finale attendue vers le 15 mai, date à laquelle le mandat de Powell expire. Warsh, largement soutenu par les républicains, prévoit des réformes majeures incluant l'abolition du "dot plot" et une révision des mécanismes de forward guidance, ce qui pourrait fondamentalement transformer le cadre de pricing des actifs globaux. Bien que l'enquête criminelle soit close, Powell reste sous scrutiny concernant des dépenses de rénovation, et sa position au conseil de la Fed (jusqu'en 2028) n'est pas encore assurée. Les marchés devront anticiper une refonte des outils de communication de la Fed, potentiellement source de volatilité et de réévaluation des modèles de prix.

marsbit04/27 02:59

Le principal obstacle à la nomination de Warsh à la présidence de la Fed le 15 mai est levé après le « revirement » d'un sénateur clé

marsbit04/27 02:59

Réduire les attentes pour le prochain cycle haussier du BTC

L'auteur Alex Xu, anciennement grand détenteur de Bitcoin, a réduit sa position à 30% malgré une vision à long terme positive. Il explique cette décision par six raisons principales : 1. L'énergie potentielle pour une nouvelle hausse cyclique est moindre, car le Bitcoin a déjà conquis les investisseurs institutionnels via les ETF. La prochaine étape nécessiterait une adoption par les banques centrales ou les fonds souverains, ce qui semble improbable à court terme. 2. Son coût d'opportunité a augmenté avec la découverte d'autres investissements attractifs. 3. L'industrie crypto dans son ensemble est en déclin, avec peu de modèles économiques viables (seul le DeFi génère des profits), ce qui réduit la base de détenteurs de BTC. 4. Le principal acheteur de BTC, Strategy, voit son coût de financement augmenter (11,5%), ce qui pourrait ralentir ses achats et exercer une pression vendeuse. 5. L'or tokenisé, un concurrent direct, offre désormais les mêmes avantages de divisibilité et de transférabilité que le Bitcoin. 6. Le problème du budget de sécurité du Bitcoin s'aggrave avec le halving, les nouvelles sources de frais (comme les inscriptions) ayant échoué. Malgré cette réduction, l'auteur conserve une exposition significative au Bitcoin et reste ouvert à racheter si les conditions évoluent favorablement.

marsbit04/27 02:50

Réduire les attentes pour le prochain cycle haussier du BTC

marsbit04/27 02:50

Les marchés prédictifs dépendent des délits d'initiés, mais les délits d'initiés sont en train de les tuer

L'article de Nic Carter explore le paradoxe central des marchés prédictifs : ils dépendent des initiés partageant des informations privilégiées pour générer des prix précis, mais cette même pratique d'initiés, comme le récent scandale d'un militaire américain ayant gagné 400 000 $ sur Polymarket, risque de détruire la confiance des petits investisseurs. L'auteur explique que la valeur sociale de ces marchés réside dans leur capacité à motiver la divulgation d'informations, mais un excès de trading d'initiés peut conduire les particuliers à se retirer, réduisant ainsi la liquidité. À l'inverse, une réglementation trop stricte étoufferait le flux d'informations précieuses. Le texte conclut sur le dilemme de trouver un équilibre entre l'efficacité informationnelle et une perception d'équité pour assurer la survie à long terme de ces plateformes.

marsbit04/27 02:39

Les marchés prédictifs dépendent des délits d'initiés, mais les délits d'initiés sont en train de les tuer

marsbit04/27 02:39

Le détroit d’Ormuz, l’Iran peut-il le « contrôler » ?

L'Iran a annoncé un projet global pour contrôler le détroit d'Ormuz, incluant l'exigence d'autorisations de transit, des frais de passage (payables de préférence en rials), et l'interdiction absolue des navires israéliens. Les analystes y voient une manœuvre pour exercer une pression économique sur les États-Unis et Israël, obtenir de nouvelles sources de revenus et lier le transit à des demandes d'indemnisation de guerre. Cependant, la mise en œuvre reste incertaine en raison des défis pratiques, des contestations juridiques internationales, de l'opposition mondiale et des contre-mesures américaines, dont le blocus des ports iraniens. Le projet pourrait surtout servir de monnaie d'échange dans de futures négociations.

marsbit04/27 01:34

Le détroit d’Ormuz, l’Iran peut-il le « contrôler » ?

marsbit04/27 01:34

Trading

Spot

Futures