Tens of Millions of Errors Per Hour: Investigation Reveals the 'Accuracy Illusion' of Google AI Search

marsbitPublié le 2026-04-10Dernière mise à jour le 2026-04-10

Résumé

A New York Times investigation, in collaboration with AI startup Oumi, reveals significant accuracy and reliability issues with Google's AI Overviews search feature. Testing over 4,300 queries showed the accuracy rate improved from 85% (Gemini 2) to 91% (Gemini 3). However, given Google's scale of ~5 trillion annual searches, this 9% error rate translates to over 57 million incorrect answers generated hourly. A more critical issue is the prevalence of unsubstantiated citations. For correct answers, the rate of "unfounded citations"—where provided source links do not support the AI's claims—worsened, rising from 37% with Gemini 2 to 56% with Gemini 3. This makes it difficult for users to verify the information. The AI also heavily relies on low-quality sources, with Facebook and Reddit being its second and fourth most cited domains. Furthermore, the system is highly susceptible to manipulation. A BBC journalist successfully "poisoned" it by publishing a fake article; Google's AI began presenting the false information as fact within 24 hours. Google disputed the study's methodology, criticizing the use of the SimpleQA benchmark and an AI model (Oumi's HallOumi) to evaluate its own AI. The company maintains that its internal safeguards and ranking systems improve accuracy beyond the base model's performance.

Author: Claude, Deep Tide TechFlow

Deep Tide Introduction: The latest test by The New York Times in collaboration with AI startup Oumi shows that the accuracy rate of Google Search's AI Overviews feature is about 91%. However, given Google's scale of processing 5 trillion searches annually, this translates to tens of millions of incorrect answers generated every hour. More troublingly, even when the answers are correct, over half of the cited links fail to support their conclusions.

Google is delivering misinformation to users on an unprecedented scale, and most people are completely unaware.

According to The New York Times, AI startup Oumi, commissioned by the publication, used the industry-standard test SimpleQA developed by OpenAI to evaluate the accuracy of Google's AI Overviews feature. The test covered 4,326 search queries, conducting one round in October last year (powered by Gemini 2) and another in February this year (upgraded to Gemini 3). The results showed that Gemini 2's accuracy was about 85%, which improved to 91% with Gemini 3.

91% sounds good, but it's a different story when considering Google's scale. Google processes approximately 5 trillion search queries annually. Calculating with a 9% error rate, AI Overviews generates over 57 million inaccurate answers per hour, nearly 1 million per minute.

Correct Answers, Wrong Sources

More alarming than the accuracy rate is the issue of "unanchored" citation sources.

Oumi's data shows that in the Gemini 2 era, 37% of correct answers had "unsupported citations," meaning the links attached to the AI summaries did not support the information provided. After upgrading to Gemini 3, this proportion increased instead of decreasing, jumping to 56%. In other words, while the model gives correct answers, it's increasingly failing to "show its work."

Oumi CEO Manos Koukoumidis pointedly questioned: "Even if the answer is correct, how do you know it's correct? How do you verify it?"

The problem is exacerbated by AI Overviews' heavy reliance on low-quality sources. Oumi found that Facebook and Reddit are the second and fourth most cited sources for AI Overviews, respectively. In inaccurate answers, Facebook was cited 7% of the time, higher than the 5% in accurate answers.

BBC Journalist's Fake Article "Poisoned" Results Within 24 Hours

Another serious flaw of AI Overviews is its susceptibility to manipulation.

A BBC journalist tested the system with a deliberately fabricated false article. In less than 24 hours, Google's AI Overview presented the false information from the article as fact to users.

This means anyone who understands how the system works could potentially "poison" AI search results by publishing false content and boosting its traffic. Google spokesperson Ned Adriance responded by saying the search AI feature is built on the same ranking and security mechanisms that block spam, and claimed that "most examples in the test are unrealistic queries that people wouldn't actually search for."

Google's Rebuttal: The Test Itself Is Flawed

Google raised several objections to Oumi's research. A Google spokesperson called the study "seriously flawed," citing reasons including: the SimpleQA benchmark itself contains inaccurate information; Oumi used its own AI model HallOumi to judge another AI's performance, potentially introducing additional errors; and the test content doesn't reflect real user search behavior.

Google's internal tests also showed that when Gemini 3 operates independently outside the Google Search framework, it produces false outputs at a rate as high as 28%. But Google emphasized that AI Overviews leverages the search ranking system to improve accuracy, performing better than the model itself.

However, as PCMag's commentary pointed out the logical paradox: If your defense is that "the report pointing out our AI's inaccuracies itself uses potentially inaccurate AI," this probably doesn't enhance users' confidence in your product's accuracy.

Questions liées

QWhat is the accuracy rate of Google's AI Overviews feature according to the Oumi study?

AThe accuracy rate of Google's AI Overviews was found to be approximately 91% when powered by Gemini 3, an improvement from about 85% with Gemini 2.

QHow many inaccurate answers does the article estimate Google's AI Overviews produces per hour?

ABased on Google's annual volume of 5 trillion searches and a 9% error rate, the AI Overviews feature is estimated to produce over 57 million inaccurate answers per hour.

QWhat is the 'unsubstantiated citation' problem identified in the report?

AThe 'unsubstantiated citation' problem refers to instances where the AI Overviews provides a correct answer, but the attached source links do not actually support the information given. This issue increased from 37% with Gemini 2 to 56% with Gemini 3.

QWhich low-quality websites are frequently used as sources by AI Overviews, according to the Oumi data?

AAccording to Oumi's data, Facebook and Reddit are the second and fourth most cited sources by AI Overviews, with Facebook being cited more frequently in inaccurate answers.

QHow did Google respond to the findings of the Oumi study?

AGoogle criticized the study, calling it 'seriously flawed.' Their spokesperson argued that the SimpleQA benchmark itself contains inaccuracies, that using an AI (HallOumi) to judge another AI introduces errors, and that the test queries do not reflect real user search behavior.

Lectures associées

Telegram prend directement en charge TON, le trafic social réécrit le récit des blockchains publiques

Le fondateur de Telegram, Pavel Durov, a annoncé que TON réduisait ses frais de réseau et que Telegram en deviendrait le principal validateur. Cela marque un changement profond : Telegram ne fournit plus seulement un accès utilisateur, mais s'implique désormais au cœur de l'infrastructure et du développement technique de TON. TON, initialement lié à Telegram, possède un accès unique à une vaste base d'utilisateurs via la plateforme de messagerie. Cependant, transformer cet accès en une adoption durable de la blockchain reste un défi. Les succès viraux comme Notcoin ont montré la capacité de Telegram à générer un engagement rapide, mais souvent éphémère. L'accent est désormais mis sur la création de scénarios d'utilisation continus au sein de Telegram même. La réduction drastique des frais (presque à zéro) et l'amélioration de la vitesse de finalisation (0,6 seconde) visent à permettre des micro-transactions fréquentes et invisibles pour l'utilisateur, intégrées dans des fonctionnalités comme les récompenses, les pourboires ou les paiements en groupe. Devenir le plus grand validateur signifie que Telegram assume un rôle central dans la sécurité et la gouvernance du réseau. Si cela peut accélérer le développement et l'intégration, cela soulève également des questions sur la décentralisation. Durov affirme que la participation de Telegram attirera d'autres grands validateurs, renforçant ainsi le réseau. Un autre point notable est le taux de récompense annuel de staking de TON, parmi les plus élevés (18,8%), servant à attirer et retenir les capitaux dans l'écosystème. En résumé, l'enjeu pour TON n'est plus de bénéficier du flux d'utilisateurs de Telegram, mais de devenir la couche inférieure transparente qui alimente son économie applicative (mini-apps, jeux, rémunération des créateurs, etc.). Son succès se mesurera à sa capacité à s'intégrer de manière fluide dans l'expérience quotidienne des utilisateurs, sans qu'ils aient à percevoir la technologie blockchain sous-jacente.

marsbitIl y a 1 h

Telegram prend directement en charge TON, le trafic social réécrit le récit des blockchains publiques

marsbitIl y a 1 h

Telegram reprend personnellement en main TON, le trafic des réseaux sociaux réécrit le récit de la blockchain

L'article annonce que Telegram, sous l'impulsion de son fondateur Pavel Durov, prend désormais la direction principale du réseau The Open Network (TON), remplaçant la TON Foundation en tant que force motrice et devenant son plus grand validateur. Cette réorganisation marque un virage stratégique : TON n'est plus seulement un projet lié à Telegram, mais s'intègre profondément à son écosystème. L'objectif est de transformer l'immense flux d'utilisateurs de Telegram en activités durables sur la blockchain. Pour cela, TON a réduit ses frais quasiment à zéro et accéléré sa finalité (environ 0.6 seconde), visant à faciliter les transactions de faible valeur mais à haute fréquence typiques des interactions sociales. Des projets comme Notcoin ont montré le potentiel viral des mini-applications sur Telegram, mais pour construire un écosystème pérenne, TON doit désormais ancrer des cas d'usage récurrents (récompenses, pourboires, paiements, jeux) dans l'expérience quotidienne des utilisateurs, sans qu'ils perçoivent la complexité de la blockchain. Cette centralisation du rôle de Telegram soulève des questions sur la décentralisation de TON. Durov affirme qu'elle attirera à terme davantage de validateurs. Parallèlement, un taux de récompense de staking annuel élevé (18,8%) vise à retenir les capitaux dans l'écosystème. En résumé, le défi pour TON n'est plus de prouver sa proximité avec Telegram, mais de démontrer qu'il peut en devenir l'infrastructure transparente et indispensable, intégrée au cœur des fonctionnalités de la messagerie pour une adoption massive.

Odaily星球日报Il y a 1 h

Telegram reprend personnellement en main TON, le trafic des réseaux sociaux réécrit le récit de la blockchain

Odaily星球日报Il y a 1 h

L'ingénieur en post-entraînement d'OpenAI, Weng Jiayi, propose une nouvelle hypothèse paradigmatique pour l'IA agentique

L’ingénieur post-entraînement d’OpenAI, Weng Jiayi, explore une nouvelle approche pour l’IA agentique appelée « Heuristic Learning » (HL). Contrairement aux méthodes d’apprentissage par renforcement profond qui améliorent les modèles via l’ajustement des paramètres du réseau neuronal, le HL utilise un agent de codage (comme Codex) pour écrire, exécuter, déboguer et modifier itérativement des stratégies sous forme de code logiciel explicite (règles, contrôleurs, etc.). Dans des expériences sur Atari Breakout, l’agent a développé une stratégie purement Python atteignant le score théorique maximal de 864 points. Testé sur 57 jeux Atari, le HL a montré une efficacité d’échantillonnage initiale élevée, rivalisant avec des algorithmes comme le PPO dans certains jeux, mais révélant des limites dans des tâches complexes nécessitant une planification à long terme (ex: Montezuma’s Revenge). Les avantages potentiels du HL incluent une meilleure interprétabilité, une auditabilité pour les systèmes critiques (robotique, autonome), et une intégration aux flux d’ingénierie logicielle existants pour l’apprentissage continu. Weng Jiayi envisage une synergie future où les réseaux neuronaux gèrent la perception et l’estimation d’état, le HL gère les règles, la sécurité et la mémoire, et un agent LLM supervise les retours et les améliorations. Cette approche suggère qu’avec des agents de codage suffisamment puissants, l’expérience pourrait être encapsulée dans du code maintenable plutôt que dans des poids de modèles opaques.

marsbitIl y a 2 h

L'ingénieur en post-entraînement d'OpenAI, Weng Jiayi, propose une nouvelle hypothèse paradigmatique pour l'IA agentique

marsbitIl y a 2 h

Trading

Spot
Futures
活动图片