Tens of Millions of Errors Per Hour: Investigation Reveals the 'Accuracy Illusion' of Google AI Search

marsbitPublié le 2026-04-10Dernière mise à jour le 2026-04-10

Résumé

A New York Times investigation, in collaboration with AI startup Oumi, reveals significant accuracy and reliability issues with Google's AI Overviews search feature. Testing over 4,300 queries showed the accuracy rate improved from 85% (Gemini 2) to 91% (Gemini 3). However, given Google's scale of ~5 trillion annual searches, this 9% error rate translates to over 57 million incorrect answers generated hourly. A more critical issue is the prevalence of unsubstantiated citations. For correct answers, the rate of "unfounded citations"—where provided source links do not support the AI's claims—worsened, rising from 37% with Gemini 2 to 56% with Gemini 3. This makes it difficult for users to verify the information. The AI also heavily relies on low-quality sources, with Facebook and Reddit being its second and fourth most cited domains. Furthermore, the system is highly susceptible to manipulation. A BBC journalist successfully "poisoned" it by publishing a fake article; Google's AI began presenting the false information as fact within 24 hours. Google disputed the study's methodology, criticizing the use of the SimpleQA benchmark and an AI model (Oumi's HallOumi) to evaluate its own AI. The company maintains that its internal safeguards and ranking systems improve accuracy beyond the base model's performance.

Author: Claude, Deep Tide TechFlow

Deep Tide Introduction: The latest test by The New York Times in collaboration with AI startup Oumi shows that the accuracy rate of Google Search's AI Overviews feature is about 91%. However, given Google's scale of processing 5 trillion searches annually, this translates to tens of millions of incorrect answers generated every hour. More troublingly, even when the answers are correct, over half of the cited links fail to support their conclusions.

Google is delivering misinformation to users on an unprecedented scale, and most people are completely unaware.

According to The New York Times, AI startup Oumi, commissioned by the publication, used the industry-standard test SimpleQA developed by OpenAI to evaluate the accuracy of Google's AI Overviews feature. The test covered 4,326 search queries, conducting one round in October last year (powered by Gemini 2) and another in February this year (upgraded to Gemini 3). The results showed that Gemini 2's accuracy was about 85%, which improved to 91% with Gemini 3.

91% sounds good, but it's a different story when considering Google's scale. Google processes approximately 5 trillion search queries annually. Calculating with a 9% error rate, AI Overviews generates over 57 million inaccurate answers per hour, nearly 1 million per minute.

Correct Answers, Wrong Sources

More alarming than the accuracy rate is the issue of "unanchored" citation sources.

Oumi's data shows that in the Gemini 2 era, 37% of correct answers had "unsupported citations," meaning the links attached to the AI summaries did not support the information provided. After upgrading to Gemini 3, this proportion increased instead of decreasing, jumping to 56%. In other words, while the model gives correct answers, it's increasingly failing to "show its work."

Oumi CEO Manos Koukoumidis pointedly questioned: "Even if the answer is correct, how do you know it's correct? How do you verify it?"

The problem is exacerbated by AI Overviews' heavy reliance on low-quality sources. Oumi found that Facebook and Reddit are the second and fourth most cited sources for AI Overviews, respectively. In inaccurate answers, Facebook was cited 7% of the time, higher than the 5% in accurate answers.

BBC Journalist's Fake Article "Poisoned" Results Within 24 Hours

Another serious flaw of AI Overviews is its susceptibility to manipulation.

A BBC journalist tested the system with a deliberately fabricated false article. In less than 24 hours, Google's AI Overview presented the false information from the article as fact to users.

This means anyone who understands how the system works could potentially "poison" AI search results by publishing false content and boosting its traffic. Google spokesperson Ned Adriance responded by saying the search AI feature is built on the same ranking and security mechanisms that block spam, and claimed that "most examples in the test are unrealistic queries that people wouldn't actually search for."

Google's Rebuttal: The Test Itself Is Flawed

Google raised several objections to Oumi's research. A Google spokesperson called the study "seriously flawed," citing reasons including: the SimpleQA benchmark itself contains inaccurate information; Oumi used its own AI model HallOumi to judge another AI's performance, potentially introducing additional errors; and the test content doesn't reflect real user search behavior.

Google's internal tests also showed that when Gemini 3 operates independently outside the Google Search framework, it produces false outputs at a rate as high as 28%. But Google emphasized that AI Overviews leverages the search ranking system to improve accuracy, performing better than the model itself.

However, as PCMag's commentary pointed out the logical paradox: If your defense is that "the report pointing out our AI's inaccuracies itself uses potentially inaccurate AI," this probably doesn't enhance users' confidence in your product's accuracy.

Questions liées

QWhat is the accuracy rate of Google's AI Overviews feature according to the Oumi study?

AThe accuracy rate of Google's AI Overviews was found to be approximately 91% when powered by Gemini 3, an improvement from about 85% with Gemini 2.

QHow many inaccurate answers does the article estimate Google's AI Overviews produces per hour?

ABased on Google's annual volume of 5 trillion searches and a 9% error rate, the AI Overviews feature is estimated to produce over 57 million inaccurate answers per hour.

QWhat is the 'unsubstantiated citation' problem identified in the report?

AThe 'unsubstantiated citation' problem refers to instances where the AI Overviews provides a correct answer, but the attached source links do not actually support the information given. This issue increased from 37% with Gemini 2 to 56% with Gemini 3.

QWhich low-quality websites are frequently used as sources by AI Overviews, according to the Oumi data?

AAccording to Oumi's data, Facebook and Reddit are the second and fourth most cited sources by AI Overviews, with Facebook being cited more frequently in inaccurate answers.

QHow did Google respond to the findings of the Oumi study?

AGoogle criticized the study, calling it 'seriously flawed.' Their spokesperson argued that the SimpleQA benchmark itself contains inaccuracies, that using an AI (HallOumi) to judge another AI introduces errors, and that the test queries do not reflect real user search behavior.

Lectures associées

Suite au piratage de Coldcard, l’une des plus grandes violations de portefeuilles Bitcoin récentes, une nouvelle vague de pertes a commencé ! Les pertes augmentent

La société Galaxy Research a signalé une troisième vague d'attaques visant les portefeuilles Bitcoin générés sur les appareils Coldcard, portant le total des pertes à environ 1367 BTC (88,6 millions de dollars). Cette dernière vague a dérobé 207,7 BTC supplémentaires. Alors que les deux premières vagues présentaient des similitudes (fonds envoyés vers quelques adresses communes, ciblage de portefeuilles spécifiques), la troisième vague diffère significativement : utilisation d'une adresse de destination unique par victime, ciblage d'un type d'adresse Bitcoin différent (P2WSH) et agrégation de multiples adresses victimes par transaction. Ces différences suggèrent soit un même attaquant ayant modifié ses méthodes, soit l'émergence d'un second acteur malveillant exploitant la même vulnérabilité rendue publique. Les fonds volés, principalement issus de portefeuilles individuels détenant moins de 1 BTC, n'ont pas encore été déplacés depuis les adresses des pirates. La vulnérabilité logicielle à l'origine de ces attaques date de mars 2021, et tous les Bitcoins volés ont été créés après cette date.

cryptonews.ruIl y a 20 mins

Suite au piratage de Coldcard, l’une des plus grandes violations de portefeuilles Bitcoin récentes, une nouvelle vague de pertes a commencé ! Les pertes augmentent

cryptonews.ruIl y a 20 mins

Trump Media vend 2 628 BTC supplémentaires, ses avoirs tombent à 4 261 BTC

Trump Media & Technology Group, la société derrière Truth Social, a procédé à une nouvelle vente majeure de ses réserves de Bitcoin. Selon l'analyse de Lookonchain basée sur les données d'Arkham, la société a vendu 2 628 BTC pour environ 165 millions de dollars via des transferts vers Crypto.com. Ceci porte ses ventes totales sur les sept derniers mois à 7 281 BTC, pour une valeur d'environ 545 millions de dollars, réduisant ainsi ses avoirs de 63%. Ses réserves restantes s'élèvent désormais à 4 261 BTC, évalués à 269,8 millions de dollars. Ces transactions interviennent dans un contexte de surveillance accrue des activités cryptos liées à l'ancien président Donald Trump, notamment dans le cadre du débat législatif entourant le CLARITY Act, qui vise à renforcer les règles éthiques concernant la possession d'actifs numériques par les personnalités publiques.

cointelegraphIl y a 40 mins

Trump Media vend 2 628 BTC supplémentaires, ses avoirs tombent à 4 261 BTC

cointelegraphIl y a 40 mins

Fujian Jinjiang, un super-licorne de stockage dans l'ombre

Voici un résumé de l'article en français : Au cœur de la ville de Jinjiang, Fujian, connue pour ses chaussures de sport, se cache Fujian Jinhua Integrated Circuit Co., un acteur majeur mais discret dans le domaine de la mémoire DRAM. Fondée en 2016 avec une mission nationale de briser le monopole de Samsung, SK Hynix et Micron, l'entreprise a connu un départ prometteur grâce à un partenariat technologique avec United Microelectronics Corporation (UMC) de Taïwan et la direction de Chen Zhengkun, ancien cadre de Micron. Cependant, son développement a été brutalement interrompu en 2018 lorsque les États-Unis l'ont placée sur la liste des entités et ont engagé des poursuites pénales pour espionnage économique, alléguant le vol de secrets commerciaux de Micron. Cette sanction a gelé sa chaîne d'approvisionnement et paralysé sa production pendant près de cinq ans. Malgré un verdict d'innocence rendu par un tribunal américain en février 2024, Jinhua reste sous sanction. Pendant cette période difficile, soutenue par les autorités provinciales et locales, l'entreprise a travaillé à reconstruire sa ligne de production en réduisant sa dépendance aux technologies américaines. Elle se concentre désormais sur le marché des DRAM de niche (pour téléviseurs intelligents, routeurs, etc.) avec une capacité mensuelle d'environ 40 000 plaquettes. Bien que ses performances (chiffre d'affaires annuel d'environ 2 milliards de yuans) soient loin derrière celles de ses homologues chinois ChangXin Memory Technologies (CXMT) et Yangtze Memory Technologies Corp (YMTC), Jinhua a survécu et maintient sa position. L'histoire de Jinhua s'inscrit également dans la transformation audacieuse de Jinjiang, une ville dont l'économie reposait traditionnellement sur le textile et l'agroalimentaire, vers l'industrie des semi-conducteurs. Cet investissement massif, symbolisant la ténacité de la ville, a donné naissance à un cluster intégré de la filière des puces. Alors que l'industrie mondiale de la mémoire entre dans un super-cycle porté par l'IA, Jinhua, bien que modeste en taille, représente la résilience d'une entreprise ayant résisté à une intense pression géopolitique.

marsbitIl y a 1 h

Fujian Jinjiang, un super-licorne de stockage dans l'ombre

marsbitIl y a 1 h

Face à un déficit de 38 GW d'électricité, pourquoi les fermes de minage de bitcoin sont-elles devenues soudain une nouvelle porte d'entrée pour la puissance de calcul de l'IA ?

Face à une pénurie électrique projetée de 38 GW aux États-Unis d'ici 2026-2028, d'anciennes fermes de minage de Bitcoin se transforment rapidement en centres de données pour l'IA. Ces entreprises, comme TeraWulf ou Riot Platforms, évoluent du « minage » vers la fourniture d'infrastructures clés en main (« Powered Shell Provider »). Elles offrent aux géants du cloud un accès accéléré à des ressources critiques : terrains, raccordements au réseau électrique approuvés, sous-stations et bâtiments. La valeur réside dans leur capacité à fournir des centaines de mégawatts de capacité de calcul plusieurs années plus tôt que les nouveaux projets, comblant ainsi une partie du déficit électrique futur. Morgan Stanley estime que cette conversion pourrait contribuer 10 à 19 GW. Cette transition interroge : s'agit-il d'une réévaluation durable des infrastructures ou d'un récit financier amplifié par la ferveur autour de l'IA ?

华尔街日报Il y a 1 h

Face à un déficit de 38 GW d'électricité, pourquoi les fermes de minage de bitcoin sont-elles devenues soudain une nouvelle porte d'entrée pour la puissance de calcul de l'IA ?

华尔街日报Il y a 1 h

Michael Saylor : « Nous n'avons jamais dit que nous ne vendrions jamais de bitcoins »

Michael Saylor, président du comité stratégique, a déclaré que son entreprise n'a jamais pris l'engagement de ne jamais vendre ses bitcoins, mais s'attend à rester un acheteur net de bitcoins à long terme. Cette déclaration fait suite à des informations selon lesquelles la société aurait obtenu une nouvelle autorisation de vente de bitcoins pour une valeur allant jusqu'à 5 milliards de dollars. Saylor a précisé que cette autorisation n'était pas nouvelle et avait été annoncée le 29 juin dans le cadre du système de gestion de trésorerie de l'entreprise. Il a qualifié ces rapports de "vieilles nouvelles présentées comme nouvelles", soulignant que l'autorisation permet des ventes pour des objectifs spécifiques mais n'oblige pas l'entreprise à vendre. Aucune nouvelle autorisation n'ayant été annoncée, la société prévoit de rester un acheteur net de bitcoins. Saylor a également noté que le programme de monétisation de bitcoin de l'entreprise n'exige pas la vente de ses actifs en BTC et que l'entreprise n'a jamais officiellement adopté une politique de "vente interdite du BTC".

cryptonews.ruIl y a 2 h

Michael Saylor : « Nous n'avons jamais dit que nous ne vendrions jamais de bitcoins »

cryptonews.ruIl y a 2 h

Trading

Spot

Tens of Millions of Errors Per Hour: Investigation Reveals the 'Accuracy Illusion' of Google AI Search

Résumé

Correct Answers, Wrong Sources

BBC Journalist's Fake Article "Poisoned" Results Within 24 Hours

Google's Rebuttal: The Test Itself Is Flawed

Questions liées

Lectures associées

Suite au piratage de Coldcard, l’une des plus grandes violations de portefeuilles Bitcoin récentes, une nouvelle vague de pertes a commencé ! Les pertes augmentent

Trump Media vend 2 628 BTC supplémentaires, ses avoirs tombent à 4 261 BTC

Fujian Jinjiang, un super-licorne de stockage dans l'ombre

Face à un déficit de 38 GW d'électricité, pourquoi les fermes de minage de bitcoin sont-elles devenues soudain une nouvelle porte d'entrée pour la puissance de calcul de l'IA ?

Michael Saylor : « Nous n'avons jamais dit que nous ne vendrions jamais de bitcoins »

Trading

Catégories populaires

Tags tendances