Tens of Millions of Errors Per Hour: Investigation Reveals the 'Accuracy Illusion' of Google AI Search

marsbitXuất bản vào 2026-04-13Cập nhật gần nhất vào 2026-04-13

Tóm tắt

A New York Times investigation, in collaboration with AI startup Oumi, reveals significant accuracy and reliability issues with Google's AI Overviews search feature. Testing over 4,300 queries showed the accuracy rate improved from 85% (powered by Gemini 2) to 91% (Gemini 3). However, given Google's scale of ~5 trillion annual searches, this 9% error rate translates to nearly 57 million incorrect answers generated hourly. A critical finding is the prevalence of "unsubstantiated citations." For correct answers, the rate of citations that do not support the AI's summary surged from 37% to 56% with the Gemini 3 upgrade, making it difficult for users to verify information. The AI heavily relies on low-quality sources, with Facebook and Reddit being among its top-cited websites. Furthermore, the system is highly manipulable. A BBC journalist successfully "poisoned" it by publishing a fabricated article; Google's AI began presenting the false information as fact within 24 hours. Google disputed the study's methodology, criticizing its use of the SimpleQA benchmark and an AI model (Oumi's own) to evaluate another AI. The company maintains its AI Overviews, combined with its search ranking systems, perform better than the underlying model alone. Critics note this defense does little to bolster user confidence in the feature's reliability.

Author: Claude, Deep Tide TechFlow

Deep Tide Guide: A recent test conducted by The New York Times in collaboration with AI startup Oumi shows that the accuracy rate of Google Search's AI Overviews feature is approximately 91%. However, given Google's scale of processing 5 trillion searches annually, this translates to tens of millions of incorrect answers generated every hour. More troublingly, even when the answers are correct, over half of the cited links fail to support their conclusions.

Google is disseminating misinformation on an unprecedented scale, and most people are completely unaware.

According to The New York Times, AI startup Oumi, commissioned by the publication, used the industry-standard test SimpleQA, developed by OpenAI, to evaluate the accuracy of Google's AI Overviews feature. The test covered 4,326 search queries, conducted in two rounds: one in October last year (powered by Gemini 2) and another in February this year (upgraded to Gemini 3). The results showed that Gemini 2's accuracy was about 85%, which improved to 91% with Gemini 3.

91% sounds good, but it's a different story when considering Google's massive scale. Google processes approximately 5 trillion search queries annually. With a 9% error rate, AI Overviews generates over 57 million inaccurate answers per hour, nearly 1 million per minute.

Correct Answers, Wrong Sources

More alarming than the accuracy rate is the issue of "unsubstantiated citations."

Oumi's data shows that in the Gemini 2 era, 37% of correct answers had the problem of "unsubstantiated citations," meaning the links attached to the AI summary did not support the information provided. After upgrading to Gemini 3, this proportion increased instead of decreasing, jumping to 56%. In other words, while the model gives correct answers, it is increasingly failing to "show its work."

Oumi CEO Manos Koukoumidis pointedly questioned: "Even if the answer is correct, how do you know it's correct? How do you verify it?"

The heavy reliance on low-quality sources by AI Overviews exacerbates this problem. Oumi found that Facebook and Reddit are the second and fourth most cited sources for AI Overviews, respectively. In inaccurate answers, Facebook was cited 7% of the time, higher than the 5% rate in accurate answers.

BBC Journalist's Fake Article "Poisons" Results Within 24 Hours

Another serious flaw of AI Overviews is its susceptibility to manipulation.

A BBC journalist tested the system with a deliberately fabricated false article. In less than 24 hours, Google's AI Overview presented the false information from the article as fact to users.

This means anyone who understands how the system works could potentially "poison" AI search results by publishing false content and boosting its traffic. Google spokesperson Ned Adriance responded by stating that the search AI feature is built on the same ranking and security mechanisms used to block spam, and claimed that "most examples in the test are unrealistic queries that people wouldn't actually search for."

Google's Rebuttal: The Test Itself Is Flawed

Google raised several concerns about Oumi's study. A Google spokesperson called the research "seriously flawed," citing reasons including: the SimpleQA benchmark itself contains inaccurate information; Oumi used its own AI model, HallOumi, to judge another AI's performance, potentially introducing additional errors; and the test content does not reflect real user search behavior.

Google's internal tests also showed that when Gemini 3 operates independently outside the Google Search framework, it produces false outputs at a rate as high as 28%. However, Google emphasized that AI Overviews, leveraging the search ranking system, performs better in accuracy than the model alone.

Nevertheless, as PCMag pointed out in a logical paradox: If your defense is that "the report pointing out our AI's inaccuracies itself uses potentially inaccurate AI," this likely does not enhance user confidence in your product's accuracy.

Câu hỏi Liên quan

QWhat was the accuracy rate of Google's AI Overviews feature as tested by Oumi, and how many errors does this translate to per hour given Google's search volume?

AThe accuracy rate of Google's AI Overviews was found to be 91% in the test. Given Google's annual volume of 5 trillion searches, this 9% error rate translates to over 57 million inaccurate answers generated every hour.

QAccording to the Oumi study, what was the trend in 'unsubstantiated citations' between the Gemini 2 and Gemini 3 versions of the AI Overviews?

AThe problem of 'unsubstantiated citations' (where the provided links did not support the AI's answer) increased from 37% with Gemini 2 to 56% with the upgraded Gemini 3.

QWhich low-quality websites were identified as major sources frequently cited by Google's AI Overviews?

AFacebook and Reddit were identified as the second and fourth most frequently cited sources by the AI Overviews feature.

QHow did a BBC journalist demonstrate the vulnerability of Google's AI Overviews to manipulation?

AA BBC journalist tested the system by publishing a deliberately fabricated article. Within 24 hours, Google's AI Overviews began presenting the false information from that article as a factual answer to user queries.

QWhat were Google's main criticisms of the Oumi study's methodology?

AGoogle criticized the study for having 'serious flaws,' stating that the SimpleQA benchmark itself contains inaccuracies, that using Oumi's own AI model to judge another AI could introduce errors, and that the test queries did not reflect real user search behavior.

Nội dung Liên quan

a16z Crypto mới nhất phát hành: Tại sao chúng ta cần thị trường dự đoán?

Thị trường dự đoán cho phép mọi người giao dịch dựa trên kết quả sự kiện tương lai, từ địa chính trị đến giải trí. Về bản chất, chúng là công cụ tổng hợp thông tin: thông qua cơ chế giá, thị trường tập hợp nhận thức của người tham gia để đưa ra tín hiệu xác suất cho một sự kiện cụ thể. Thị trường dự đoán có nhiều ưu điểm so với các phương pháp khác như thăm dò ý kiến. Chúng cung cấp trực tiếp ước tính xác suất, cập nhật theo thời gian thực và quan trọng nhất là có cơ chế khuyến khích bằng tiền, thúc đẩy người tham gia đưa ra quyết định dựa trên thông tin có căn cứ. Điều này cũng khuyến khích họ tự nghiên cứu để thu lợi nhuận. Ngoài ra, thị trường dự đoán có thể bao phủ các vấn đề chuyên biệt mà thị trường truyền thống không phản ánh được, chẳng hạn như so sánh hiệu suất các mô hình AI. Tuy nhiên, để phát huy tiềm năng, thị trường dự đoán cần giải quyết một số thách thức. Về cơ sở hạ tầng, cần có cơ chế xác minh sự kiện minh bạch, có thể kiểm toán và xử lý thanh toán hợp đồng quy mô lớn. Về thiết kế thị trường, cần thu hút đa dạng người tham gia có thông tin; nếu chỉ có người không am hiểu hoặc người nắm thông tin nội bộ có thể thao túng kết quả, thị trường sẽ mất hiệu quả. Một rủi ro khác là việc lợi dụng thị trường để thao túng nhận thức công chúng, dù thị trường có khả năng tự điều chỉnh nhất định. Khi được thiết kế tốt với sự quản lý rõ ràng và minh bạch, thị trường dự đoán có thể trở thành công cụ mạnh mẽ để dự báo tương lai, khai thác "trí tuệ đám đông" một cách có tổ chức và được khuyến khích.

marsbit33 phút trước

a16z Crypto mới nhất phát hành: Tại sao chúng ta cần thị trường dự đoán?

marsbit33 phút trước

Cuộc Chiến Stablecoin Vừa Có Một Đối Thủ Mới — Và Đối Thủ Này Có 500.000 Điểm Bán Lẻ

MoneyGram, một trong những mạng lưới chuyển tiền xuyên biên giới lớn nhất thế giới, đã chính thức ra mắt MGUSD – một stablecoin gốc đô la Mỹ mang thương hiệu riêng vào ngày 2/6. Đây là bước chuyển chiến lược quan trọng, chuyển từ việc phụ thuộc vào nền tảng bên ngoài (như USDC của Circle) sang tự kiểm soát hoàn toàn việc phát hành và quản lý dự trữ. Điều này có ý nghĩa đặc biệt vì MoneyGram là một tổ chức thanh toán truyền thống 85 năm tuổi với hơn 500.000 địa điểm bán lẻ và phục vụ 50 triệu khách hàng toàn cầu. Việc họ phát hành stablecoin riêng giúp bình thường hóa công cụ tài chính kỹ thuật số cho đối tượng chính – những gia đình phụ thuộc vào kiều hối ở các khu vực như Mỹ Latinh, châu Phi và Đông Nam Á. Thời điểm ra mắt diễn ra ngay sau khi Đạo luật GENIUS (năm 2026) thiết lập khuôn khổ pháp lý rõ ràng đầu tiên của Mỹ cho các nhà phát hành stablecoin, tạo điều kiện cho MoneyGram mở rộng dịch vụ một cách tự tin. Động thái này không chỉ củng cố sự kiểm soát của công ty đối với chuỗi thanh toán kỹ thuật số mà còn đánh dấu sự hội tụ giữa nền kinh tế stablecoin và ngành công nghiệp thanh toán toàn cầu truyền thống.

bitcoinist36 phút trước

Cuộc Chiến Stablecoin Vừa Có Một Đối Thủ Mới — Và Đối Thủ Này Có 500.000 Điểm Bán Lẻ

bitcoinist36 phút trước

a16z Crypto Bài viết mới nhất: Tại sao chúng ta cần thị trường dự đoán?

Thị trường dự đoán cho phép mọi người giao dịch dựa trên kết quả của các sự kiện trong tương lai, như bầu cử hay giải trí. Về bản chất, chúng là một dạng thị trường thuần túy, nơi giá cả cân bằng tổng hợp thông tin và nhận thức từ tất cả người tham gia, từ đó tạo ra một tín hiệu xác suất về khả năng xảy ra của sự kiện. So với các phương pháp như thăm dò ý kiến, thị trường dự đoán có nhiều lợi thế: cung cấp trực tiếp ước tính xác suất, cập nhật theo thời gian thực, và quan trọng nhất là có cơ chế khuyến khích bằng tiền thật, thúc đẩy người tham gia sử dụng thông tin chính xác. Chúng cũng linh hoạt, có thể áp dụng cho các vấn đề chuyên sâu mà thị trường truyền thống không phản ánh được, như đánh giá hiệu suất AI. Tuy nhiên, để phát huy tiềm năng, thị trường dự đoán cần giải quyết những thách thức về cơ sở hạ tầng (xác minh sự kiện, minh bạch) và thiết kế thị trường. Các vấn đề bao gồm thu hút đủ người tham gia có hiểu biết, ngăn chặn giao dịch nội gián và thao túng giá nhằm mục đích tuyên truyền. Với sự quản lý minh bạch và thiết kế hợp lý, thị trường dự đoán có thể trở thành một công cụ mạnh mẽ để dự báo tương lai.

链捕手41 phút trước

a16z Crypto Bài viết mới nhất: Tại sao chúng ta cần thị trường dự đoán?

链捕手41 phút trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片