Tens of Millions of Errors Per Hour: Investigation Reveals the 'Accuracy Illusion' of Google AI Search

marsbitXuất bản vào 2026-04-13Cập nhật gần nhất vào 2026-04-13

Tóm tắt

A New York Times investigation, in collaboration with AI startup Oumi, reveals significant accuracy and reliability issues with Google's AI Overviews search feature. Testing over 4,300 queries showed the accuracy rate improved from 85% (powered by Gemini 2) to 91% (Gemini 3). However, given Google's scale of ~5 trillion annual searches, this 9% error rate translates to nearly 57 million incorrect answers generated hourly. A critical finding is the prevalence of "unsubstantiated citations." For correct answers, the rate of citations that do not support the AI's summary surged from 37% to 56% with the Gemini 3 upgrade, making it difficult for users to verify information. The AI heavily relies on low-quality sources, with Facebook and Reddit being among its top-cited websites. Furthermore, the system is highly manipulable. A BBC journalist successfully "poisoned" it by publishing a fabricated article; Google's AI began presenting the false information as fact within 24 hours. Google disputed the study's methodology, criticizing its use of the SimpleQA benchmark and an AI model (Oumi's own) to evaluate another AI. The company maintains its AI Overviews, combined with its search ranking systems, perform better than the underlying model alone. Critics note this defense does little to bolster user confidence in the feature's reliability.

Author: Claude, Deep Tide TechFlow

Deep Tide Guide: A recent test conducted by The New York Times in collaboration with AI startup Oumi shows that the accuracy rate of Google Search's AI Overviews feature is approximately 91%. However, given Google's scale of processing 5 trillion searches annually, this translates to tens of millions of incorrect answers generated every hour. More troublingly, even when the answers are correct, over half of the cited links fail to support their conclusions.

Google is disseminating misinformation on an unprecedented scale, and most people are completely unaware.

According to The New York Times, AI startup Oumi, commissioned by the publication, used the industry-standard test SimpleQA, developed by OpenAI, to evaluate the accuracy of Google's AI Overviews feature. The test covered 4,326 search queries, conducted in two rounds: one in October last year (powered by Gemini 2) and another in February this year (upgraded to Gemini 3). The results showed that Gemini 2's accuracy was about 85%, which improved to 91% with Gemini 3.

91% sounds good, but it's a different story when considering Google's massive scale. Google processes approximately 5 trillion search queries annually. With a 9% error rate, AI Overviews generates over 57 million inaccurate answers per hour, nearly 1 million per minute.

Correct Answers, Wrong Sources

More alarming than the accuracy rate is the issue of "unsubstantiated citations."

Oumi's data shows that in the Gemini 2 era, 37% of correct answers had the problem of "unsubstantiated citations," meaning the links attached to the AI summary did not support the information provided. After upgrading to Gemini 3, this proportion increased instead of decreasing, jumping to 56%. In other words, while the model gives correct answers, it is increasingly failing to "show its work."

Oumi CEO Manos Koukoumidis pointedly questioned: "Even if the answer is correct, how do you know it's correct? How do you verify it?"

The heavy reliance on low-quality sources by AI Overviews exacerbates this problem. Oumi found that Facebook and Reddit are the second and fourth most cited sources for AI Overviews, respectively. In inaccurate answers, Facebook was cited 7% of the time, higher than the 5% rate in accurate answers.

BBC Journalist's Fake Article "Poisons" Results Within 24 Hours

Another serious flaw of AI Overviews is its susceptibility to manipulation.

A BBC journalist tested the system with a deliberately fabricated false article. In less than 24 hours, Google's AI Overview presented the false information from the article as fact to users.

This means anyone who understands how the system works could potentially "poison" AI search results by publishing false content and boosting its traffic. Google spokesperson Ned Adriance responded by stating that the search AI feature is built on the same ranking and security mechanisms used to block spam, and claimed that "most examples in the test are unrealistic queries that people wouldn't actually search for."

Google's Rebuttal: The Test Itself Is Flawed

Google raised several concerns about Oumi's study. A Google spokesperson called the research "seriously flawed," citing reasons including: the SimpleQA benchmark itself contains inaccurate information; Oumi used its own AI model, HallOumi, to judge another AI's performance, potentially introducing additional errors; and the test content does not reflect real user search behavior.

Google's internal tests also showed that when Gemini 3 operates independently outside the Google Search framework, it produces false outputs at a rate as high as 28%. However, Google emphasized that AI Overviews, leveraging the search ranking system, performs better in accuracy than the model alone.

Nevertheless, as PCMag pointed out in a logical paradox: If your defense is that "the report pointing out our AI's inaccuracies itself uses potentially inaccurate AI," this likely does not enhance user confidence in your product's accuracy.

Câu hỏi Liên quan

QWhat was the accuracy rate of Google's AI Overviews feature as tested by Oumi, and how many errors does this translate to per hour given Google's search volume?

AThe accuracy rate of Google's AI Overviews was found to be 91% in the test. Given Google's annual volume of 5 trillion searches, this 9% error rate translates to over 57 million inaccurate answers generated every hour.

QAccording to the Oumi study, what was the trend in 'unsubstantiated citations' between the Gemini 2 and Gemini 3 versions of the AI Overviews?

AThe problem of 'unsubstantiated citations' (where the provided links did not support the AI's answer) increased from 37% with Gemini 2 to 56% with the upgraded Gemini 3.

QWhich low-quality websites were identified as major sources frequently cited by Google's AI Overviews?

AFacebook and Reddit were identified as the second and fourth most frequently cited sources by the AI Overviews feature.

QHow did a BBC journalist demonstrate the vulnerability of Google's AI Overviews to manipulation?

AA BBC journalist tested the system by publishing a deliberately fabricated article. Within 24 hours, Google's AI Overviews began presenting the false information from that article as a factual answer to user queries.

QWhat were Google's main criticisms of the Oumi study's methodology?

AGoogle criticized the study for having 'serious flaws,' stating that the SimpleQA benchmark itself contains inaccuracies, that using Oumi's own AI model to judge another AI could introduce errors, and that the test queries did not reflect real user search behavior.

Nội dung Liên quan

Việc Giảm Mạnh STRC Của Strategy Cho Thấy Rủi Ro Đằng Sau Các Sản Phẩm Tín Dụng Liên Kết Bitcoin

Việc cổ phiếu ưu đãi STRC của Strategy (công ty mẹ của MicroStrategy) giao dịch giảm mạnh dưới mệnh giá 100 USD đã làm nổi bật rủi ro đằng sau các sản phẩm tín dụng gắn với Bitcoin. Dù CEO Matt Cole mô tả đây là đợt "thanh lọc đòn bẩy" do bán ép chứ không phải sự kiện vỡ nợ cơ bản, sự sụt giảm vẫn cho thấy mức độ nhanh chóng mà đòn bẩy có thể làm lộ ra điểm yếu trong các công cụ liên quan đến chiến lược kho bạc Bitcoin. Sự kiện này nhấn mạnh rằng các sản phẩm tín dụng Bitcoin mang rủi ro khác biệt so với nắm giữ BTC trực tiếp hoặc cổ phiếu phổ thông, đặc biệt khi nhà đầu tư sử dụng vay mượn. Nó cũng phản ánh sự phức tạp ngày càng tăng của thị trường tài chính hóa các kho bạc Bitcoin, nơi sự tương tác giữa cổ phiếu ưu đãi, cam kết cổ tức, đòn bẩy và biến động giá Bitcoin có thể dẫn đến bán ép trong điều kiện thanh khoản căng thẳng. Bài học chính là một lời cảnh báo về rủi ro đòn bẩy và tính dễ tổn thương trong cấu trúc tài chính phức tạp, hơn là bằng chứng về khả năng trả nợ của công ty phát hành.

bitcoinist5 giờ trước

Việc Giảm Mạnh STRC Của Strategy Cho Thấy Rủi Ro Đằng Sau Các Sản Phẩm Tín Dụng Liên Kết Bitcoin

bitcoinist5 giờ trước

Tòa Án Tối Cao Australia Trao Thắng Lợi Lớn Cho ASIC Trong Vụ Án Sản Phẩm Yield Tiền Mã Hóa Block Earner

Tòa án Tối cao Úc đã phán quyết nhất trí ủng hộ Ủy ban Chứng khoán và Đầu tư Úc (ASIC) trong vụ kiện chống lại công ty Block Earner. Tòa án xác định sản phẩm "Earner" cố định lợi suất lịch sử của Block Earner là một sản phẩm tài chính và phái sinh, do đó yêu cầu công ty phải có Giấy phép Dịch vụ Tài chính Úc để cung cấp sản phẩm này. Vụ việc giờ sẽ được chuyển lại cho Tòa án Liên bang Toàn thể để xác định hình phạt. Phán quyết này rất quan trọng vì nó áp dụng luật dịch vụ tài chính truyền thống của Úc vào một sản phẩm tiền mã hóa hứa hẹn lợi suất. Nó thiết lập một tiền lệ rõ ràng rằng các sản phẩm cung cấp lợi nhuận có cấu trúc hoặc có đặc điểm kinh tế giống phái sinh có thể phải đáp ứng các yêu cầu cấp phép, bất kể được gắn nhãn là gì. Mặc dù sản phẩm "Earner" cụ thể này không còn được cung cấp, phán quyết cung cấp cho ASIC cơ sở pháp lý vững chắc cho các hành động tương tự trong tương lai, phù hợp với xu hướng toàn cầu của các cơ quan quản lý trong việc đưa các sản phẩm tiền mã hóa vào khuôn khổ quy định hiện hành. Đối với các công ty tiền mã hóa, bài học là cần xem xét kỹ lưỡng bản chất kinh tế của sản phẩm. Đối với người tiêu dùng, phán quyết nhắc nhở rằng các sản phẩm sinh lợi tiềm ẩn rủi ro và khác biệt so với việc nắm giữ tiền mã hóa thông thường. Phán quyết này vạch ra một ranh giới quy định rõ ràng hơn cho ngành công nghiệp tiền mã hóa tại Úc.

bitcoinist8 giờ trước

Tòa Án Tối Cao Australia Trao Thắng Lợi Lớn Cho ASIC Trong Vụ Án Sản Phẩm Yield Tiền Mã Hóa Block Earner

bitcoinist8 giờ trước

Blockchain.com Mở Rộng Truy Cập Cổ Phiếu Token Hóa Thông Qua Ondo Finance

Blockchain.com đã mở rộng khả năng tiếp cận cổ phiếu và ETF được mã hóa (tokenized) của Hoa Kỳ thông qua ví tiền điện tử của mình, nhờ vào quan hệ đối tác với Ondo Finance. Động thái này mang các tài sản trong thế giới thực được quản lý vào giao diện quen thuộc dành cho người dùng tiền điện tử đủ điều kiện, cho phép họ nắm giữ các sản phẩm truyền thống như cổ phiếu bên cạnh stablecoin và công cụ DeFi. Ondo Finance, một tên tuổi nổi bật trong thị trường tài sản thực được mã hóa (RWA), đóng vai trò trung tâm bằng cách cung cấp các sản phẩm tài chính quen thuộc dưới dạng token. Sự hợp tác này giải quyết thách thức về phân phối, đưa các tài sản được mã hóa trực tiếp đến người dùng ví tiền điện tử hiện có. Một khía cạnh quan trọng là mục tiêu phục vụ người dùng bên ngoài Hoa Kỳ, nơi việc tiếp cận thị trường vốn Mỹ có thể bị hạn chế. Giải pháp này cung cấp một lựa chọn thay thế mang tính bản địa hóa cho tiền điện tử, tích hợp vào cơ sở hạ tầng tài chính mà người dùng toàn cầu đã quen thuộc. Bối cảnh thị trường RWA đang trở nên cạnh tranh hơn, với nhiều nền tảng tranh giành để trở thành cổng kết nối chính cho tài sản truyền thống được mã hóa. Blockchain.com và Ondo đặt cược rằng việc tích hợp liền mạch vào ví tiền điện tử có thể cung cấp trải nghiệm đơn giản và đáng tin cậy, giúp thu hẹp khoảng cách so với các sản phẩm môi giới truyền thống.

bitcoinist10 giờ trước

Blockchain.com Mở Rộng Truy Cập Cổ Phiếu Token Hóa Thông Qua Ondo Finance

bitcoinist10 giờ trước

CPU trở lại bàn đàm phán, một vở kịch "thăng tiến" trị giá 1700 tỷ USD bắt đầu

CPU đang trở lại trung tâm sân khấu trong kỷ nguyên AI, dẫn dắt một cơ hội thị trường trị giá 1700 tỷ USD vào năm 2030. Việc chuyển dịch từ huấn luyện sang suy luận (inference) và AI Agent đã làm thay đổi hoàn toàn vai trò của CPU. Trong các tác vụ Agent phức tạp, CPU hiện đảm nhận hơn 70% khối lượng công việc, xử lý luồng điều khiển, gọi công cụ và quản lý bộ nhớ (KV Cache). Tỷ lệ phối hợp GPU:CPU đang thu hẹp từ 1:8 xuống khoảng 1:4, thậm chí 1:1 trong một số trường hợp. Nhu cầu này dẫn đến việc thiếu hụt nguồn cung và lần tăng giá đầu tiên sau hơn một thập kỷ cho server CPU của Intel và AMD, với mức tăng 10-15%. Thị trường CPU server dự kiến tăng từ khoảng 300 tỷ USD năm 2025 lên 1700 tỷ USD vào năm 2030, được thúc đẩy bởi ba phân khúc: điện toán đám mây truyền thống, CPU head-node cho cụm AI và CPU node độc lập cho Agent – một thị trường hoàn toàn mới. NVIDIA cũng đã tham gia cuộc chơi với CPU Vera dựa trên kiến trúc ARM, nhấn mạnh tầm quan trọng chiến lược của CPU. Tại Trung Quốc, các công ty như Hygon (Hải Quang) và Huawei đang nắm bắt cơ hội từ làn sóng nhu cầu này và chương trình thay thế nhập khẩu (xinchuang), với hệ sinh thái phần mềm đang trưởng thành nhanh chóng.

marsbit10 giờ trước

CPU trở lại bàn đàm phán, một vở kịch "thăng tiến" trị giá 1700 tỷ USD bắt đầu

marsbit10 giờ trước

TechFlow Tình Báo: Giám đốc AI của AMD công khai chỉ trích Claude Code 'ngày càng ngốc nghếch và lười biếng', Trump tuyên bố eo biển Hormuz sẽ ngừng bắn toàn diện nhưng vẫn còn 80 quả thủy lôi chờ dọn

TechFlow Intelligence: Tóm tắt tin tức công nghệ & tài chính ngày... * **AI & Mô hình lớn:** Giám đốc AI của AMD chỉ trích Claude Code trở nên "kém thông minh và lười biếng". Z.AI (Trung Quốc) ra mắt GLM-5.2, tuyên bố ngang bằng Claude Opus mà không dùng chip NVIDIA. SK Telecom (Hàn Quốc) bị điều tra về chuyển giao công nghệ với Anthropic. DeepSeek gây sốt trên Zhihu với tính năng đa phương tiện mới. Gemini bị chỉ trích trên Reddit vì đưa lời khuyên sai trong tình huống lừa đảo. * **Chip & Phần cứng:** MIT tự viết hệ điều hành để nghiên cứu chip. Mỹ cáo buộc máy quang khắc EUV tối tân của ASML có thể đã tới Trung Quốc, ASML phủ nhận. Amazon đàm phán bán chip AI tự thiết kế ra bên ngoài. iPhone phiên bản kỷ niệm 20 năm của Apple dự kiến dùng quy trình N2P độc quyền từ TSMC. * **An ninh & Công ty:** Phát hiện 10.000 kho GitHub phân phối phần mềm độc hại. Apple vá lỗ hổng nghe lén nghiêm trọng trên tai nghe Beats. Nhiều kỹ sư Amazon bị điều tra nội bộ vì chỉ trích việc mở rộng trung tâm dữ liệu AI. Microsoft và Amazon có thể đối mặt với điều tra chống độc quyền khắt khe từ EU. * **Web3 / Crypto:** 0G Labs đạt cột mốc 100 tỷ token suy luận AI phi tập trung. Sàn Hàn Quốc Bithumb niêm yết RE, trong khi Upbit hủy niêm yết KERNEL. * **Thị trường & Địa chính trị:** Cổ phiếu bán dẫn Mỹ tăng mạnh, Intel tăng 10.6%, trong khi SpaceX giảm. Eo biển Hormuz chính thức mở cửa theo thỏa thuận Mỹ-Iran, nhưng hiệp hội vận tải dầu cảnh báo vẫn còn khoảng 80 quả thủy lôi trong luồng chính. Gần 80 tàu chở dầu chờ tín hiệu an toàn để xuất phát. Iran hoãn chuyến công du tới Thụy Sĩ, làm dấy lên nghi ngờ về tiến trình hòa bình.

marsbit10 giờ trước

TechFlow Tình Báo: Giám đốc AI của AMD công khai chỉ trích Claude Code 'ngày càng ngốc nghếch và lười biếng', Trump tuyên bố eo biển Hormuz sẽ ngừng bắn toàn diện nhưng vẫn còn 80 quả thủy lôi chờ dọn

marsbit10 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片