Tens of Millions of Errors Per Hour: Investigation Reveals the 'Accuracy Illusion' of Google AI Search

marsbitXuất bản vào 2026-04-13Cập nhật gần nhất vào 2026-04-13

Tóm tắt

A New York Times investigation, in collaboration with AI startup Oumi, reveals significant accuracy and reliability issues with Google's AI Overviews search feature. Testing over 4,300 queries showed the accuracy rate improved from 85% (powered by Gemini 2) to 91% (Gemini 3). However, given Google's scale of ~5 trillion annual searches, this 9% error rate translates to nearly 57 million incorrect answers generated hourly. A critical finding is the prevalence of "unsubstantiated citations." For correct answers, the rate of citations that do not support the AI's summary surged from 37% to 56% with the Gemini 3 upgrade, making it difficult for users to verify information. The AI heavily relies on low-quality sources, with Facebook and Reddit being among its top-cited websites. Furthermore, the system is highly manipulable. A BBC journalist successfully "poisoned" it by publishing a fabricated article; Google's AI began presenting the false information as fact within 24 hours. Google disputed the study's methodology, criticizing its use of the SimpleQA benchmark and an AI model (Oumi's own) to evaluate another AI. The company maintains its AI Overviews, combined with its search ranking systems, perform better than the underlying model alone. Critics note this defense does little to bolster user confidence in the feature's reliability.

Author: Claude, Deep Tide TechFlow

Deep Tide Guide: A recent test conducted by The New York Times in collaboration with AI startup Oumi shows that the accuracy rate of Google Search's AI Overviews feature is approximately 91%. However, given Google's scale of processing 5 trillion searches annually, this translates to tens of millions of incorrect answers generated every hour. More troublingly, even when the answers are correct, over half of the cited links fail to support their conclusions.

Google is disseminating misinformation on an unprecedented scale, and most people are completely unaware.

According to The New York Times, AI startup Oumi, commissioned by the publication, used the industry-standard test SimpleQA, developed by OpenAI, to evaluate the accuracy of Google's AI Overviews feature. The test covered 4,326 search queries, conducted in two rounds: one in October last year (powered by Gemini 2) and another in February this year (upgraded to Gemini 3). The results showed that Gemini 2's accuracy was about 85%, which improved to 91% with Gemini 3.

91% sounds good, but it's a different story when considering Google's massive scale. Google processes approximately 5 trillion search queries annually. With a 9% error rate, AI Overviews generates over 57 million inaccurate answers per hour, nearly 1 million per minute.

Correct Answers, Wrong Sources

More alarming than the accuracy rate is the issue of "unsubstantiated citations."

Oumi's data shows that in the Gemini 2 era, 37% of correct answers had the problem of "unsubstantiated citations," meaning the links attached to the AI summary did not support the information provided. After upgrading to Gemini 3, this proportion increased instead of decreasing, jumping to 56%. In other words, while the model gives correct answers, it is increasingly failing to "show its work."

Oumi CEO Manos Koukoumidis pointedly questioned: "Even if the answer is correct, how do you know it's correct? How do you verify it?"

The heavy reliance on low-quality sources by AI Overviews exacerbates this problem. Oumi found that Facebook and Reddit are the second and fourth most cited sources for AI Overviews, respectively. In inaccurate answers, Facebook was cited 7% of the time, higher than the 5% rate in accurate answers.

BBC Journalist's Fake Article "Poisons" Results Within 24 Hours

Another serious flaw of AI Overviews is its susceptibility to manipulation.

A BBC journalist tested the system with a deliberately fabricated false article. In less than 24 hours, Google's AI Overview presented the false information from the article as fact to users.

This means anyone who understands how the system works could potentially "poison" AI search results by publishing false content and boosting its traffic. Google spokesperson Ned Adriance responded by stating that the search AI feature is built on the same ranking and security mechanisms used to block spam, and claimed that "most examples in the test are unrealistic queries that people wouldn't actually search for."

Google's Rebuttal: The Test Itself Is Flawed

Google raised several concerns about Oumi's study. A Google spokesperson called the research "seriously flawed," citing reasons including: the SimpleQA benchmark itself contains inaccurate information; Oumi used its own AI model, HallOumi, to judge another AI's performance, potentially introducing additional errors; and the test content does not reflect real user search behavior.

Google's internal tests also showed that when Gemini 3 operates independently outside the Google Search framework, it produces false outputs at a rate as high as 28%. However, Google emphasized that AI Overviews, leveraging the search ranking system, performs better in accuracy than the model alone.

Nevertheless, as PCMag pointed out in a logical paradox: If your defense is that "the report pointing out our AI's inaccuracies itself uses potentially inaccurate AI," this likely does not enhance user confidence in your product's accuracy.

Câu hỏi Liên quan

QWhat was the accuracy rate of Google's AI Overviews feature as tested by Oumi, and how many errors does this translate to per hour given Google's search volume?

AThe accuracy rate of Google's AI Overviews was found to be 91% in the test. Given Google's annual volume of 5 trillion searches, this 9% error rate translates to over 57 million inaccurate answers generated every hour.

QAccording to the Oumi study, what was the trend in 'unsubstantiated citations' between the Gemini 2 and Gemini 3 versions of the AI Overviews?

AThe problem of 'unsubstantiated citations' (where the provided links did not support the AI's answer) increased from 37% with Gemini 2 to 56% with the upgraded Gemini 3.

QWhich low-quality websites were identified as major sources frequently cited by Google's AI Overviews?

AFacebook and Reddit were identified as the second and fourth most frequently cited sources by the AI Overviews feature.

QHow did a BBC journalist demonstrate the vulnerability of Google's AI Overviews to manipulation?

AA BBC journalist tested the system by publishing a deliberately fabricated article. Within 24 hours, Google's AI Overviews began presenting the false information from that article as a factual answer to user queries.

QWhat were Google's main criticisms of the Oumi study's methodology?

AGoogle criticized the study for having 'serious flaws,' stating that the SimpleQA benchmark itself contains inaccuracies, that using Oumi's own AI model to judge another AI could introduce errors, and that the test queries did not reflect real user search behavior.

Nội dung Liên quan

Sự cố Coldcard kích hoạt làn sóng Bitcoin, củng cố tiền điện tử 'tăng giá': Hodler's Digest, 2 tháng 8

Sự kiện khai thác lỗ hổng trên ví cứng Coldcard đã dẫn đến việc mất khoảng 90 triệu USD Bitcoin, khiến nhiều nhà đầu tư nhỏ chuyển tiền gấp sang các sàn tập trung. Dữ liệu cho thấy khối lượng giao dịch Bitcoin dưới 1 BTC đạt mức cao nhất hàng ngày kể từ năm 2022. Trong bối cảnh đó, ngành công nghiệp tiền mã hóa được cho là đang bước vào giai đoạn củng cố lớn nhất, với doanh thu ngày càng tập trung vào một số ít giao thức hàng đầu như Hyperliquid và Pump.fun. Nhà phân tích Lorenzo Valente của ARK Invest nhận định xu hướng này là "cực kỳ tích cực" cho không gian crypto, dù nó có thể đi kèm với nhiều vụ sáp nhập, phá sản và đóng cửa dự án. Mặt khác, báo cáo thu nhập quý II của các công ty lớn như Coinbase và MicroStrategy cho thấy kết quả ảm đạm, với thua lỗ gia tăng. Đồng thời, những bất ổn về mặt pháp lý vẫn tiếp diễn, như sự bế tắc của Dự luật Clarity Act tại Mỹ hay các cáo buộc nhắm vào nhà sáng lập Telegram Pavel Durov từ Nga và Australia. Cuối tuần, thị trường chung đi xuống, với Bitcoin giảm 3%. Grayscale đưa ra dự báo lạc quan rằng Bitcoin có thể đã chạm đáy sớm hơn chu kỳ truyền thống, mặc dù nhiều tín hiệu tương tự trước đó vẫn chưa ứng nghiệm.

cointelegraph15 phút trước

Sự cố Coldcard kích hoạt làn sóng Bitcoin, củng cố tiền điện tử 'tăng giá': Hodler's Digest, 2 tháng 8

cointelegraph15 phút trước

TIN MỚI NHẤT: Donald Trump đưa ra tuyên bố gay gắt về Iran! Ông đã dừng các cuộc tấn công

Tổng thống Mỹ Donald Trump tuyên bố đã hoãn các cuộc tấn công quân sự theo kế hoạch chống Iran sau khi Ả Rập Xê-út, UAE, Qatar và chính Iran kêu gọi ông làm như vậy. Ông mô tả kế hoạch ban đầu là "rất quy mô và mạnh mẽ", nhưng quyết định tạm dừng để các nước trong khu vực có thời gian cho đàm phán ngoại giao. Theo Trump, các đồng minh tin rằng một thỏa thuận đang đến gần. Giai đoạn đàm phán đầu tiên tập trung vào vấn đề an ninh và mở lại eo biển Hormuz - một tuyến đường vận chuyển dầu mỏ và khí đốt tự nhiên hóa lỏng trọng yếu của thế giới. Một khi vấn đề này được thống nhất, các cuộc đàm phán về chương trình hạt nhân của Iran sẽ bắt đầu. Trump cũng thông báo các cuộc đàm phán mới với Iran sẽ bắt đầu vào ngày mai. Ngoài ra, Trump còn đề cập đến sự can thiệp của Mỹ trên thị trường liên quan đến đồng yên Nhật, khẳng định hành động này dựa trên mối quan hệ tốt đẹp giữa hai nước và mang lại lợi ích kinh tế cho Mỹ.

cryptonews.ru1 giờ trước

TIN MỚI NHẤT: Donald Trump đưa ra tuyên bố gay gắt về Iran! Ông đã dừng các cuộc tấn công

cryptonews.ru1 giờ trước

Ngân hàng Ý không nhìn thấy lợi thế hệ thống của stablecoin trong chuyển tiền

Một nghiên cứu của Ngân hàng Ý kết luận rằng stablecoin không mang lại lợi thế hệ thống bền vững về chi phí và tốc độ trong chuyển tiền quốc tế so với các dịch vụ tiêu chuẩn. Các ưu điểm tiềm năng bị mất đi bởi phí chuyển đổi sang/và từ tiền pháp định và hiệu quả của cơ sở hạ tầng thanh toán địa phương. Nghiên cứu so sánh việc chuyển 200 USDC qua 10 hành lang giữa Ý và các nước như Brazil, Argentina, Nhật Bản, UAE và Nam Phi. Tổng chi phí chuyển stablecoin dao động từ 0,3% đến gần 9%, tùy tuyến. Thời gian giải quyết giao dịch dưới 20 phút ở những nơi có hệ thống thanh toán tức thời, nhưng có thể kéo dài 1-2 ngày làm việc ở khu vực không có. Chi phí và độ trễ chủ yếu đến từ việc trao đổi, chuyển đổi tiền tệ và chất lượng hạ tầng địa phương, không phải từ phí blockchain. Dù stablecoin rẻ hơn mức trung bình toàn cầu là 6,65%, chúng chỉ rẻ hơn dịch vụ Wise ở 3/7 tuyến so sánh được. Các tác giả cho rằng lợi ích sẽ rõ ràng hơn nếu stablecoin có thể được chi tiêu trực tiếp mà không cần đổi sang tiền địa phương. Họ cũng lưu ý rằng các quy định cấm đoán không làm giảm nhu cầu với stablecoin, trong khi quy định quá chặt chẽ lại gây khó khăn cho người dùng phổ thông.

cryptonews.ru2 giờ trước

Ngân hàng Ý không nhìn thấy lợi thế hệ thống của stablecoin trong chuyển tiền

cryptonews.ru2 giờ trước

Cơn sốt Bitcoin đang bùng nổ: Tuyên bố mới của Saylor gây nên những đồn đoán về việc mua vào

Giám đốc điều hành của Strategy Inc. (Nasdaq: MSTR), Michael Saylor, một lần nữa khơi dậy những đồn đoán về việc công ty sẽ thông báo mua Bitcoin mới vào thứ Hai, sau khi đăng thông điệp "Bitcoin Drive engaged" vào ngày 2 tháng 8. Thông báo này đi kèm với biểu đồ mua hàng quen thuộc của công ty, phù hợp với thói quen báo hiệu thay đổi kho bạc trước các báo cáo hàng tuần của Saylor. Báo cáo kèm theo cho thấy dự trữ Bitcoin của Strategy là 843.775 BTC, trị giá khoảng 53,25 tỷ USD. Giá mua trung bình được ghi nhận là 75.653 USD/BTC, với lỗ chưa thực hiện là 10,58 tỷ USD (-16,58%). Một tín hiệu tương tự vào Chủ nhật tuần trước đã dẫn đến thông báo vào ngày 27/7 về việc công ty gia tăng dự trữ tiền mặt. Sổ cái thời gian thực của Strategy hiển thị 116 giao dịch đã đăng ký với tổng số 843.775 BTC được mua, đồng thời ghi nhận hai đợt bán Bitcoin gần đây tổng cộng 3.588 BTC (giảm từ 847.363 BTC), nhằm mục đích tài trợ cho cổ tức ưu đãi và bổ sung dự trữ USD. Công ty được báo cáo là đã không mua BTC trong tuần kết thúc ngày 26/7, đồng thời tăng dự trữ USD lên khoảng 3,75 tỷ USD. Bối cảnh tài chính đầy thách thức khi Strategy báo lỗ hoạt động 8,33 tỷ USD trong quý II/2026, chủ yếu do lỗ chưa thực hiện trên tài sản kỹ thuật số. Ban lãnh đạo có thể bán thêm tới 1,25 tỷ USD Bitcoin để củng cố dự trữ USD. Thông báo cập nhật dự kiến vào thứ Hai sẽ cho thấy liệu "Bitcoin Drive" có đánh dấu việc tái tích lũy hay không, khi Strategy cân bằng giữa kho dự trữ Bitcoin khổng lồ và các nghĩa vụ tiền mặt ngày càng tăng.

cryptonews.ru2 giờ trước

Cơn sốt Bitcoin đang bùng nổ: Tuyên bố mới của Saylor gây nên những đồn đoán về việc mua vào

cryptonews.ru2 giờ trước

Mô hình 'đầu và vai' trên biểu đồ Bitcoin hứa hẹn mức tăng lên $67.200

Mặc dù giảm chậm vào đầu tháng 8, biểu đồ giá của Bitcoin đang hình thành một mô hình đảo chiều tiềm năng có tên "Đầu và Vai ngược". Bitcoin (BTC) hiện dao động quanh mức 63.200 USD, đang hình thành "vai phải" của mô hình này. Theo nhà phân tích Axel Kibard, đây là lý do lạc quan duy nhất cho phe mua trong ngắn hạn. Câu hỏi chính là liệu phe mua có đủ sức đẩy giá lên mức kháng cự quan trọng 67.000 USD hay không. Trong khi đó, cặp ETH/BTC đã bứt phá lên trên và Ethereum (ETH) đang cho thấy sức mạnh tương đối. Vốn đang chảy vào ETH thay vì BTC, điều này làm cạn kiệt thanh khoản và khiến Bitcoin khó bật tăng mạnh. Với USD, ETH đang thử thách ngưỡng hỗ trợ 1.875 USD. Nếu giữ vững, mục tiêu tiếp theo là 1.163 USD. Sức mạnh của ETH là tín hiệu tốt cho thị trường, nhưng áp lực vẫn đè nặng lên BTC. Bitcoin cần nhanh chóng tăng vọt lên trên 67.200 USD để xác nhận mô hình đảo chiều. Theo dự báo của Kibard, nếu không có đợt tấn công lên "đường viền cổ" trong vài ngày tới, phe gấu có thể chiếm ưu thế và kéo giá BTC về các vùng hỗ trợ 60.000 USD và 58.000 USD.

cryptonews.ru2 giờ trước

Mô hình 'đầu và vai' trên biểu đồ Bitcoin hứa hẹn mức tăng lên $67.200

cryptonews.ru2 giờ trước

Giao dịch

Giao ngay

Tens of Millions of Errors Per Hour: Investigation Reveals the 'Accuracy Illusion' of Google AI Search

Tóm tắt

Correct Answers, Wrong Sources

BBC Journalist's Fake Article "Poisons" Results Within 24 Hours

Google's Rebuttal: The Test Itself Is Flawed

Câu hỏi Liên quan

Nội dung Liên quan

Sự cố Coldcard kích hoạt làn sóng Bitcoin, củng cố tiền điện tử 'tăng giá': Hodler's Digest, 2 tháng 8

TIN MỚI NHẤT: Donald Trump đưa ra tuyên bố gay gắt về Iran! Ông đã dừng các cuộc tấn công

Ngân hàng Ý không nhìn thấy lợi thế hệ thống của stablecoin trong chuyển tiền

Cơn sốt Bitcoin đang bùng nổ: Tuyên bố mới của Saylor gây nên những đồn đoán về việc mua vào

Mô hình 'đầu và vai' trên biểu đồ Bitcoin hứa hẹn mức tăng lên $67.200

Giao dịch

Danh mục Phổ biến

Thẻ Nổi bật