Tens of Millions of Errors Per Hour: Investigation Reveals the 'Accuracy Illusion' of Google AI Search

marsbitXuất bản vào 2026-04-13Cập nhật gần nhất vào 2026-04-13

Tóm tắt

A New York Times investigation, in collaboration with AI startup Oumi, reveals significant accuracy and reliability issues with Google's AI Overviews search feature. Testing over 4,300 queries showed the accuracy rate improved from 85% (powered by Gemini 2) to 91% (Gemini 3). However, given Google's scale of ~5 trillion annual searches, this 9% error rate translates to nearly 57 million incorrect answers generated hourly. A critical finding is the prevalence of "unsubstantiated citations." For correct answers, the rate of citations that do not support the AI's summary surged from 37% to 56% with the Gemini 3 upgrade, making it difficult for users to verify information. The AI heavily relies on low-quality sources, with Facebook and Reddit being among its top-cited websites. Furthermore, the system is highly manipulable. A BBC journalist successfully "poisoned" it by publishing a fabricated article; Google's AI began presenting the false information as fact within 24 hours. Google disputed the study's methodology, criticizing its use of the SimpleQA benchmark and an AI model (Oumi's own) to evaluate another AI. The company maintains its AI Overviews, combined with its search ranking systems, perform better than the underlying model alone. Critics note this defense does little to bolster user confidence in the feature's reliability.

Author: Claude, Deep Tide TechFlow

Deep Tide Guide: A recent test conducted by The New York Times in collaboration with AI startup Oumi shows that the accuracy rate of Google Search's AI Overviews feature is approximately 91%. However, given Google's scale of processing 5 trillion searches annually, this translates to tens of millions of incorrect answers generated every hour. More troublingly, even when the answers are correct, over half of the cited links fail to support their conclusions.

Google is disseminating misinformation on an unprecedented scale, and most people are completely unaware.

According to The New York Times, AI startup Oumi, commissioned by the publication, used the industry-standard test SimpleQA, developed by OpenAI, to evaluate the accuracy of Google's AI Overviews feature. The test covered 4,326 search queries, conducted in two rounds: one in October last year (powered by Gemini 2) and another in February this year (upgraded to Gemini 3). The results showed that Gemini 2's accuracy was about 85%, which improved to 91% with Gemini 3.

91% sounds good, but it's a different story when considering Google's massive scale. Google processes approximately 5 trillion search queries annually. With a 9% error rate, AI Overviews generates over 57 million inaccurate answers per hour, nearly 1 million per minute.

Correct Answers, Wrong Sources

More alarming than the accuracy rate is the issue of "unsubstantiated citations."

Oumi's data shows that in the Gemini 2 era, 37% of correct answers had the problem of "unsubstantiated citations," meaning the links attached to the AI summary did not support the information provided. After upgrading to Gemini 3, this proportion increased instead of decreasing, jumping to 56%. In other words, while the model gives correct answers, it is increasingly failing to "show its work."

Oumi CEO Manos Koukoumidis pointedly questioned: "Even if the answer is correct, how do you know it's correct? How do you verify it?"

The heavy reliance on low-quality sources by AI Overviews exacerbates this problem. Oumi found that Facebook and Reddit are the second and fourth most cited sources for AI Overviews, respectively. In inaccurate answers, Facebook was cited 7% of the time, higher than the 5% rate in accurate answers.

BBC Journalist's Fake Article "Poisons" Results Within 24 Hours

Another serious flaw of AI Overviews is its susceptibility to manipulation.

A BBC journalist tested the system with a deliberately fabricated false article. In less than 24 hours, Google's AI Overview presented the false information from the article as fact to users.

This means anyone who understands how the system works could potentially "poison" AI search results by publishing false content and boosting its traffic. Google spokesperson Ned Adriance responded by stating that the search AI feature is built on the same ranking and security mechanisms used to block spam, and claimed that "most examples in the test are unrealistic queries that people wouldn't actually search for."

Google's Rebuttal: The Test Itself Is Flawed

Google raised several concerns about Oumi's study. A Google spokesperson called the research "seriously flawed," citing reasons including: the SimpleQA benchmark itself contains inaccurate information; Oumi used its own AI model, HallOumi, to judge another AI's performance, potentially introducing additional errors; and the test content does not reflect real user search behavior.

Google's internal tests also showed that when Gemini 3 operates independently outside the Google Search framework, it produces false outputs at a rate as high as 28%. However, Google emphasized that AI Overviews, leveraging the search ranking system, performs better in accuracy than the model alone.

Nevertheless, as PCMag pointed out in a logical paradox: If your defense is that "the report pointing out our AI's inaccuracies itself uses potentially inaccurate AI," this likely does not enhance user confidence in your product's accuracy.

Câu hỏi Liên quan

QWhat was the accuracy rate of Google's AI Overviews feature as tested by Oumi, and how many errors does this translate to per hour given Google's search volume?

AThe accuracy rate of Google's AI Overviews was found to be 91% in the test. Given Google's annual volume of 5 trillion searches, this 9% error rate translates to over 57 million inaccurate answers generated every hour.

QAccording to the Oumi study, what was the trend in 'unsubstantiated citations' between the Gemini 2 and Gemini 3 versions of the AI Overviews?

AThe problem of 'unsubstantiated citations' (where the provided links did not support the AI's answer) increased from 37% with Gemini 2 to 56% with the upgraded Gemini 3.

QWhich low-quality websites were identified as major sources frequently cited by Google's AI Overviews?

AFacebook and Reddit were identified as the second and fourth most frequently cited sources by the AI Overviews feature.

QHow did a BBC journalist demonstrate the vulnerability of Google's AI Overviews to manipulation?

AA BBC journalist tested the system by publishing a deliberately fabricated article. Within 24 hours, Google's AI Overviews began presenting the false information from that article as a factual answer to user queries.

QWhat were Google's main criticisms of the Oumi study's methodology?

AGoogle criticized the study for having 'serious flaws,' stating that the SimpleQA benchmark itself contains inaccuracies, that using Oumi's own AI model to judge another AI could introduce errors, and that the test queries did not reflect real user search behavior.

Nội dung Liên quan

Từ Vàng Đến Bitcoin: Nguồn Cung Cố Định + Sự Cuồng Nhiệt Của Tổ Chức, Có Tái Diễn Diễn Biến Giá 'Bùng Nổ'?

Bài viết phân tích triển vọng giá Bitcoin thông qua viễn cảnh so sánh với quỹ ETF vàng (GLD). ETF vàng ra mắt năm 2004, đã chứng kiến giá vàng tăng mạnh trong 20 năm, đạt vốn hóa gần 28 nghìn tỷ USD, dù trải qua chu kỳ tăng trưởng rồi điều chỉnh mạnh. Chuyên gia Eric Balchunas cho rằng lộ trình này có thể lặp lại với ETF Bitcoin: một giai đoạn tăng vọt ban đầu, sau đó là đợt điều chỉnh sâu và phục hồi chậm, nhưng đáy mỗi chu kỳ được nâng cao. Bitcoin, tương tự vàng, là công cụ lưu trữ giá trị không sinh lãi với nguồn cung gần cố định, giá cả phụ thuộc vào tâm lý nhà đầu tư. Việc phê duyệt ETF Bitcoin đầu năm 2024 đã thu hút mạnh dòng tiền tổ chức, nhưng cũng dẫn đến biến động lớn, như việc BlackRock's IBIT đã bán gần 100.000 Bitcoin gần đây. Dù giá Bitcoin đã giảm hơn 50% từ đỉnh tháng 10/2025, nhiều nhà phân tích lạc quan về nhu cầu tổ chức bền vững từ ETF và việc các doanh nghiệp đa dạng hóa danh mục. Kết luận, nếu Bitcoin có thể bắt chước một phần hành trình của vàng với tư cách là nơi lưu trữ giá trị, tiềm năng tăng giá vẫn rất lớn, dù hành trình đó sẽ đi kèm với sự biến động mạnh mẽ đặc trưng của thị trường tiền mã hóa.

Foresight News4 phút trước

Từ Vàng Đến Bitcoin: Nguồn Cung Cố Định + Sự Cuồng Nhiệt Của Tổ Chức, Có Tái Diễn Diễn Biến Giá 'Bùng Nổ'?

Foresight News4 phút trước

zcashd ngừng hoạt động, Zcash bước vào kỷ nguyên Ironwood: Phải chăng tính riêng tư kháng lượng tử là tương lai?

Zcash đã hoàn thành việc chuyển đổi từ phần mềm zcashd ban đầu sang hệ sinh thái nút mới là Zebra (dựa trên Rust) và Zakura, đánh dấu sự khởi đầu của kỷ nguyên Ironwood. Việc chuyển đổi này nhằm tăng cường khả năng bảo trì và giảm rủi ro vận hành dài hạn. Bất chấp việc phát hiện lỗ hổng trong nhóm được bảo vệ Orchard, niềm tin của người dùng dường như vẫn được duy trì. Mặc dù số dư được bảo vệ giảm 14%, số lượng giao dịch riêng tư lại tăng 11,1% và tập hợp ẩn danh mở rộng đáng kể. Khối lượng giao dịch hàng ngày trung bình cũng tăng 33,8%, cho thấy mức độ sử dụng mạng lưới vẫn tăng trưởng. Lỗ hổng Orchard đã được khắc phục nhanh chóng và không làm ảnh hưởng đến tổng nguồn cung ZEC. Kỷ nguyên Ironwood hứa hẹn tăng cường hơn nữa bảo mật cho giao thức thông qua xác minh chính thức và khả năng kháng lượng tử, củng cố sự đảm bảo an toàn lâu dài cho hệ sinh thái Zcash.

ambcrypto1 giờ trước

zcashd ngừng hoạt động, Zcash bước vào kỷ nguyên Ironwood: Phải chăng tính riêng tư kháng lượng tử là tương lai?

ambcrypto1 giờ trước

Sau 9 tháng bán khống, chuyển sang toàn diện mua vào, nhà giao dịch nổi tiếng xây dựng vị thế Bitcoin quanh mức 64k, sự phân hóa tâm lý thị trường crypto gia tăng

Sau 9 tháng làm ròng, trader nổi tiếng Doctor Profit tuyên bố đóng toàn bộ vị thế bán và bắt đầu mua Bitcoin ở mức ~64.000 USD. Ông lập luận rằng các yếu tố cơ bản như luật CLARITY, sự tham gia của các tổ chức tài chính lớn và làn sóng mã hóa tài sản có thể khiến đáy chu kỳ 4 năm đến sớm hơn dự kiến. Phân tích kỹ thuật từ chuyên gia on-chain gumsays cho thấy sự phân kỳ tăng trên biểu đồ tuần đã kéo dài 147 ngày, gần với mức 161 ngày trước khi hình thành đáy năm 2022. Tuy nhiên, nhà nghiên cứu Jake Pahor đưa ra quan điểm đối lập. Dựa trên dữ liệu lịch sử, ông chỉ ra rằng mọi đáy thị trường gấu từ năm 2014 đều đáp ứng ba điều kiện: thời gian kéo dài ~12 tháng, chỉ số sợ hãi cực đoan (dưới 20) kéo dài, và giá phá vỡ "Giá thực hiện" (hiện ~53.000 USD). Chu kỳ hiện tại chưa đạt điều kiện nào trong số này. Thị trường đang chia rẽ giữa phe "mua sớm" tin vào sự thay đổi cấu trúc và phe "chờ tín hiệu xác nhận" tuân theo khuôn mẫu lịch sử. Giá Bitcoin hiện quanh 64.800 USD, nằm ngay trên đường trung bình 200 tuần (~63.000 USD) trong bối cảnh chỉ số Fear & Greed ở mức 25 (Sợ hãi tột độ).

marsbit1 giờ trước

Sau 9 tháng bán khống, chuyển sang toàn diện mua vào, nhà giao dịch nổi tiếng xây dựng vị thế Bitcoin quanh mức 64k, sự phân hóa tâm lý thị trường crypto gia tăng

marsbit1 giờ trước

Lời chia sẻ của một trader kỳ cựu: Làm thế nào để giao dịch với kỳ vọng sai lầm của thị trường?

**Tóm tắt: Giao dịch "Kỳ vọng Sai lầm" từ một Trader Kỳ cựu** Đây là một giao dịch điển hình về "kỳ vọng sai lầm" của thị trường. Khi dữ liệu CPI yếu được công bố, thị trường lập tức phản ứng tích cực, cho rằng chính sách tiền tệ sẽ nới lỏng và đẩy chỉ số Nasdaq (NQ) lên cao. Tuy nhiên, lãi suất thực dài hạn (30 năm) ngay trong đêm đó đã tăng lên mức cao nhất trong 20 năm. Điều này cho thấy một sự "từ chối" ở phía dài hạn: thị trường vốn dài hạn không hề rẻ đi như kỳ vọng. Các công ty công nghệ vốn phụ thuộc vào vốn vay dài hạn để phát triển sẽ bị ảnh hưởng nặng nề, và trần định giá cho nhóm cổ phiếu này đã bị khóa chặt. Trader này đã thực hiện năm lệnh bán khống NQ, tận dụng đợt giảm từ 30060 xuống 28768 điểm. Phương pháp cốt lõi là: **không chỉ nhìn vào dữ liệu, mà phải phân tích xem thị trường *nghĩ* dữ liệu đó sẽ tác động thế nào, và sau đó kiểm tra xem cơ chế tác động đó có còn hiệu lực hay không.** Bài học chính: Thị trường thường phản ứng theo các "hàm phản ứng cũ" đã thành thói quen (ví dụ: dữ liệu yếu = lãi suất giảm = cổ phiếu công nghệ tăng). Khi bối cảnh vĩ mô thay đổi (ví dụ: áp lực lãi suất dài hạn dai dẳng), các mối quan hệ nhân quả cũ này có thể bị phá vỡ. Cơ hội Alpha không nhất thiết đến từ việc biết thông tin sớm hơn, mà đến từ việc nhận ra sự sai lệch giữa kỳ vọng của đám đông (dựa trên hàm phản ứng cũ) với thực tế mới của thị trường. Tóm lại, hãy luôn tự hỏi: **Phản ứng đầu tiên của thị trường đang dựa trên chuỗi nguyên nhân-kết quả nào? Và chuỗi đó, hôm nay có còn đúng không?**

marsbit1 giờ trước

Lời chia sẻ của một trader kỳ cựu: Làm thế nào để giao dịch với kỳ vọng sai lầm của thị trường?

marsbit1 giờ trước

Quan điểm: Mối quan hệ phòng hộ giữa trái phiếu Mỹ và thị trường chứng khoán đã mất hiệu lực, BTC với tư cách là tài sản rủi ro chịu áp lực kép

Tác giả: CryptoSlate / Andjela Radmilac Biên dịch: TechFlow sâu Dẫn nhập: Mối quan hệ phòng hộ truyền thống trong 20 năm qua, theo đó trái phiếu Mỹ tăng khi thị trường chứng khoán giảm và ngược lại, đã hoàn toàn thất bại. Hiện tại, cả hai đang giảm đồng thời, điều này đồng nghĩa với việc "bộ giảm xóc" cuối cùng trong danh mục đầu tư đã biến mất. Bitcoin, với tư cách là tài sản rủi ro ở đầu xa nhất của đường cong, đang phải chịu áp lực kép. Trong hai thập kỷ qua, nhà đầu tư Mỹ được hưởng một loại bảo hiểm miễn phí: trái phiếu kho bạc tăng khi cổ phiếu giảm, giúp bù đắp một phần tổn thất. Cơ chế này đã ngừng hoạt động từ khoảng năm 2020 và chưa được phục hồi. UBS tính toán hệ số tương quan hai tháng giữa chỉ số S&P 500 và lợi suất trái phiếu 10 năm Mỹ là -0.69, mức thấp nhất kể từ năm 1996, cho thấy mức độ biến động đồng bộ chưa từng có trong 30 năm. Lý do chính cho sự thay đổi này là lạm phát. Khi yếu tố tăng trưởng chi phối, cổ phiếu và trái phiếu biến động ngược chiều. Tuy nhiên, kể từ năm 2022, lạm phát đã trở thành yếu tố chủ đạo, và sự biến động của lạm phát (chứ không phải mức độ tuyệt đối) mới là vấn đề then chốt khiến cả hai tài sản cùng chịu áp lực giảm. Các nhà đầu tư hiện đang tìm kiếm sự an toàn mà không có rủi ro thời hạn (duration risk), chuyển sang nắm giữ tiền mặt, tín phiếu và trái phiếu ngắn hạn, trong khi bán ra các trái phiếu dài hạn. Vị trí của Bitcoin lúc này rất nhạy cảm với điều kiện vĩ mô. BTC thường hoạt động tốt khi lợi suất thực giảm, USD suy yếu và điều kiện tài chính nới lỏng. Việc thị trường trái phiếu giảm đã đồng thời loại bỏ ba yếu tố hỗ trợ này. Lợi suất không rủi ro cao hơn làm tăng chi phí cơ hội của việc nắm giữ tài sản không trả lãi như Bitcoin, trong khi cổ phiếu giảm làm giảm khẩu vị rủi ro. Điều này khiến Bitcoin phải hấp thụ cả hai loại áp lực cùng lúc. Vấn đề của Bitcoin là các điều kiện củng cố logic dài hạn của nó (như thâm hụt ngân sách và gánh nặng lãi suất cao) lại gây tổn hại cho nó trong ngắn hạn. Cho đến khi biến động lạm phát giảm bớt và rủi ro tăng trưởng trở lại thành yếu tố chủ đạo, Bitcoin sẽ tiếp tục giao dịch trong một thị trường mà loại tài sản có tính thanh khoản sâu nhất thế giới không còn đóng vai trò hấp thụ cú sốc. Điều này làm mất đi tấm đệm phía dưới mọi tài sản rủi ro, và những tài sản không trả bất kỳ khoản nào để chờ đợi sẽ bị ảnh hưởng nhanh nhất.

marsbit1 giờ trước

Quan điểm: Mối quan hệ phòng hộ giữa trái phiếu Mỹ và thị trường chứng khoán đã mất hiệu lực, BTC với tư cách là tài sản rủi ro chịu áp lực kép

marsbit1 giờ trước

Giao dịch

Giao ngay

Tens of Millions of Errors Per Hour: Investigation Reveals the 'Accuracy Illusion' of Google AI Search

Tóm tắt

Correct Answers, Wrong Sources

BBC Journalist's Fake Article "Poisons" Results Within 24 Hours

Google's Rebuttal: The Test Itself Is Flawed

Câu hỏi Liên quan

Nội dung Liên quan

Từ Vàng Đến Bitcoin: Nguồn Cung Cố Định + Sự Cuồng Nhiệt Của Tổ Chức, Có Tái Diễn Diễn Biến Giá 'Bùng Nổ'?

zcashd ngừng hoạt động, Zcash bước vào kỷ nguyên Ironwood: Phải chăng tính riêng tư kháng lượng tử là tương lai?

Sau 9 tháng bán khống, chuyển sang toàn diện mua vào, nhà giao dịch nổi tiếng xây dựng vị thế Bitcoin quanh mức 64k, sự phân hóa tâm lý thị trường crypto gia tăng

Lời chia sẻ của một trader kỳ cựu: Làm thế nào để giao dịch với kỳ vọng sai lầm của thị trường?

Quan điểm: Mối quan hệ phòng hộ giữa trái phiếu Mỹ và thị trường chứng khoán đã mất hiệu lực, BTC với tư cách là tài sản rủi ro chịu áp lực kép

Giao dịch

Danh mục Phổ biến

Thẻ Nổi bật