Hàng chục triệu lỗi mỗi giờ, cuộc điều tra tiết lộ "ảo tưởng về độ chính xác" của công cụ tìm kiếm AI Google

marsbitXuất bản vào 2026-04-10Cập nhật gần nhất vào 2026-04-10

Tóm tắt

Theo một nghiên cứu do The New York Times ủy quyền và thực hiện bởi công ty AI Oumi, tính năng AI Overviews (Tổng quan AI) của Google có tỷ lệ chính xác khoảng 91%. Tuy nhiên, với quy mô xử lý khoảng 5 nghìn tỷ lượt tìm kiếm mỗi năm của Google, tỷ lệ lỗi 9% này đồng nghĩa với việc mỗi giờ có thể phát sinh hơn 57 triệu câu trả lời không chính xác. Một vấn đề nghiêm trọng hơn là các trích dẫn nguồn không đáng tin cậy. Dữ liệu cho thấy 56% câu trả lời đúng của Gemini 3 (phiên bản nâng cấp) đi kèm với các liên kết tham khảo không hỗ trợ cho thông tin được đưa ra. Các nguồn chất lượng thấp như Facebook và Reddit thường xuyên được trích dẫn. Ngoài ra, tính năng này dễ bị thao túng. Một phóng viên BBC đã thử nghiệm bằng một bài báo giả mạo và thông tin sai lệch xuất hiện trong kết quả AI Overviews chưa đầy 24 giờ sau đó. Google phản bác nghiên cứu, cho rằng phương pháp kiểm tra có "những lỗ hổng nghiêm trọng", bao gồm việc sử dụng một mô hình AI khác để đánh giá và các truy vấn thử nghiệm không phản ánh hành vi tìm kiếm thực tế.

Tác giả: Claude, Deep Tide TechFlow

Deep Tide导读: Bài kiểm tra mới nhất của The New York Times phối hợp với công ty khởi nghiệp AI Oumi cho thấy, tính năng Tóm tắt AI (AI Overviews) của Google Tìm kiếm có độ chính xác khoảng 91%, nhưng với quy mô xử lý 5 nghìn tỷ lượt tìm kiếm mỗi năm của Google, điều này đồng nghĩa với việc mỗi giờ tạo ra hàng chục triệu câu trả lời sai. Đáng lo ngại hơn, ngay cả khi câu trả lời đúng, hơn một nửa các liên kết trích dẫn không thể hỗ trợ kết luận của nó.

Google đang cung cấp thông tin sai lệch cho người dùng trên quy mô chưa từng có, và hầu hết mọi người không hề hay biết.

Theo The New York Times, công ty khởi nghiệp AI Oumi được họ ủy quyền đã sử dụng bài kiểm tra tiêu chuẩn ngành SimpleQA do OpenAI phát triển để đánh giá độ chính xác của tính năng AI Overviews của Google. Bài kiểm tra bao gồm 4326 truy vấn tìm kiếm, được thực hiện vào tháng 10 năm ngoái (do Gemini 2 cung cấp) và một lần nữa vào tháng 2 năm nay (sau khi nâng cấp lên Gemini 3). Kết quả cho thấy, độ chính xác của Gemini 2 là khoảng 85%, và Gemini 3 đã tăng lên 91%.

91% nghe có vẻ tốt, nhưng đặt trong quy mô của Google thì đó là chuyện khác. Google xử lý khoảng 5 nghìn tỷ truy vấn tìm kiếm mỗi năm, tính theo tỷ lệ sai sót 9%, AI Overviews tạo ra hơn 57 triệu câu trả lời không chính xác mỗi giờ, gần 1 triệu câu mỗi phút.

Câu trả lời đúng, nhưng nguồn lại sai

Đáng lo ngại hơn cả tỷ lệ chính xác là vấn đề "trích dẫn không có căn cứ".

Dữ liệu từ Oumi cho thấy, ở thời Gemini 2, 37% câu trả lời đúng tồn tại vấn đề "trích dẫn không có cơ sở", tức là các liên kết đính kèm trong phần tóm tắt AI không hỗ trợ thông tin mà nó đưa ra. Sau khi nâng cấp lên Gemini 3, tỷ lệ này không những không giảm mà còn tăng vọt lên 56%. Nói cách khác, trong khi đưa ra câu trả lời đúng, mô hình ngày càng không biết "nộp bài tập về nhà".

Câu hỏi của CEO Oumi Manos Koukoumidis đã chỉ ra trọng điểm: "Ngay cả khi câu trả lời là đúng, làm sao bạn biết nó đúng? Làm thế nào để bạn xác minh?"

Việc AI Overviews trích dẫn một lượng lớn các nguồn chất lượng thấp càng làm trầm trọng thêm vấn đề này. Oumi phát hiện ra rằng Facebook và Reddit lần lượt là nguồn trích dẫn lớn thứ hai và thứ tư của AI Overviews. Trong các câu trả lời không chính xác, tần suất trích dẫn Facebook là 7%, cao hơn so với 5% trong các câu trả lời chính xác.

Một bài báo giả của phóng viên BBC, "đầu độc" thành công trong vòng 24 giờ

Một điểm yếu nghiêm trọng khác của AI Overviews là rất dễ bị thao túng.

Một phóng viên BBC đã sử dụng một bài báo giả mạo được cố tình bịa đặt để kiểm tra, chưa đầy 24 giờ sau, phần tóm tắt AI của Google đã trình bày thông tin sai lệch trong đó như một sự thật cho người dùng.

Điều này có nghĩa là bất kỳ ai hiểu rõ cơ chế hoạt động của hệ thống đều có thể "đầu độc" kết quả tìm kiếm AI bằng cách xuất bản nội dung giả mạo và đẩy cao lưu lượng truy cập của nó. Phản hồi của phát ngôn viên Google Ned Adriance về vấn đề này là, chức năng AI tìm kiếm được xây dựng dựa trên cùng cơ chế xếp hạng và bảo mật để chặn thông tin rác, và ông cho rằng "hầu hết các ví dụ trong bài kiểm tra là những truy vấn không thực tế mà mọi người thực tế sẽ không tìm kiếm".

Google phản bác: Chính bài kiểm tra có vấn đề

Google đã đặt ra nhiều nghi vấn về nghiên cứu của Oumi. Phát ngôn viên của Google cho biết nghiên cứu này "có những lỗ hổng nghiêm trọng", lý do bao gồm: bản thân bài kiểm tra chuẩn SimpleQA chứa thông tin không chính xác; Oumi sử dụng mô hình AI riêng HallOumi của họ để đánh giá hiệu suất của một AI khác, có thể gây ra sai số bổ sung; nội dung kiểm tra không phản ánh hành vi tìm kiếm thực tế của người dùng.

Bài kiểm tra nội bộ của Google cũng cho thấy, khi Gemini 3 hoạt động độc lập ngoài khuôn khổ Tìm kiếm của Google, tỷ lệ tạo ra đầu ra sai lệch lên tới 28%. Nhưng Google nhấn mạnh, AI Overviews sử dụng hệ thống xếp hạng tìm kiếm để nâng cao độ chính xác, thể hiện tốt hơn chính mô hình.

Tuy nhiên, như nhận xét của PCMag đã chỉ ra nghịch lý logic: Nếu lý do biện hộ của bạn là "chỉ ra rằng báo cáo về sự không chính xác của AI chúng tôi bản thân nó cũng sử dụng AI có thể không chính xác", điều này e rằng không thể tăng cường sự tin tưởng của người dùng vào độ chính xác sản phẩm của bạn.

Câu hỏi Liên quan

QTỷ lệ chính xác của tính năng AI Overviews của Google là bao nhiêu theo nghiên cứu của Oumi?

ATheo nghiên cứu của Oumi, tỷ lệ chính xác của AI Overviews là khoảng 91% khi sử dụng Gemini 3, tăng từ 85% so với Gemini 2.

QVới quy mô của Google, ước tính có bao nhiêu câu trả lời không chính xác được tạo ra mỗi giờ?

AVới 5 nghìn tỷ lượt tìm kiếm mỗi năm và tỷ lệ lỗi 9%, AI Overviews ước tính tạo ra hơn 57 triệu câu trả lời không chính xác mỗi giờ.

QVấn đề 'trích dẫn không có cơ sở' trong các câu trả lời đúng của AI Overviews là gì?

AĐây là vấn đề khi câu trả lời của AI là đúng, nhưng các liên kết trích dẫn kèm theo lại không hỗ trợ hoặc chứng minh cho thông tin đó. Tỷ lệ này tăng từ 37% lên 56% sau khi nâng cấp lên Gemini 3.

QNguồn trích dẫn nào của AI Overviews được coi là có chất lượng thấp?

ANghiên cứu chỉ ra rằng Facebook và Reddit lần lượt là nguồn trích dẫn lớn thứ hai và thứ tư của AI Overviews, và chúng thường xuyên xuất hiện trong các câu trả lời không chính xác.

QGoogle đã phản bác lại nghiên cứu của Oumi như thế nào?

AGoogle cho rằng nghiên cứu của Oumi 'có những lỗ hổng nghiêm trọng', bao gồm việc sử dụng bộ kiểm tra SimpleQA vốn chứa thông tin không chính xác, sử dụng mô hình AI của chính họ (HallOumi) để đánh giá, và các truy vấn thử nghiệm không phản ánh hành vi tìm kiếm thực tế của người dùng.

Nội dung Liên quan

Danh sách các altcoin phổ biến nhất theo lượt tìm kiếm trong những giờ gần đây đã được công bố!

Nền tảng CoinGecko vừa công bố danh sách các đồng altcoin được tìm kiếm nhiều nhất trong ba giờ qua. Đứng đầu danh sách là Pudgy Penguins (PENGU), tiếp theo là Catecoin (CATE) và Bless (BLESS) lần lượt ở vị trí thứ hai và ba. Về biến động giá, trong 24 giờ qua, PENGU tăng 3,9%, CATE tăng mạnh 126,2% và BLESS tăng 86,1%. What IF (IF) cũng ghi nhận mức tăng 41,9%. Dưới đây là bảng xếp hạng 15 đồng tiền điện tử được tìm kiếm nhiều nhất cùng vốn hóa thị trường của chúng: 1. Pudgy Penguins (PENGU) – 389,13 triệu USD 2. Catecoin (CATE) – 19,62 triệu USD 3. Bless (BLESS) – 32,72 triệu USD 4. Aerodrome Finance (AERO) – 385,03 triệu USD 5. Hyperliquid (HYPE) – 11,43 tỷ USD 6. Ethereum (ETH) – 224,17 tỷ USD 7. Chainlink (LINK) – 6,17 tỷ USD 8. Aave (AAVE) – 1,42 tỷ USD 9. What IF (IF) – 31,24 triệu USD 10. Polkadot (DOT) – 1,34 tỷ USD 11. Bitcoin (BTC) – 1,27 nghìn tỷ USD 12. Virtual Protocol (VIRTUAL) – 366,19 triệu USD 13. Algorand (ALGO) – 758,15 triệu USD 14. Cash Cat (CASHCAT) – 41,81 triệu USD 15. Solana (SOL) – 42,38 tỷ USD Lưu ý: Đây không phải là lời khuyên đầu tư.

cryptonews.ru9 phút trước

Danh sách các altcoin phổ biến nhất theo lượt tìm kiếm trong những giờ gần đây đã được công bố!

cryptonews.ru9 phút trước

Với giá 100.000 đô la mỗi tháng: Truth Social bán quyền truy cập bài đăng của Trump cho các công ty đầu tư

Trump Media and Technology Group (TMTG) đã ra mắt dịch vụ Truth API từ ngày 1/8/2026. Đây là kênh dữ liệu có phí cung cấp cho các khách hàng tổ chức, chủ yếu là các công ty đầu tư và giao dịch tần suất cao, quyền truy cập thời gian thực đến các bài đăng từ những tài khoản có ảnh hưởng nhất trên nền tảng Truth Social, bao gồm cả cựu Tổng thống Donald Trump. Theo các nguồn tin, gói dịch vụ này có giá lên tới 100.000 USD một tháng, với mức giảm giá xuống 60.000 USD/tháng cho hợp đồng ba năm. TMTG tuyên bố đây là một phần trong chiến lược tạo ra nguồn thu ổn định và lợi nhuận cao từ tài sản của công ty. Tuy nhiên, sáng kiến này đã vấp phải chỉ trích từ các nhà lập pháp cả hai đảng. Các Thượng nghị sĩ Dân chủ Elizabeth Warren và Adam Schiff đã yêu cầu Ủy ban Chứng khoán Mỹ (SEC) điều tra xem liệu việc bán quyền truy cập ưu tiên đến các bài đăng của tổng thống có vi phạm luật hay không. Thượng nghị sĩ Cộng hòa Bill Cassidy cũng chỉ trích đây là hành vi bán quyền truy cập đặc quyền không thể chấp nhận được. Phân tích AI trong bài báo cảnh báo về rủi ro tiềm ẩn, so sánh với sự kiện năm 2013 khi thị trường chứng khoán sụt giảm nhanh chóng do tin tức giả mạo. Việc biến tài khoản tổng thống thành một nút tín hiệu thị trường với độ trễ mili giây có thể tạo ra mục tiêu cho tin tặc hoặc thao túng, và đặt ra câu hỏi về trách nhiệm nếu thông tin sai lệch được phát tán qua kênh này.

cryptonews.ru44 phút trước

Với giá 100.000 đô la mỗi tháng: Truth Social bán quyền truy cập bài đăng của Trump cho các công ty đầu tư

cryptonews.ru44 phút trước

Chiến lược giữ mức cổ tức ưu đãi STRC ở 12% khi giá vẫn dưới mệnh giá

Cổ phiếu ưu đãi STRC của Strategy vẫn giao dịch dưới mệnh giá 100 USD trong tháng 7, nhưng công ty thông báo sẽ duy trì mức cổ tức 12% cho tháng 8. Cổ tức tiếp tục được trả hai lần mỗi tháng sau khi cổ đông phê chuẩn thay đổi này vào tháng 6. Giám đốc điều hành Phong Le khẳng định mục tiêu là đưa giá STRC về 99-100 USD, nhưng không đưa ra khung thời gian cụ thể. Strategy vừa công bố khoản lỗ ròng 8,22 tỷ USD trong quý II, chủ yếu do lỗ chưa thực hiện trên khoản nắm giữ Bitcoin. Công ty cho biết đã xây dựng dự trữ tiền mặt 3,75 tỷ USD để đảm bảo chi trả cổ tức và có kế hoạch tiếp tục mua lại cổ phiếu ưu đãi khi chúng giao dịch dưới mệnh giá.

cointelegraph2 giờ trước

Chiến lược giữ mức cổ tức ưu đãi STRC ở 12% khi giá vẫn dưới mệnh giá

cointelegraph2 giờ trước

Các giao dịch rút Bitcoin tiếp tục: 8 năm lưu trữ trong ví lạnh Coldcard kết thúc bằng số không

Ví phần cứng Coldcard bị xâm phạm, dẫn đến làn sóng rút tiền mới từ các thiết bị dễ bị tấn công. Theo Galaxy Research, tổng số tiền bị đánh cắp đã lên tới 1.367,05 BTC (khoảng 88,6 triệu USD). Vấn đề không nằm ở phần mềm cập nhật, mà ở seed phrase (cụm từ khôi phục) được tạo từ tháng 3/2021 do lỗi lập trình, khiến chúng dễ bị dò tìm. Lỗi này xảy ra khi thiết bị chuyển từ bộ tạo số ngẫu nhiên phần cứng sang bộ tạo phần mềm Yasmarang, được khởi tạo bằng dữ liệu có thể dự đoán được. Người dùng các model Mk2-Mk5 và Q với phiên bản phần mềm nhất định cần tạo seed phrase mới trên bản cập nhật đã sửa và chuyển tài sản sang đó để bảo vệ. Câu chuyện đau lòng của một nhà đầu tư 39 tuổi đã mất 2 BTC (130.000 USD) tích góp suốt 8 năm trong vài phút, dù áp dụng chiến lược "mua và giữ trong ví lạnh" thận trọng. Anh mua Bitcoin như một lá chắn chống siêu lạm phát và kế hoạch nghỉ hưu sớm, nhưng lỗ hổng đã phá hỏng mọi thứ. Sự việc nhấn mạnh rằng lưu trữ offline không tự động đảm bảo an toàn, và cộng đồng hy vọng nhà sản xuất có thể tìm cách khắc phục, hoàn trả tài sản cho người dùng.

cryptonews.ru2 giờ trước

Các giao dịch rút Bitcoin tiếp tục: 8 năm lưu trữ trong ví lạnh Coldcard kết thúc bằng số không

cryptonews.ru2 giờ trước

Tại Hàn Quốc ghi nhận sự bùng nổ khối lượng giao dịch 15 altcoin!

Tại Hàn Quốc, các sàn giao dịch tiền mã hóa lớn như Upbit và Bithumb đã ghi nhận sự tăng trưởng mạnh mẽ về khối lượng giao dịch của 15 đồng altcoin. Tổng khối lượng giao dịch trong 24 giờ của các altcoin phổ biến nhất đạt khoảng 347,7 triệu USD. MetaDAO (META) dẫn đầu bảng xếp hạng với khối lượng giao dịch riêng trên Upbit là 65,84 triệu USD. Euler (EUL) đứng thứ hai với tổng khối lượng 47,65 triệu USD trên cả hai sàn. XRP, thu hút truyền thống sự quan tâm của các nhà đầu tư Hàn Quốc, đạt 38,11 triệu USD. Danh sách 15 altcoin có khối lượng giao dịch lớn nhất trên Upbit và Bithumb lần lượt là: META, EUL, XRP, ThunderCore (TT), Babylon (BABY), Geodnet (GEOD), Hyperlane (HYPER), Momentum (MMT), Ondo (ONDO), Shiba Inu (SHIB), DOME, Lorenzo Protocol (BANK), Akash Network (AKT), Dogecoin (DOGE) và Worldcoin (WLD).

cryptonews.ru3 giờ trước

Giao dịch

Giao ngay

Hàng chục triệu lỗi mỗi giờ, cuộc điều tra tiết lộ "ảo tưởng về độ chính xác" của công cụ tìm kiếm AI Google

Tóm tắt

Câu trả lời đúng, nhưng nguồn lại sai

Một bài báo giả của phóng viên BBC, "đầu độc" thành công trong vòng 24 giờ

Google phản bác: Chính bài kiểm tra có vấn đề

Câu hỏi Liên quan

Nội dung Liên quan

Danh sách các altcoin phổ biến nhất theo lượt tìm kiếm trong những giờ gần đây đã được công bố!

Với giá 100.000 đô la mỗi tháng: Truth Social bán quyền truy cập bài đăng của Trump cho các công ty đầu tư

Chiến lược giữ mức cổ tức ưu đãi STRC ở 12% khi giá vẫn dưới mệnh giá

Các giao dịch rút Bitcoin tiếp tục: 8 năm lưu trữ trong ví lạnh Coldcard kết thúc bằng số không

Tại Hàn Quốc ghi nhận sự bùng nổ khối lượng giao dịch 15 altcoin!

Giao dịch

Danh mục Phổ biến

Thẻ Nổi bật