Hàng chục triệu lỗi mỗi giờ, cuộc điều tra tiết lộ "ảo tưởng về độ chính xác" của công cụ tìm kiếm AI Google

marsbitXuất bản vào 2026-04-10Cập nhật gần nhất vào 2026-04-10

Tóm tắt

Theo một nghiên cứu do The New York Times ủy quyền và thực hiện bởi công ty AI Oumi, tính năng AI Overviews (Tổng quan AI) của Google có tỷ lệ chính xác khoảng 91%. Tuy nhiên, với quy mô xử lý khoảng 5 nghìn tỷ lượt tìm kiếm mỗi năm của Google, tỷ lệ lỗi 9% này đồng nghĩa với việc mỗi giờ có thể phát sinh hơn 57 triệu câu trả lời không chính xác. Một vấn đề nghiêm trọng hơn là các trích dẫn nguồn không đáng tin cậy. Dữ liệu cho thấy 56% câu trả lời đúng của Gemini 3 (phiên bản nâng cấp) đi kèm với các liên kết tham khảo không hỗ trợ cho thông tin được đưa ra. Các nguồn chất lượng thấp như Facebook và Reddit thường xuyên được trích dẫn. Ngoài ra, tính năng này dễ bị thao túng. Một phóng viên BBC đã thử nghiệm bằng một bài báo giả mạo và thông tin sai lệch xuất hiện trong kết quả AI Overviews chưa đầy 24 giờ sau đó. Google phản bác nghiên cứu, cho rằng phương pháp kiểm tra có "những lỗ hổng nghiêm trọng", bao gồm việc sử dụng một mô hình AI khác để đánh giá và các truy vấn thử nghiệm không phản ánh hành vi tìm kiếm thực tế.

Tác giả: Claude, Deep Tide TechFlow

Deep Tide导读: Bài kiểm tra mới nhất của The New York Times phối hợp với công ty khởi nghiệp AI Oumi cho thấy, tính năng Tóm tắt AI (AI Overviews) của Google Tìm kiếm có độ chính xác khoảng 91%, nhưng với quy mô xử lý 5 nghìn tỷ lượt tìm kiếm mỗi năm của Google, điều này đồng nghĩa với việc mỗi giờ tạo ra hàng chục triệu câu trả lời sai. Đáng lo ngại hơn, ngay cả khi câu trả lời đúng, hơn một nửa các liên kết trích dẫn không thể hỗ trợ kết luận của nó.

Google đang cung cấp thông tin sai lệch cho người dùng trên quy mô chưa từng có, và hầu hết mọi người không hề hay biết.

Theo The New York Times, công ty khởi nghiệp AI Oumi được họ ủy quyền đã sử dụng bài kiểm tra tiêu chuẩn ngành SimpleQA do OpenAI phát triển để đánh giá độ chính xác của tính năng AI Overviews của Google. Bài kiểm tra bao gồm 4326 truy vấn tìm kiếm, được thực hiện vào tháng 10 năm ngoái (do Gemini 2 cung cấp) và một lần nữa vào tháng 2 năm nay (sau khi nâng cấp lên Gemini 3). Kết quả cho thấy, độ chính xác của Gemini 2 là khoảng 85%, và Gemini 3 đã tăng lên 91%.

91% nghe có vẻ tốt, nhưng đặt trong quy mô của Google thì đó là chuyện khác. Google xử lý khoảng 5 nghìn tỷ truy vấn tìm kiếm mỗi năm, tính theo tỷ lệ sai sót 9%, AI Overviews tạo ra hơn 57 triệu câu trả lời không chính xác mỗi giờ, gần 1 triệu câu mỗi phút.

Câu trả lời đúng, nhưng nguồn lại sai

Đáng lo ngại hơn cả tỷ lệ chính xác là vấn đề "trích dẫn không có căn cứ".

Dữ liệu từ Oumi cho thấy, ở thời Gemini 2, 37% câu trả lời đúng tồn tại vấn đề "trích dẫn không có cơ sở", tức là các liên kết đính kèm trong phần tóm tắt AI không hỗ trợ thông tin mà nó đưa ra. Sau khi nâng cấp lên Gemini 3, tỷ lệ này không những không giảm mà còn tăng vọt lên 56%. Nói cách khác, trong khi đưa ra câu trả lời đúng, mô hình ngày càng không biết "nộp bài tập về nhà".

Câu hỏi của CEO Oumi Manos Koukoumidis đã chỉ ra trọng điểm: "Ngay cả khi câu trả lời là đúng, làm sao bạn biết nó đúng? Làm thế nào để bạn xác minh?"

Việc AI Overviews trích dẫn một lượng lớn các nguồn chất lượng thấp càng làm trầm trọng thêm vấn đề này. Oumi phát hiện ra rằng Facebook và Reddit lần lượt là nguồn trích dẫn lớn thứ hai và thứ tư của AI Overviews. Trong các câu trả lời không chính xác, tần suất trích dẫn Facebook là 7%, cao hơn so với 5% trong các câu trả lời chính xác.

Một bài báo giả của phóng viên BBC, "đầu độc" thành công trong vòng 24 giờ

Một điểm yếu nghiêm trọng khác của AI Overviews là rất dễ bị thao túng.

Một phóng viên BBC đã sử dụng một bài báo giả mạo được cố tình bịa đặt để kiểm tra, chưa đầy 24 giờ sau, phần tóm tắt AI của Google đã trình bày thông tin sai lệch trong đó như một sự thật cho người dùng.

Điều này có nghĩa là bất kỳ ai hiểu rõ cơ chế hoạt động của hệ thống đều có thể "đầu độc" kết quả tìm kiếm AI bằng cách xuất bản nội dung giả mạo và đẩy cao lưu lượng truy cập của nó. Phản hồi của phát ngôn viên Google Ned Adriance về vấn đề này là, chức năng AI tìm kiếm được xây dựng dựa trên cùng cơ chế xếp hạng và bảo mật để chặn thông tin rác, và ông cho rằng "hầu hết các ví dụ trong bài kiểm tra là những truy vấn không thực tế mà mọi người thực tế sẽ không tìm kiếm".

Google phản bác: Chính bài kiểm tra có vấn đề

Google đã đặt ra nhiều nghi vấn về nghiên cứu của Oumi. Phát ngôn viên của Google cho biết nghiên cứu này "có những lỗ hổng nghiêm trọng", lý do bao gồm: bản thân bài kiểm tra chuẩn SimpleQA chứa thông tin không chính xác; Oumi sử dụng mô hình AI riêng HallOumi của họ để đánh giá hiệu suất của một AI khác, có thể gây ra sai số bổ sung; nội dung kiểm tra không phản ánh hành vi tìm kiếm thực tế của người dùng.

Bài kiểm tra nội bộ của Google cũng cho thấy, khi Gemini 3 hoạt động độc lập ngoài khuôn khổ Tìm kiếm của Google, tỷ lệ tạo ra đầu ra sai lệch lên tới 28%. Nhưng Google nhấn mạnh, AI Overviews sử dụng hệ thống xếp hạng tìm kiếm để nâng cao độ chính xác, thể hiện tốt hơn chính mô hình.

Tuy nhiên, như nhận xét của PCMag đã chỉ ra nghịch lý logic: Nếu lý do biện hộ của bạn là "chỉ ra rằng báo cáo về sự không chính xác của AI chúng tôi bản thân nó cũng sử dụng AI có thể không chính xác", điều này e rằng không thể tăng cường sự tin tưởng của người dùng vào độ chính xác sản phẩm của bạn.

Câu hỏi Liên quan

QTỷ lệ chính xác của tính năng AI Overviews của Google là bao nhiêu theo nghiên cứu của Oumi?

ATheo nghiên cứu của Oumi, tỷ lệ chính xác của AI Overviews là khoảng 91% khi sử dụng Gemini 3, tăng từ 85% so với Gemini 2.

QVới quy mô của Google, ước tính có bao nhiêu câu trả lời không chính xác được tạo ra mỗi giờ?

AVới 5 nghìn tỷ lượt tìm kiếm mỗi năm và tỷ lệ lỗi 9%, AI Overviews ước tính tạo ra hơn 57 triệu câu trả lời không chính xác mỗi giờ.

QVấn đề 'trích dẫn không có cơ sở' trong các câu trả lời đúng của AI Overviews là gì?

AĐây là vấn đề khi câu trả lời của AI là đúng, nhưng các liên kết trích dẫn kèm theo lại không hỗ trợ hoặc chứng minh cho thông tin đó. Tỷ lệ này tăng từ 37% lên 56% sau khi nâng cấp lên Gemini 3.

QNguồn trích dẫn nào của AI Overviews được coi là có chất lượng thấp?

ANghiên cứu chỉ ra rằng Facebook và Reddit lần lượt là nguồn trích dẫn lớn thứ hai và thứ tư của AI Overviews, và chúng thường xuyên xuất hiện trong các câu trả lời không chính xác.

QGoogle đã phản bác lại nghiên cứu của Oumi như thế nào?

AGoogle cho rằng nghiên cứu của Oumi 'có những lỗ hổng nghiêm trọng', bao gồm việc sử dụng bộ kiểm tra SimpleQA vốn chứa thông tin không chính xác, sử dụng mô hình AI của chính họ (HallOumi) để đánh giá, và các truy vấn thử nghiệm không phản ánh hành vi tìm kiếm thực tế của người dùng.

Nội dung Liên quan

Nhà Giao Dịch Bitcoin Cho Biết Các Đỉnh Và Đáy Chu Kỳ Khớp Chính Xác Số Ngày

Nhà giao dịch Ryan (tài khoản X @DodysDD) đã chia sẻ một lý thuyết gây chú ý, cho rằng chu kỳ giá Bitcoin lặp lại với độ chính xác đáng kinh ngạc về số ngày. Theo đó, các đợt tăng giá (từ đáy chu kỳ đến đỉnh) trong các giai đoạn 2014–2017, 2018–2021 và 2022–2025 đều kéo dài đúng 1.064 ngày. Trong khi đó, các đợt giảm giá (từ đỉnh đến đáy) trong các pha 2017–2018 và 2021–2022 đều kéo dài đúng 364 ngày. Mô hình này hấp dẫn giới giao dịch vì gợi ý một cấu trúc thời gian có thể dự đoán. Tuy nhiên, lập luận này tiềm ẩn rủi ro về việc "chọn lọc dữ liệu" (cherry-picking), vì độ chính xác phụ thuộc vào việc lựa chọn các mốc đỉnh và đáy cụ thể, bỏ qua các điểm đánh dấu chu kỳ khác có thể phá vỡ sự đối xứng. Không có bằng chứng cho thấy Bitcoin vận hành bởi một bộ đếm ngày chính xác, vì thị trường chịu ảnh hưởng bởi nhiều yếu tố phức tạp như sự kiện giảm một nửa phần thưởng (halving), điều kiện vĩ mô và tâm lý nhà đầu tư. Dù vậy, lý thuyết này vẫn thu hút sự chú ý vì các câu chuyện chu kỳ luôn có sức ảnh hưởng trong thị trường tiền mã hóa, cung cấp một khuôn khổ đơn giản để định hình kỳ vọng trong bối cảnh nhiều bất ổn hiện tại. Điều quan trọng là cần tiếp cận những tuyên bố về ngày chính xác với thái độ hoài nghi, xem chúng như một góc nhìn tham khảo về mặt tâm lý thị trường hơn là một dự báo giá đáng tin cậy.

bitcoinist1 giờ trước

Nhà Giao Dịch Bitcoin Cho Biết Các Đỉnh Và Đáy Chu Kỳ Khớp Chính Xác Số Ngày

bitcoinist1 giờ trước

94 tỷ, khoản đầu tư lớn nhất của người máy năm nay đã xuất hiện

Ngành robot hình người vừa chứng kiến khoản đầu tư lớn nhất trong năm khi Neura, công ty robot hình người có trụ sở tại Munich, Đức, hoàn thành vòng gọi vốn Series C với 1.4 tỷ USD (khoảng 94.9 tỷ NDT). Điều đáng chú ý là sự tham gia của các nhà đầu tư chiến lược từ ngành công nghiệp như Schaeffler và Bosch - những tập đoàn linh kiện công nghiệp lâu đời của Đức. Sự tham gia này cho thấy sự chuyển dịch trong logic của lĩnh vực này: từ những màn trình diễn công nghệ sang triển khai thực tế trong nhà máy, và từ câu chuyện vốn đầu tư sang hệ thống thương mại thực sự. Sau vòng gọi vốn, định giá của Neura đạt khoảng 7 tỷ USD, đưa công ty vào nhóm dẫn đầu toàn cầu. Khác với các công ty như Figure AI tập trung vào robot hình người đa năng với câu chuyện về AI thể hiện (embodied AI) được hậu thuẫn bởi OpenAI hay Microsoft, Neura theo đuổi con đường ứng dụng theo ngành dọc trong công nghiệp. Công ty đã có khách hàng thực tế là BMW và sản phẩm của họ đã được kiểm chứng trên dây chuyền sản xuất. Có hai lý do chính cho làn sóng đầu tư mạnh mẽ này. Thứ nhất là sự tiến bộ vượt bậc của các mô hình lớn (AI), phá vỡ giới hạn về khả năng nhận thức và ra quyết định của robot. Thứ hai là áp lực từ phía nhu cầu: tình trạng thiếu hụt lao động và chi phí nhân công ngày càng tăng trên toàn cầu, đặc biệt ở các nền công nghiệp như Nhật Bản, Đức, buộc các nhà sản xuất phải tìm giải pháp thay thế. Mặt trận chính của robot hình người giờ đây không còn là các buổi ra mắt sản phẩm mà là mặt bằng nhà máy. Hai lĩnh vực được kỳ vọng sẽ triển khai quy mô sớm nhất là sản xuất công nghiệp (vì môi trường có cấu trúc, nhiệm vụ lặp lại) và các môi trường làm việc nguy hiểm (hóa chất, hạt nhân). Tuy nhiên, thách thức lớn nhất cho việc triển khai hàng loạt không còn là công nghệ lõi mà là các vấn đề kỹ thuật và thương mại như chi phí thích ứng với từng dây chuyền cụ thể và xây dựng hệ thống bảo trì, dịch vụ địa phương đáng tin cậy. Việc các gã khổng lồ công nghiệp lâu đời bắt đầu "bỏ phiếu" bằng tiền thật cho thấy ngành công nghiệp này đã chuyển từ câu hỏi "Liệu có làm được không?" sang "Làm thế nào để làm tốt hơn, nhanh hơn và ổn định hơn". Đây mới là tín hiệu quan trọng nhất từ khoản đầu tư kỷ lục này.

marsbit7 giờ trước

94 tỷ, khoản đầu tư lớn nhất của người máy năm nay đã xuất hiện

marsbit7 giờ trước

Thị Trường Trước Niêm Yết của Anthropic Sụt Giảm Sau Lệnh Hoa Kỳ Buộc Ngừng Hoạt Động Mô Hình

Công ty trí tuệ nhân tạo Anthropic thông báo đã nhận chỉ thị từ chính phủ Mỹ vào ngày 12/6, yêu cầu ngừng cung cấp quyền truy cập hai mô hình Claude Fable 5 và Claude Mythos 5 cho người nước ngoài, kể cả nhân viên nước ngoài trong công ty. Để tuân thủ, Anthropic đã vô hiệu hóa cả hai mô hình trên toàn cầu. Lệnh này được mô tả là một biện pháp kiểm soát xuất khẩu khẩn cấp liên quan đến an ninh quốc gia. Các mô hình khác như Claude Opus 4.8 không bị ảnh hưởng. Anthropic phản đối quyết định này, cho biết chính phủ chỉ cung cấp bằng chứng bằng lời nói về một lỗ hổng "jailbreak" hẹp và không phổ biến, liên quan đến việc yêu cầu mô hình xem xét một mã nguồn cụ thể. Công ty lập luận lỗ hổng này nhỏ, đã biết trước và có thể được tìm thấy bởi các mô hình công khai khác, không cần thiết phải đóng cửa toàn bộ mô hình thương mại. Họ cảnh báo tiêu chuẩn này nếu áp dụng rộng rãi có thể đình chỉ mọi triển khai mô hình mới của các nhà cung cấp AI tiên phong. Thị trường tiền điện tử đang theo dõi sự việc do các hợp đồng phái sinh liên kết pre-IPO của Anthropic, cho phép giao dịch phản ánh tâm lý về lĩnh vực AI. Ngay sau chỉ thị, hợp đồng vĩnh viễn Anthropic trên Hyperliquid đã giảm 3.7%. Sự kiện này cho thấy quy định AI đang trở thành yếu tố có thể giao dịch được, và cơ sở hạ tầng AI đang hòa vào bản đồ thị trường đầu cơ cùng với crypto. Tuy nhiên, rủi ro là các thị trường này có thể biến động mạnh dựa trên thông tin không đầy đủ, trong khi báo cáo kỹ thuật của chính phủ chưa được công khai.

bitcoinist12 giờ trước

Thị Trường Trước Niêm Yết của Anthropic Sụt Giảm Sau Lệnh Hoa Kỳ Buộc Ngừng Hoạt Động Mô Hình

bitcoinist12 giờ trước

Ví Khai Thác Chuyển Đổi Token Bị Đánh Cắp Thành 18,510 ETH Và 1,548 BNB

Ví tiền liên quan đến một vụ khai thác lỗ hổng bảo mật đã chuyển đổi tài sản bị đánh cắp thành 18,510 ETH (khoảng 30,83 triệu USD) và 1.548 BNB (khoảng 924.000 USD), theo cảnh báo theo dõi trên chuỗi được WuBlockchain chia sẻ, trích dẫn dữ liệu từ Lookonchain. Việc chuyển đổi này đáng chú ý vì sau khi khai thác, các ví thường chuyển từ các token kém thanh khoản hoặc dễ bị truy vết sang các tài sản có tính thanh khoản cao hơn như ETH và BNB trước khi cố gắng rút tiền. Kẻ tấn công được cho là liên quan đến token "H" bị xâm phạm và vẫn đang nắm giữ số token trị giá khoảng 14 triệu USD. Các giao dịch hoán đổi lớn sau khai thác quan trọng vì chúng có thể gây áp lực bán lên tài sản, hé lộ bước di chuyển tiếp theo của kẻ tấn công và cung cấp manh mối cho các nhà điều tra. Trong khi theo dõi trên chuỗi (on-chain) giúp hiển thị các chuyển động này, việc xác định danh tính thực tế của người kiểm soát ví vẫn là thách thức. Các ví có thể nhanh chóng chia nhỏ hoặc chuyển tài sản xuyên chuỗi, làm phức tạp công tác truy vết. Báo cáo nhấn mạnh tầm quan trọng của việc theo dõi dữ liệu để hiểu cách quỹ bị đánh cắp được hợp nhất, đồng thời lưu ý rằng thông tin từ các nguồn như Lookonchain và WuBlockchain cung cấp cái nhìn nhanh chóng, nhưng không thay thế cho báo cáo điều tra chính thức. Việc chuyển đổi sang các tài sản có tính thanh khoản cao như ETH và BNB thường là giai đoạn phổ biến, làm phức tạp thêm các lựa chọn thu hồi tài sản sau đó.

bitcoinist15 giờ trước

Ví Khai Thác Chuyển Đổi Token Bị Đánh Cắp Thành 18,510 ETH Và 1,548 BNB

bitcoinist15 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片