Hàng chục triệu lỗi mỗi giờ, cuộc điều tra tiết lộ "ảo tưởng về độ chính xác" của công cụ tìm kiếm AI Google

marsbitXuất bản vào 2026-04-10Cập nhật gần nhất vào 2026-04-10

Tóm tắt

Theo một nghiên cứu do The New York Times ủy quyền và thực hiện bởi công ty AI Oumi, tính năng AI Overviews (Tổng quan AI) của Google có tỷ lệ chính xác khoảng 91%. Tuy nhiên, với quy mô xử lý khoảng 5 nghìn tỷ lượt tìm kiếm mỗi năm của Google, tỷ lệ lỗi 9% này đồng nghĩa với việc mỗi giờ có thể phát sinh hơn 57 triệu câu trả lời không chính xác. Một vấn đề nghiêm trọng hơn là các trích dẫn nguồn không đáng tin cậy. Dữ liệu cho thấy 56% câu trả lời đúng của Gemini 3 (phiên bản nâng cấp) đi kèm với các liên kết tham khảo không hỗ trợ cho thông tin được đưa ra. Các nguồn chất lượng thấp như Facebook và Reddit thường xuyên được trích dẫn. Ngoài ra, tính năng này dễ bị thao túng. Một phóng viên BBC đã thử nghiệm bằng một bài báo giả mạo và thông tin sai lệch xuất hiện trong kết quả AI Overviews chưa đầy 24 giờ sau đó. Google phản bác nghiên cứu, cho rằng phương pháp kiểm tra có "những lỗ hổng nghiêm trọng", bao gồm việc sử dụng một mô hình AI khác để đánh giá và các truy vấn thử nghiệm không phản ánh hành vi tìm kiếm thực tế.

Tác giả: Claude, Deep Tide TechFlow

Deep Tide导读: Bài kiểm tra mới nhất của The New York Times phối hợp với công ty khởi nghiệp AI Oumi cho thấy, tính năng Tóm tắt AI (AI Overviews) của Google Tìm kiếm có độ chính xác khoảng 91%, nhưng với quy mô xử lý 5 nghìn tỷ lượt tìm kiếm mỗi năm của Google, điều này đồng nghĩa với việc mỗi giờ tạo ra hàng chục triệu câu trả lời sai. Đáng lo ngại hơn, ngay cả khi câu trả lời đúng, hơn một nửa các liên kết trích dẫn không thể hỗ trợ kết luận của nó.

Google đang cung cấp thông tin sai lệch cho người dùng trên quy mô chưa từng có, và hầu hết mọi người không hề hay biết.

Theo The New York Times, công ty khởi nghiệp AI Oumi được họ ủy quyền đã sử dụng bài kiểm tra tiêu chuẩn ngành SimpleQA do OpenAI phát triển để đánh giá độ chính xác của tính năng AI Overviews của Google. Bài kiểm tra bao gồm 4326 truy vấn tìm kiếm, được thực hiện vào tháng 10 năm ngoái (do Gemini 2 cung cấp) và một lần nữa vào tháng 2 năm nay (sau khi nâng cấp lên Gemini 3). Kết quả cho thấy, độ chính xác của Gemini 2 là khoảng 85%, và Gemini 3 đã tăng lên 91%.

91% nghe có vẻ tốt, nhưng đặt trong quy mô của Google thì đó là chuyện khác. Google xử lý khoảng 5 nghìn tỷ truy vấn tìm kiếm mỗi năm, tính theo tỷ lệ sai sót 9%, AI Overviews tạo ra hơn 57 triệu câu trả lời không chính xác mỗi giờ, gần 1 triệu câu mỗi phút.

Câu trả lời đúng, nhưng nguồn lại sai

Đáng lo ngại hơn cả tỷ lệ chính xác là vấn đề "trích dẫn không có căn cứ".

Dữ liệu từ Oumi cho thấy, ở thời Gemini 2, 37% câu trả lời đúng tồn tại vấn đề "trích dẫn không có cơ sở", tức là các liên kết đính kèm trong phần tóm tắt AI không hỗ trợ thông tin mà nó đưa ra. Sau khi nâng cấp lên Gemini 3, tỷ lệ này không những không giảm mà còn tăng vọt lên 56%. Nói cách khác, trong khi đưa ra câu trả lời đúng, mô hình ngày càng không biết "nộp bài tập về nhà".

Câu hỏi của CEO Oumi Manos Koukoumidis đã chỉ ra trọng điểm: "Ngay cả khi câu trả lời là đúng, làm sao bạn biết nó đúng? Làm thế nào để bạn xác minh?"

Việc AI Overviews trích dẫn một lượng lớn các nguồn chất lượng thấp càng làm trầm trọng thêm vấn đề này. Oumi phát hiện ra rằng Facebook và Reddit lần lượt là nguồn trích dẫn lớn thứ hai và thứ tư của AI Overviews. Trong các câu trả lời không chính xác, tần suất trích dẫn Facebook là 7%, cao hơn so với 5% trong các câu trả lời chính xác.

Một bài báo giả của phóng viên BBC, "đầu độc" thành công trong vòng 24 giờ

Một điểm yếu nghiêm trọng khác của AI Overviews là rất dễ bị thao túng.

Một phóng viên BBC đã sử dụng một bài báo giả mạo được cố tình bịa đặt để kiểm tra, chưa đầy 24 giờ sau, phần tóm tắt AI của Google đã trình bày thông tin sai lệch trong đó như một sự thật cho người dùng.

Điều này có nghĩa là bất kỳ ai hiểu rõ cơ chế hoạt động của hệ thống đều có thể "đầu độc" kết quả tìm kiếm AI bằng cách xuất bản nội dung giả mạo và đẩy cao lưu lượng truy cập của nó. Phản hồi của phát ngôn viên Google Ned Adriance về vấn đề này là, chức năng AI tìm kiếm được xây dựng dựa trên cùng cơ chế xếp hạng và bảo mật để chặn thông tin rác, và ông cho rằng "hầu hết các ví dụ trong bài kiểm tra là những truy vấn không thực tế mà mọi người thực tế sẽ không tìm kiếm".

Google phản bác: Chính bài kiểm tra có vấn đề

Google đã đặt ra nhiều nghi vấn về nghiên cứu của Oumi. Phát ngôn viên của Google cho biết nghiên cứu này "có những lỗ hổng nghiêm trọng", lý do bao gồm: bản thân bài kiểm tra chuẩn SimpleQA chứa thông tin không chính xác; Oumi sử dụng mô hình AI riêng HallOumi của họ để đánh giá hiệu suất của một AI khác, có thể gây ra sai số bổ sung; nội dung kiểm tra không phản ánh hành vi tìm kiếm thực tế của người dùng.

Bài kiểm tra nội bộ của Google cũng cho thấy, khi Gemini 3 hoạt động độc lập ngoài khuôn khổ Tìm kiếm của Google, tỷ lệ tạo ra đầu ra sai lệch lên tới 28%. Nhưng Google nhấn mạnh, AI Overviews sử dụng hệ thống xếp hạng tìm kiếm để nâng cao độ chính xác, thể hiện tốt hơn chính mô hình.

Tuy nhiên, như nhận xét của PCMag đã chỉ ra nghịch lý logic: Nếu lý do biện hộ của bạn là "chỉ ra rằng báo cáo về sự không chính xác của AI chúng tôi bản thân nó cũng sử dụng AI có thể không chính xác", điều này e rằng không thể tăng cường sự tin tưởng của người dùng vào độ chính xác sản phẩm của bạn.

Câu hỏi Liên quan

QTỷ lệ chính xác của tính năng AI Overviews của Google là bao nhiêu theo nghiên cứu của Oumi?

ATheo nghiên cứu của Oumi, tỷ lệ chính xác của AI Overviews là khoảng 91% khi sử dụng Gemini 3, tăng từ 85% so với Gemini 2.

QVới quy mô của Google, ước tính có bao nhiêu câu trả lời không chính xác được tạo ra mỗi giờ?

AVới 5 nghìn tỷ lượt tìm kiếm mỗi năm và tỷ lệ lỗi 9%, AI Overviews ước tính tạo ra hơn 57 triệu câu trả lời không chính xác mỗi giờ.

QVấn đề 'trích dẫn không có cơ sở' trong các câu trả lời đúng của AI Overviews là gì?

AĐây là vấn đề khi câu trả lời của AI là đúng, nhưng các liên kết trích dẫn kèm theo lại không hỗ trợ hoặc chứng minh cho thông tin đó. Tỷ lệ này tăng từ 37% lên 56% sau khi nâng cấp lên Gemini 3.

QNguồn trích dẫn nào của AI Overviews được coi là có chất lượng thấp?

ANghiên cứu chỉ ra rằng Facebook và Reddit lần lượt là nguồn trích dẫn lớn thứ hai và thứ tư của AI Overviews, và chúng thường xuyên xuất hiện trong các câu trả lời không chính xác.

QGoogle đã phản bác lại nghiên cứu của Oumi như thế nào?

AGoogle cho rằng nghiên cứu của Oumi 'có những lỗ hổng nghiêm trọng', bao gồm việc sử dụng bộ kiểm tra SimpleQA vốn chứa thông tin không chính xác, sử dụng mô hình AI của chính họ (HallOumi) để đánh giá, và các truy vấn thử nghiệm không phản ánh hành vi tìm kiếm thực tế của người dùng.

Nội dung Liên quan

Ngành Công nghiệp Tiền điện tử Theo dõi Khi Ba Lan Thúc đẩy Dự luật Quy định Bị Trì hoãn Lâu nay

Thủ tướng Ba Lan Donald Tusk đã liên hệ việc nước này nhiều lần thất bại trong việc thông qua luật tiền mã hóa với một vụ bê bối gian lận nổi tiếng tại sàn giao dịch Zondacrypto, nhấn mạnh sự cần thiết của khung pháp lý để bảo vệ nhà đầu tư. Trong phiên họp tuần này, Hạ viện Ba Lan (Sejm) cuối cùng đã thông qua dự luật số 2529 do chính phủ đề xuất, với tỷ lệ 241 phiếu thuận và 200 phiếu chống, sau hai lần bị Tổng thống Karol Nawrocki phủ quyết trước đó. Dự luật được thông qua trao quyền lực rộng rãi cho Cơ quan Giám sát Tài chính Ba Lan (KNF) để giám sát thị trường, áp đặt chế tài hành chính và tạm thời chặn tài khoản hoặc giao dịch khi cần thiết. Tuy nhiên, các điều khoản về quyền chặn này - nguyên nhân dẫn đến các lần phủ quyết trước - vẫn được giữ nguyên, khiến nhiều chuyên gia lo ngại Tổng thống có thể phủ quyết lần thứ ba. Điều này làm dấy lên mối lo về sự bất ổn pháp lý kéo dài, trong khi Ba Lan đang chịu áp lực phải tuân thủ Quy định về Thị trường Tài sản Mã hóa (MiCA) của EU trước thời hạn tháng 7. Dự luật trên đã vượt qua ba đề xuất cạnh tranh khác để được thông qua.

bitcoinist2 giờ trước

Ngành Công nghiệp Tiền điện tử Theo dõi Khi Ba Lan Thúc đẩy Dự luật Quy định Bị Trì hoãn Lâu nay

bitcoinist2 giờ trước

Đợt Đăng ký IPO tiền điện tử ẩm ướt: Consensys và Ledger đồng loạt hoãn kế hoạch

**Mùa đông IPO tiền mã hóa: Consensys và Ledger đồng loạt hoãn kế hoạch** Ngày 14/5, Consensys - nhà phát triển ví MetaMask - đã hoãn kế hoạch IPO sang mùa thu năm nay. Trước đó, Ledger, gã khổng lồ ví cứng, cũng tạm dừng kế hoạch IPO tại Mỹ. Kraken cũng liên tục trì hoãn niêm yết. Chuỗi sự kiện này đánh dấu sự thu hẹp rõ rệt của cửa sổ IPO năm 2026, sau cơn sốt niêm yết của các công ty tiền mã hóa vào năm 2025. Năm 2025 là một năm bội thu với các IPO như Circle, Bullish, Gemini, huy động tổng cộng khoảng 14,6 tỷ USD. Tuy nhiên, sang 2026, giá Bitcoin điều chỉnh mạnh, sở thích rủi ro của nhà đầu tư giảm, dẫn đến hiệu suất kém của các cổ phiếu tiền mã hóa như BitGo (IPO đầu năm 2026). Điều này làm các công ty như Kraken, Ledger và Consensys phải thận trọng hoãn kế hoạch. Trái ngược với sự "hạ nhiệt" của IPO tiền mã hóa, lĩnh vực AI đang trong giai đoạn cao trào với các kế hoạch IPO khổng lồ từ SpaceX (định giá mục tiêu 1,75-2 nghìn tỷ USD), OpenAI hay Anthropic. Sự khác biệt này đến từ việc doanh nghiệp AI được cho là có câu chuyện tăng trưởng "chắc chắn" hơn, trong khi doanh nghiệp tiền mã hóa phụ thuộc nhiều vào chu kỳ giá Bitcoin và khối lượng giao dịch. Hiện tượng này thúc đẩy quá trình chọn lọc tự nhiên, nguồn lực tập trung vào các doanh nghiệp có cơ sở hạ tầng vững mạnh và tuân thủ quy định. Nó cũng buộc ngành phải chuyển từ mô hình dựa trên câu chuyện sang tập trung vào dòng tiền và minh bạch. Triển vọng đợt IPO thứ hai vào nửa cuối 2026 phụ thuộc vào việc Bitcoin có ổn định ở mức cao hơn và môi trường pháp lý có được cải thiện hay không.

marsbit2 giờ trước

Đợt Đăng ký IPO tiền điện tử ẩm ướt: Consensys và Ledger đồng loạt hoãn kế hoạch

marsbit2 giờ trước

Hai Cấu Trúc Sự Sống của Nhà Tạo Thị Trường và Nhà Kinh Doanh Chênh Lệch Giá

Trong giao dịch tần suất cao, hai chiến lược chính tồn tại: tạo lập thị trường và chênh lệch giá giữa các sàn. Bài viết so sánh đặc điểm rủi ro của họ. **Nguồn gốc rủi ro:** * **Tạo lập thị trường:** Chấp nhận rủi ro "tồn kho" để đổi lấy quyền kiểm soát giá (maker). Rủi ro phát sinh khi lệnh không được khớp cân bằng. * **Chênh lệch giá:** Sử dụng lệnh taker, rủi ro xuất hiện từ sự khác biệt về quy tắc giao dịch (như quy mô lô) và độ trễ giữa các sàn. **Đặc điểm phơi sáng rủi ro:** * **Tạo lập thị trường:** Rủi ro phân mảnh, xảy ra liên tục và ngẫu nhiên do sự khớp lệnh thụ động. Có thể là thuận lợi (trong điều kiện thị trường ổn định) hoặc bất lợi (trong xu hướng mạnh). * **Chênh lệch giá:** Rủi ro phát sinh chủ yếu từ các yếu tố kỹ thuật như quy tắc sàn, sự can thiệp funding rate, hoặc sự phá vỡ tương quan tài sản. **Mối quan hệ giữa rủi ro và lợi nhuận:** * **Tạo lập thị trường:** Sử dụng vốn hiệu quả 100%, chấp nhận rủi ro tồn kho có kiểm soát để đổi lấy spread và phí maker thấp, nhắm đến tỷ lệ thắng cao và vòng quay nhanh. * **Chênh lệch giá:** Hiệu suất sử dụng vốn trên danh nghĩa chỉ 50% (do cần ký quỹ ở cả hai sàn), chịu phí taker cao. Rủi ro phơi sáng chủ yếu là nhân tố làm hao hụt lợi nhuận, được chấp nhận để đổi lấy chênh lệch giá hoặc lợi tức cấu trúc (như funding rate). **Hội tụ:** Cả hai chiến lược đều tiến hóa thành một hệ thống lai, linh hoạt sử dụng cả lệnh maker và taker dựa trên tính toán chi phí và rủi ro. Về bản chất, tạo lập thị trường "bán" thời gian (kiểm soát giá) để đổi lấy lợi nhuận, trong khi chênh lệch giá "bán" không gian (cam kết vốn trên nhiều sàn). Họ cùng sử dụng các dạng phơi sáng rủi ro khác nhau để đổi lấy phần chắc chắn mong manh từ thị trường.

链捕手6 giờ trước

Hai Cấu Trúc Sự Sống của Nhà Tạo Thị Trường và Nhà Kinh Doanh Chênh Lệch Giá

链捕手6 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片