Hàng chục triệu lỗi mỗi giờ, cuộc điều tra tiết lộ "ảo tưởng về độ chính xác" của công cụ tìm kiếm AI Google

marsbitXuất bản vào 2026-04-10Cập nhật gần nhất vào 2026-04-10

Tóm tắt

Theo một nghiên cứu do The New York Times ủy quyền và thực hiện bởi công ty AI Oumi, tính năng AI Overviews (Tổng quan AI) của Google có tỷ lệ chính xác khoảng 91%. Tuy nhiên, với quy mô xử lý khoảng 5 nghìn tỷ lượt tìm kiếm mỗi năm của Google, tỷ lệ lỗi 9% này đồng nghĩa với việc mỗi giờ có thể phát sinh hơn 57 triệu câu trả lời không chính xác. Một vấn đề nghiêm trọng hơn là các trích dẫn nguồn không đáng tin cậy. Dữ liệu cho thấy 56% câu trả lời đúng của Gemini 3 (phiên bản nâng cấp) đi kèm với các liên kết tham khảo không hỗ trợ cho thông tin được đưa ra. Các nguồn chất lượng thấp như Facebook và Reddit thường xuyên được trích dẫn. Ngoài ra, tính năng này dễ bị thao túng. Một phóng viên BBC đã thử nghiệm bằng một bài báo giả mạo và thông tin sai lệch xuất hiện trong kết quả AI Overviews chưa đầy 24 giờ sau đó. Google phản bác nghiên cứu, cho rằng phương pháp kiểm tra có "những lỗ hổng nghiêm trọng", bao gồm việc sử dụng một mô hình AI khác để đánh giá và các truy vấn thử nghiệm không phản ánh hành vi tìm kiếm thực tế.

Tác giả: Claude, Deep Tide TechFlow

Deep Tide导读: Bài kiểm tra mới nhất của The New York Times phối hợp với công ty khởi nghiệp AI Oumi cho thấy, tính năng Tóm tắt AI (AI Overviews) của Google Tìm kiếm có độ chính xác khoảng 91%, nhưng với quy mô xử lý 5 nghìn tỷ lượt tìm kiếm mỗi năm của Google, điều này đồng nghĩa với việc mỗi giờ tạo ra hàng chục triệu câu trả lời sai. Đáng lo ngại hơn, ngay cả khi câu trả lời đúng, hơn một nửa các liên kết trích dẫn không thể hỗ trợ kết luận của nó.

Google đang cung cấp thông tin sai lệch cho người dùng trên quy mô chưa từng có, và hầu hết mọi người không hề hay biết.

Theo The New York Times, công ty khởi nghiệp AI Oumi được họ ủy quyền đã sử dụng bài kiểm tra tiêu chuẩn ngành SimpleQA do OpenAI phát triển để đánh giá độ chính xác của tính năng AI Overviews của Google. Bài kiểm tra bao gồm 4326 truy vấn tìm kiếm, được thực hiện vào tháng 10 năm ngoái (do Gemini 2 cung cấp) và một lần nữa vào tháng 2 năm nay (sau khi nâng cấp lên Gemini 3). Kết quả cho thấy, độ chính xác của Gemini 2 là khoảng 85%, và Gemini 3 đã tăng lên 91%.

91% nghe có vẻ tốt, nhưng đặt trong quy mô của Google thì đó là chuyện khác. Google xử lý khoảng 5 nghìn tỷ truy vấn tìm kiếm mỗi năm, tính theo tỷ lệ sai sót 9%, AI Overviews tạo ra hơn 57 triệu câu trả lời không chính xác mỗi giờ, gần 1 triệu câu mỗi phút.

Câu trả lời đúng, nhưng nguồn lại sai

Đáng lo ngại hơn cả tỷ lệ chính xác là vấn đề "trích dẫn không có căn cứ".

Dữ liệu từ Oumi cho thấy, ở thời Gemini 2, 37% câu trả lời đúng tồn tại vấn đề "trích dẫn không có cơ sở", tức là các liên kết đính kèm trong phần tóm tắt AI không hỗ trợ thông tin mà nó đưa ra. Sau khi nâng cấp lên Gemini 3, tỷ lệ này không những không giảm mà còn tăng vọt lên 56%. Nói cách khác, trong khi đưa ra câu trả lời đúng, mô hình ngày càng không biết "nộp bài tập về nhà".

Câu hỏi của CEO Oumi Manos Koukoumidis đã chỉ ra trọng điểm: "Ngay cả khi câu trả lời là đúng, làm sao bạn biết nó đúng? Làm thế nào để bạn xác minh?"

Việc AI Overviews trích dẫn một lượng lớn các nguồn chất lượng thấp càng làm trầm trọng thêm vấn đề này. Oumi phát hiện ra rằng Facebook và Reddit lần lượt là nguồn trích dẫn lớn thứ hai và thứ tư của AI Overviews. Trong các câu trả lời không chính xác, tần suất trích dẫn Facebook là 7%, cao hơn so với 5% trong các câu trả lời chính xác.

Một bài báo giả của phóng viên BBC, "đầu độc" thành công trong vòng 24 giờ

Một điểm yếu nghiêm trọng khác của AI Overviews là rất dễ bị thao túng.

Một phóng viên BBC đã sử dụng một bài báo giả mạo được cố tình bịa đặt để kiểm tra, chưa đầy 24 giờ sau, phần tóm tắt AI của Google đã trình bày thông tin sai lệch trong đó như một sự thật cho người dùng.

Điều này có nghĩa là bất kỳ ai hiểu rõ cơ chế hoạt động của hệ thống đều có thể "đầu độc" kết quả tìm kiếm AI bằng cách xuất bản nội dung giả mạo và đẩy cao lưu lượng truy cập của nó. Phản hồi của phát ngôn viên Google Ned Adriance về vấn đề này là, chức năng AI tìm kiếm được xây dựng dựa trên cùng cơ chế xếp hạng và bảo mật để chặn thông tin rác, và ông cho rằng "hầu hết các ví dụ trong bài kiểm tra là những truy vấn không thực tế mà mọi người thực tế sẽ không tìm kiếm".

Google phản bác: Chính bài kiểm tra có vấn đề

Google đã đặt ra nhiều nghi vấn về nghiên cứu của Oumi. Phát ngôn viên của Google cho biết nghiên cứu này "có những lỗ hổng nghiêm trọng", lý do bao gồm: bản thân bài kiểm tra chuẩn SimpleQA chứa thông tin không chính xác; Oumi sử dụng mô hình AI riêng HallOumi của họ để đánh giá hiệu suất của một AI khác, có thể gây ra sai số bổ sung; nội dung kiểm tra không phản ánh hành vi tìm kiếm thực tế của người dùng.

Bài kiểm tra nội bộ của Google cũng cho thấy, khi Gemini 3 hoạt động độc lập ngoài khuôn khổ Tìm kiếm của Google, tỷ lệ tạo ra đầu ra sai lệch lên tới 28%. Nhưng Google nhấn mạnh, AI Overviews sử dụng hệ thống xếp hạng tìm kiếm để nâng cao độ chính xác, thể hiện tốt hơn chính mô hình.

Tuy nhiên, như nhận xét của PCMag đã chỉ ra nghịch lý logic: Nếu lý do biện hộ của bạn là "chỉ ra rằng báo cáo về sự không chính xác của AI chúng tôi bản thân nó cũng sử dụng AI có thể không chính xác", điều này e rằng không thể tăng cường sự tin tưởng của người dùng vào độ chính xác sản phẩm của bạn.

Câu hỏi Liên quan

QTỷ lệ chính xác của tính năng AI Overviews của Google là bao nhiêu theo nghiên cứu của Oumi?

ATheo nghiên cứu của Oumi, tỷ lệ chính xác của AI Overviews là khoảng 91% khi sử dụng Gemini 3, tăng từ 85% so với Gemini 2.

QVới quy mô của Google, ước tính có bao nhiêu câu trả lời không chính xác được tạo ra mỗi giờ?

AVới 5 nghìn tỷ lượt tìm kiếm mỗi năm và tỷ lệ lỗi 9%, AI Overviews ước tính tạo ra hơn 57 triệu câu trả lời không chính xác mỗi giờ.

QVấn đề 'trích dẫn không có cơ sở' trong các câu trả lời đúng của AI Overviews là gì?

AĐây là vấn đề khi câu trả lời của AI là đúng, nhưng các liên kết trích dẫn kèm theo lại không hỗ trợ hoặc chứng minh cho thông tin đó. Tỷ lệ này tăng từ 37% lên 56% sau khi nâng cấp lên Gemini 3.

QNguồn trích dẫn nào của AI Overviews được coi là có chất lượng thấp?

ANghiên cứu chỉ ra rằng Facebook và Reddit lần lượt là nguồn trích dẫn lớn thứ hai và thứ tư của AI Overviews, và chúng thường xuyên xuất hiện trong các câu trả lời không chính xác.

QGoogle đã phản bác lại nghiên cứu của Oumi như thế nào?

AGoogle cho rằng nghiên cứu của Oumi 'có những lỗ hổng nghiêm trọng', bao gồm việc sử dụng bộ kiểm tra SimpleQA vốn chứa thông tin không chính xác, sử dụng mô hình AI của chính họ (HallOumi) để đánh giá, và các truy vấn thử nghiệm không phản ánh hành vi tìm kiếm thực tế của người dùng.

Nội dung Liên quan

Top 3 Meme Coin Có Thể Làm Tài Sản Của Bạn Tăng Chóng Mặt Vào Năm 2026

Bài viết đề xuất ba loại meme coin có tiềm năng tăng trưởng mạnh mẽ vào năm 2026. **Little Pepe (LILPEPE)** đang ở giai đoạn 13 của đợt bán trước, với giá $0.0022, đã huy động được hơn 28 triệu USD và bán gần hết token. Dự án này được hỗ trợ bởi mạng Lớp 2 meme, cung cấp khả năng chống sniper bot, không phí mua/bán và phí giao dịch thấp, hướng tới xây dựng một hệ sinh thái toàn diện. **Bonk (BONK)**, meme coin nổi tiếng trên Solana, đã tăng hơn 2000% trong tuần đầu giao dịch. Mặc dù giá hiện tại ($0.000006) thấp hơn đỉnh lịch sử, động lực giảm phát từ việc đốt token và mua lại dự kiến sẽ hỗ trợ giá. **SPX6900**, tự xưng là "S&P 500 của các meme coin", hiện cách đỉnh khoảng 84%. Dự án này sở hữu cộng đồng mạnh với hàng nghìn ví nắm giữ lớn, và một số dự báo lạc quan cho rằng nó có thể chạm mức $1.15 vào cuối năm 2026. Tóm lại, mỗi dự án mang một đặc điểm khác biệt: Little Pepe với đợt bán trước sắp kết thúc, Bonk với cơ chế giảm phát, và SPX6900 với cộng đồng holder vững mạnh. Bài viết nhấn mạnh việc nhà đầu tư cần tự nghiên cứu kỹ trước khi ra quyết định.

TheNewsCrypto32 phút trước

Top 3 Meme Coin Có Thể Làm Tài Sản Của Bạn Tăng Chóng Mặt Vào Năm 2026

TheNewsCrypto32 phút trước

Chủ Tịch Ethereum Foundation Lên Tiếng Về Nhiệm Vụ Mới Và Căng Thẳng Nội Bộ

Chủ tịch Quỹ Ethereum (Ethereum Foundation - EF) Aya Miyaguchi đã công bố tầm nhìn về nhiệm vụ mới của tổ chức, nhấn mạnh sự chuyển hướng cần thiết sau những căng thẳng nội bộ và áp lực phải đảm nhiệm quá nhiều vai trò. Bà cho biết EF đang hướng tới một cấu trúc nhỏ gọn, tập trung hơn, hoạt động như một "nút" trong hệ sinh thái Ethereum rộng lớn chứ không phải là trung tâm điều khiển. Nguyên nhân của sự thay đổi này bắt nguồn từ những tranh luận kỹ thuật ngày càng mang tính chính trị và cá nhân, cùng với những kỳ vọng trái chiều về vai trò của EF. Miyaguchi tin rằng việc cố gắng đáp ứng tất cả sẽ khiến EF không đạt được mục tiêu nào. Thay vào đó, nhiệm vụ cốt lõi mới là bảo tồn và tăng tốc các giá trị độc đáo của Ethereum, tập trung vào chủ quyền người dùng và sự phối hợp tự chủ. Bà cũng phản bác ý kiến cho rằng EF tập trung hơn sẽ ít quan tâm đến việc áp dụng công nghệ, khẳng định điều ngược lại là đúng. Việc áp dụng, kể cả từ các tổ chức, vẫn là một phần công việc, nhưng phải phù hợp với sứ mệnh mới. Sự tái cấu trúc đi kèm với làn sóng ra đi của nhiều nhân sự cấp cao trong năm 2026. Miyaguchi thừa nhận đây là hệ quả tất yếu khi EF trở nên tập trung và có lập trường rõ ràng hơn, đồng thời cho biết các nhà lãnh đạo mới đang tiếp quản và cơ cấu chiến lược mới sẽ được công bố chi tiết trong vài tuần tới. Những chia sẻ của bà diễn ra sau bài đăng của người đồng sáng lập Vitalik Buterin, người cũng mô tả tương lai của EF là tinh gọn và ít tập trung quyền lực hơn.

bitcoinist43 phút trước

Chủ Tịch Ethereum Foundation Lên Tiếng Về Nhiệm Vụ Mới Và Căng Thẳng Nội Bộ

bitcoinist43 phút trước

a16z Crypto mới nhất phát hành: Tại sao chúng ta cần thị trường dự đoán?

Thị trường dự đoán cho phép mọi người giao dịch dựa trên kết quả sự kiện tương lai, từ địa chính trị đến giải trí. Về bản chất, chúng là công cụ tổng hợp thông tin: thông qua cơ chế giá, thị trường tập hợp nhận thức của người tham gia để đưa ra tín hiệu xác suất cho một sự kiện cụ thể. Thị trường dự đoán có nhiều ưu điểm so với các phương pháp khác như thăm dò ý kiến. Chúng cung cấp trực tiếp ước tính xác suất, cập nhật theo thời gian thực và quan trọng nhất là có cơ chế khuyến khích bằng tiền, thúc đẩy người tham gia đưa ra quyết định dựa trên thông tin có căn cứ. Điều này cũng khuyến khích họ tự nghiên cứu để thu lợi nhuận. Ngoài ra, thị trường dự đoán có thể bao phủ các vấn đề chuyên biệt mà thị trường truyền thống không phản ánh được, chẳng hạn như so sánh hiệu suất các mô hình AI. Tuy nhiên, để phát huy tiềm năng, thị trường dự đoán cần giải quyết một số thách thức. Về cơ sở hạ tầng, cần có cơ chế xác minh sự kiện minh bạch, có thể kiểm toán và xử lý thanh toán hợp đồng quy mô lớn. Về thiết kế thị trường, cần thu hút đa dạng người tham gia có thông tin; nếu chỉ có người không am hiểu hoặc người nắm thông tin nội bộ có thể thao túng kết quả, thị trường sẽ mất hiệu quả. Một rủi ro khác là việc lợi dụng thị trường để thao túng nhận thức công chúng, dù thị trường có khả năng tự điều chỉnh nhất định. Khi được thiết kế tốt với sự quản lý rõ ràng và minh bạch, thị trường dự đoán có thể trở thành công cụ mạnh mẽ để dự báo tương lai, khai thác "trí tuệ đám đông" một cách có tổ chức và được khuyến khích.

marsbit1 giờ trước

a16z Crypto mới nhất phát hành: Tại sao chúng ta cần thị trường dự đoán?

marsbit1 giờ trước

Cuộc Chiến Stablecoin Vừa Có Một Đối Thủ Mới — Và Đối Thủ Này Có 500.000 Điểm Bán Lẻ

MoneyGram, một trong những mạng lưới chuyển tiền xuyên biên giới lớn nhất thế giới, đã chính thức ra mắt MGUSD – một stablecoin gốc đô la Mỹ mang thương hiệu riêng vào ngày 2/6. Đây là bước chuyển chiến lược quan trọng, chuyển từ việc phụ thuộc vào nền tảng bên ngoài (như USDC của Circle) sang tự kiểm soát hoàn toàn việc phát hành và quản lý dự trữ. Điều này có ý nghĩa đặc biệt vì MoneyGram là một tổ chức thanh toán truyền thống 85 năm tuổi với hơn 500.000 địa điểm bán lẻ và phục vụ 50 triệu khách hàng toàn cầu. Việc họ phát hành stablecoin riêng giúp bình thường hóa công cụ tài chính kỹ thuật số cho đối tượng chính – những gia đình phụ thuộc vào kiều hối ở các khu vực như Mỹ Latinh, châu Phi và Đông Nam Á. Thời điểm ra mắt diễn ra ngay sau khi Đạo luật GENIUS (năm 2026) thiết lập khuôn khổ pháp lý rõ ràng đầu tiên của Mỹ cho các nhà phát hành stablecoin, tạo điều kiện cho MoneyGram mở rộng dịch vụ một cách tự tin. Động thái này không chỉ củng cố sự kiểm soát của công ty đối với chuỗi thanh toán kỹ thuật số mà còn đánh dấu sự hội tụ giữa nền kinh tế stablecoin và ngành công nghiệp thanh toán toàn cầu truyền thống.

bitcoinist1 giờ trước

Cuộc Chiến Stablecoin Vừa Có Một Đối Thủ Mới — Và Đối Thủ Này Có 500.000 Điểm Bán Lẻ

bitcoinist1 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片