Hàng chục triệu lỗi mỗi giờ, cuộc điều tra tiết lộ "ảo tưởng về độ chính xác" của công cụ tìm kiếm AI Google

marsbitXuất bản vào 2026-04-10Cập nhật gần nhất vào 2026-04-10

Tóm tắt

Theo một nghiên cứu do The New York Times ủy quyền và thực hiện bởi công ty AI Oumi, tính năng AI Overviews (Tổng quan AI) của Google có tỷ lệ chính xác khoảng 91%. Tuy nhiên, với quy mô xử lý khoảng 5 nghìn tỷ lượt tìm kiếm mỗi năm của Google, tỷ lệ lỗi 9% này đồng nghĩa với việc mỗi giờ có thể phát sinh hơn 57 triệu câu trả lời không chính xác. Một vấn đề nghiêm trọng hơn là các trích dẫn nguồn không đáng tin cậy. Dữ liệu cho thấy 56% câu trả lời đúng của Gemini 3 (phiên bản nâng cấp) đi kèm với các liên kết tham khảo không hỗ trợ cho thông tin được đưa ra. Các nguồn chất lượng thấp như Facebook và Reddit thường xuyên được trích dẫn. Ngoài ra, tính năng này dễ bị thao túng. Một phóng viên BBC đã thử nghiệm bằng một bài báo giả mạo và thông tin sai lệch xuất hiện trong kết quả AI Overviews chưa đầy 24 giờ sau đó. Google phản bác nghiên cứu, cho rằng phương pháp kiểm tra có "những lỗ hổng nghiêm trọng", bao gồm việc sử dụng một mô hình AI khác để đánh giá và các truy vấn thử nghiệm không phản ánh hành vi tìm kiếm thực tế.

Tác giả: Claude, Deep Tide TechFlow

Deep Tide导读: Bài kiểm tra mới nhất của The New York Times phối hợp với công ty khởi nghiệp AI Oumi cho thấy, tính năng Tóm tắt AI (AI Overviews) của Google Tìm kiếm có độ chính xác khoảng 91%, nhưng với quy mô xử lý 5 nghìn tỷ lượt tìm kiếm mỗi năm của Google, điều này đồng nghĩa với việc mỗi giờ tạo ra hàng chục triệu câu trả lời sai. Đáng lo ngại hơn, ngay cả khi câu trả lời đúng, hơn một nửa các liên kết trích dẫn không thể hỗ trợ kết luận của nó.

Google đang cung cấp thông tin sai lệch cho người dùng trên quy mô chưa từng có, và hầu hết mọi người không hề hay biết.

Theo The New York Times, công ty khởi nghiệp AI Oumi được họ ủy quyền đã sử dụng bài kiểm tra tiêu chuẩn ngành SimpleQA do OpenAI phát triển để đánh giá độ chính xác của tính năng AI Overviews của Google. Bài kiểm tra bao gồm 4326 truy vấn tìm kiếm, được thực hiện vào tháng 10 năm ngoái (do Gemini 2 cung cấp) và một lần nữa vào tháng 2 năm nay (sau khi nâng cấp lên Gemini 3). Kết quả cho thấy, độ chính xác của Gemini 2 là khoảng 85%, và Gemini 3 đã tăng lên 91%.

91% nghe có vẻ tốt, nhưng đặt trong quy mô của Google thì đó là chuyện khác. Google xử lý khoảng 5 nghìn tỷ truy vấn tìm kiếm mỗi năm, tính theo tỷ lệ sai sót 9%, AI Overviews tạo ra hơn 57 triệu câu trả lời không chính xác mỗi giờ, gần 1 triệu câu mỗi phút.

Câu trả lời đúng, nhưng nguồn lại sai

Đáng lo ngại hơn cả tỷ lệ chính xác là vấn đề "trích dẫn không có căn cứ".

Dữ liệu từ Oumi cho thấy, ở thời Gemini 2, 37% câu trả lời đúng tồn tại vấn đề "trích dẫn không có cơ sở", tức là các liên kết đính kèm trong phần tóm tắt AI không hỗ trợ thông tin mà nó đưa ra. Sau khi nâng cấp lên Gemini 3, tỷ lệ này không những không giảm mà còn tăng vọt lên 56%. Nói cách khác, trong khi đưa ra câu trả lời đúng, mô hình ngày càng không biết "nộp bài tập về nhà".

Câu hỏi của CEO Oumi Manos Koukoumidis đã chỉ ra trọng điểm: "Ngay cả khi câu trả lời là đúng, làm sao bạn biết nó đúng? Làm thế nào để bạn xác minh?"

Việc AI Overviews trích dẫn một lượng lớn các nguồn chất lượng thấp càng làm trầm trọng thêm vấn đề này. Oumi phát hiện ra rằng Facebook và Reddit lần lượt là nguồn trích dẫn lớn thứ hai và thứ tư của AI Overviews. Trong các câu trả lời không chính xác, tần suất trích dẫn Facebook là 7%, cao hơn so với 5% trong các câu trả lời chính xác.

Một bài báo giả của phóng viên BBC, "đầu độc" thành công trong vòng 24 giờ

Một điểm yếu nghiêm trọng khác của AI Overviews là rất dễ bị thao túng.

Một phóng viên BBC đã sử dụng một bài báo giả mạo được cố tình bịa đặt để kiểm tra, chưa đầy 24 giờ sau, phần tóm tắt AI của Google đã trình bày thông tin sai lệch trong đó như một sự thật cho người dùng.

Điều này có nghĩa là bất kỳ ai hiểu rõ cơ chế hoạt động của hệ thống đều có thể "đầu độc" kết quả tìm kiếm AI bằng cách xuất bản nội dung giả mạo và đẩy cao lưu lượng truy cập của nó. Phản hồi của phát ngôn viên Google Ned Adriance về vấn đề này là, chức năng AI tìm kiếm được xây dựng dựa trên cùng cơ chế xếp hạng và bảo mật để chặn thông tin rác, và ông cho rằng "hầu hết các ví dụ trong bài kiểm tra là những truy vấn không thực tế mà mọi người thực tế sẽ không tìm kiếm".

Google phản bác: Chính bài kiểm tra có vấn đề

Google đã đặt ra nhiều nghi vấn về nghiên cứu của Oumi. Phát ngôn viên của Google cho biết nghiên cứu này "có những lỗ hổng nghiêm trọng", lý do bao gồm: bản thân bài kiểm tra chuẩn SimpleQA chứa thông tin không chính xác; Oumi sử dụng mô hình AI riêng HallOumi của họ để đánh giá hiệu suất của một AI khác, có thể gây ra sai số bổ sung; nội dung kiểm tra không phản ánh hành vi tìm kiếm thực tế của người dùng.

Bài kiểm tra nội bộ của Google cũng cho thấy, khi Gemini 3 hoạt động độc lập ngoài khuôn khổ Tìm kiếm của Google, tỷ lệ tạo ra đầu ra sai lệch lên tới 28%. Nhưng Google nhấn mạnh, AI Overviews sử dụng hệ thống xếp hạng tìm kiếm để nâng cao độ chính xác, thể hiện tốt hơn chính mô hình.

Tuy nhiên, như nhận xét của PCMag đã chỉ ra nghịch lý logic: Nếu lý do biện hộ của bạn là "chỉ ra rằng báo cáo về sự không chính xác của AI chúng tôi bản thân nó cũng sử dụng AI có thể không chính xác", điều này e rằng không thể tăng cường sự tin tưởng của người dùng vào độ chính xác sản phẩm của bạn.

Câu hỏi Liên quan

QTỷ lệ chính xác của tính năng AI Overviews của Google là bao nhiêu theo nghiên cứu của Oumi?

ATheo nghiên cứu của Oumi, tỷ lệ chính xác của AI Overviews là khoảng 91% khi sử dụng Gemini 3, tăng từ 85% so với Gemini 2.

QVới quy mô của Google, ước tính có bao nhiêu câu trả lời không chính xác được tạo ra mỗi giờ?

AVới 5 nghìn tỷ lượt tìm kiếm mỗi năm và tỷ lệ lỗi 9%, AI Overviews ước tính tạo ra hơn 57 triệu câu trả lời không chính xác mỗi giờ.

QVấn đề 'trích dẫn không có cơ sở' trong các câu trả lời đúng của AI Overviews là gì?

AĐây là vấn đề khi câu trả lời của AI là đúng, nhưng các liên kết trích dẫn kèm theo lại không hỗ trợ hoặc chứng minh cho thông tin đó. Tỷ lệ này tăng từ 37% lên 56% sau khi nâng cấp lên Gemini 3.

QNguồn trích dẫn nào của AI Overviews được coi là có chất lượng thấp?

ANghiên cứu chỉ ra rằng Facebook và Reddit lần lượt là nguồn trích dẫn lớn thứ hai và thứ tư của AI Overviews, và chúng thường xuyên xuất hiện trong các câu trả lời không chính xác.

QGoogle đã phản bác lại nghiên cứu của Oumi như thế nào?

AGoogle cho rằng nghiên cứu của Oumi 'có những lỗ hổng nghiêm trọng', bao gồm việc sử dụng bộ kiểm tra SimpleQA vốn chứa thông tin không chính xác, sử dụng mô hình AI của chính họ (HallOumi) để đánh giá, và các truy vấn thử nghiệm không phản ánh hành vi tìm kiếm thực tế của người dùng.

Nội dung Liên quan

TIN MỚI NHẤT: Donald Trump đưa ra tuyên bố gay gắt về Iran! Ông đã dừng các cuộc tấn công

Tổng thống Mỹ Donald Trump tuyên bố đã hoãn các cuộc tấn công quân sự theo kế hoạch chống Iran sau khi Ả Rập Xê-út, UAE, Qatar và chính Iran kêu gọi ông làm như vậy. Ông mô tả kế hoạch ban đầu là "rất quy mô và mạnh mẽ", nhưng quyết định tạm dừng để các nước trong khu vực có thời gian cho đàm phán ngoại giao. Theo Trump, các đồng minh tin rằng một thỏa thuận đang đến gần. Giai đoạn đàm phán đầu tiên tập trung vào vấn đề an ninh và mở lại eo biển Hormuz - một tuyến đường vận chuyển dầu mỏ và khí đốt tự nhiên hóa lỏng trọng yếu của thế giới. Một khi vấn đề này được thống nhất, các cuộc đàm phán về chương trình hạt nhân của Iran sẽ bắt đầu. Trump cũng thông báo các cuộc đàm phán mới với Iran sẽ bắt đầu vào ngày mai. Ngoài ra, Trump còn đề cập đến sự can thiệp của Mỹ trên thị trường liên quan đến đồng yên Nhật, khẳng định hành động này dựa trên mối quan hệ tốt đẹp giữa hai nước và mang lại lợi ích kinh tế cho Mỹ.

cryptonews.ru1 giờ trước

TIN MỚI NHẤT: Donald Trump đưa ra tuyên bố gay gắt về Iran! Ông đã dừng các cuộc tấn công

cryptonews.ru1 giờ trước

Ngân hàng Ý không nhìn thấy lợi thế hệ thống của stablecoin trong chuyển tiền

Một nghiên cứu của Ngân hàng Ý kết luận rằng stablecoin không mang lại lợi thế hệ thống bền vững về chi phí và tốc độ trong chuyển tiền quốc tế so với các dịch vụ tiêu chuẩn. Các ưu điểm tiềm năng bị mất đi bởi phí chuyển đổi sang/và từ tiền pháp định và hiệu quả của cơ sở hạ tầng thanh toán địa phương. Nghiên cứu so sánh việc chuyển 200 USDC qua 10 hành lang giữa Ý và các nước như Brazil, Argentina, Nhật Bản, UAE và Nam Phi. Tổng chi phí chuyển stablecoin dao động từ 0,3% đến gần 9%, tùy tuyến. Thời gian giải quyết giao dịch dưới 20 phút ở những nơi có hệ thống thanh toán tức thời, nhưng có thể kéo dài 1-2 ngày làm việc ở khu vực không có. Chi phí và độ trễ chủ yếu đến từ việc trao đổi, chuyển đổi tiền tệ và chất lượng hạ tầng địa phương, không phải từ phí blockchain. Dù stablecoin rẻ hơn mức trung bình toàn cầu là 6,65%, chúng chỉ rẻ hơn dịch vụ Wise ở 3/7 tuyến so sánh được. Các tác giả cho rằng lợi ích sẽ rõ ràng hơn nếu stablecoin có thể được chi tiêu trực tiếp mà không cần đổi sang tiền địa phương. Họ cũng lưu ý rằng các quy định cấm đoán không làm giảm nhu cầu với stablecoin, trong khi quy định quá chặt chẽ lại gây khó khăn cho người dùng phổ thông.

cryptonews.ru2 giờ trước

Ngân hàng Ý không nhìn thấy lợi thế hệ thống của stablecoin trong chuyển tiền

cryptonews.ru2 giờ trước

Cơn sốt Bitcoin đang bùng nổ: Tuyên bố mới của Saylor gây nên những đồn đoán về việc mua vào

Giám đốc điều hành của Strategy Inc. (Nasdaq: MSTR), Michael Saylor, một lần nữa khơi dậy những đồn đoán về việc công ty sẽ thông báo mua Bitcoin mới vào thứ Hai, sau khi đăng thông điệp "Bitcoin Drive engaged" vào ngày 2 tháng 8. Thông báo này đi kèm với biểu đồ mua hàng quen thuộc của công ty, phù hợp với thói quen báo hiệu thay đổi kho bạc trước các báo cáo hàng tuần của Saylor. Báo cáo kèm theo cho thấy dự trữ Bitcoin của Strategy là 843.775 BTC, trị giá khoảng 53,25 tỷ USD. Giá mua trung bình được ghi nhận là 75.653 USD/BTC, với lỗ chưa thực hiện là 10,58 tỷ USD (-16,58%). Một tín hiệu tương tự vào Chủ nhật tuần trước đã dẫn đến thông báo vào ngày 27/7 về việc công ty gia tăng dự trữ tiền mặt. Sổ cái thời gian thực của Strategy hiển thị 116 giao dịch đã đăng ký với tổng số 843.775 BTC được mua, đồng thời ghi nhận hai đợt bán Bitcoin gần đây tổng cộng 3.588 BTC (giảm từ 847.363 BTC), nhằm mục đích tài trợ cho cổ tức ưu đãi và bổ sung dự trữ USD. Công ty được báo cáo là đã không mua BTC trong tuần kết thúc ngày 26/7, đồng thời tăng dự trữ USD lên khoảng 3,75 tỷ USD. Bối cảnh tài chính đầy thách thức khi Strategy báo lỗ hoạt động 8,33 tỷ USD trong quý II/2026, chủ yếu do lỗ chưa thực hiện trên tài sản kỹ thuật số. Ban lãnh đạo có thể bán thêm tới 1,25 tỷ USD Bitcoin để củng cố dự trữ USD. Thông báo cập nhật dự kiến vào thứ Hai sẽ cho thấy liệu "Bitcoin Drive" có đánh dấu việc tái tích lũy hay không, khi Strategy cân bằng giữa kho dự trữ Bitcoin khổng lồ và các nghĩa vụ tiền mặt ngày càng tăng.

cryptonews.ru2 giờ trước

Cơn sốt Bitcoin đang bùng nổ: Tuyên bố mới của Saylor gây nên những đồn đoán về việc mua vào

cryptonews.ru2 giờ trước

Mô hình 'đầu và vai' trên biểu đồ Bitcoin hứa hẹn mức tăng lên $67.200

Mặc dù giảm chậm vào đầu tháng 8, biểu đồ giá của Bitcoin đang hình thành một mô hình đảo chiều tiềm năng có tên "Đầu và Vai ngược". Bitcoin (BTC) hiện dao động quanh mức 63.200 USD, đang hình thành "vai phải" của mô hình này. Theo nhà phân tích Axel Kibard, đây là lý do lạc quan duy nhất cho phe mua trong ngắn hạn. Câu hỏi chính là liệu phe mua có đủ sức đẩy giá lên mức kháng cự quan trọng 67.000 USD hay không. Trong khi đó, cặp ETH/BTC đã bứt phá lên trên và Ethereum (ETH) đang cho thấy sức mạnh tương đối. Vốn đang chảy vào ETH thay vì BTC, điều này làm cạn kiệt thanh khoản và khiến Bitcoin khó bật tăng mạnh. Với USD, ETH đang thử thách ngưỡng hỗ trợ 1.875 USD. Nếu giữ vững, mục tiêu tiếp theo là 1.163 USD. Sức mạnh của ETH là tín hiệu tốt cho thị trường, nhưng áp lực vẫn đè nặng lên BTC. Bitcoin cần nhanh chóng tăng vọt lên trên 67.200 USD để xác nhận mô hình đảo chiều. Theo dự báo của Kibard, nếu không có đợt tấn công lên "đường viền cổ" trong vài ngày tới, phe gấu có thể chiếm ưu thế và kéo giá BTC về các vùng hỗ trợ 60.000 USD và 58.000 USD.

cryptonews.ru2 giờ trước

Mô hình 'đầu và vai' trên biểu đồ Bitcoin hứa hẹn mức tăng lên $67.200

cryptonews.ru2 giờ trước

Cổ phiếu các công ty trí tuệ nhân tạo được giao dịch như 'meme coin', trong khi Bitcoin hầu như không thay đổi giá - Tổng quan tuần

**Tóm tắt:** Bài viết phân tích các diễn biến chính trên thị trường tài chính và tiền điện tử trong tuần, với trọng tâm là sự biến động mạnh ở lĩnh vực AI và sự trầm lặng tương đối của Bitcoin. **Thị trường chứng khoán & AI:** * Cổ phiếu AI được giao dịch như "meme coin" với biến động cực đoan. Thị trường Hàn Quốc lao dốc 8% trong một phiên, chịu ảnh hưởng từ đợt bán tháo chip toàn cầu. * Quỹ "Situational Awareness" của Leopold Aschenbrenner bị thua lỗ nặng, dẫn đến thanh lý tài sản lớn, góp phần gây ra biến động. Citadel được cho là đã mua lại phần lớn danh mục của quỹ này. * Các chuyên gia như Ram Ahluwalia và Flood khuyên nên kiên nhẫn, trong khi Jim Bianco lưu ý thị trường thường tìm đáy sau khi một sự kiện lớn (như sự sụp đổ của một quỹ) xảy ra. **Macro & Tiền tệ:** * Các phát biểu của Chủ tịch Fed Kevin Warsh được cho là đã góp phần gây ra biến động, với một số ý kiến cho rằng ông thiếu năng lực. * Bộ Tài chính Nhật Bản can thiệp để hỗ trợ đồng Yên, nhưng hiệu quả hạn chế. * Có dấu hiệu về việc giảm thanh khoản toàn cầu và đà tăng trưởng sản xuất Mỹ chậm hơn kỳ vọng. **Thị trường Tiền điện tử:** * Bitcoin ít biến động, dao động quanh mức 64,000 USD, trong khi sự chú ý đổ dồn sang thị trường truyền thống. * Nhiều công ty tiền điện tử gặp khó khăn: BitMart và Storj Labs tuyên bố đóng cửa/phá sản; Coinbase (COIN) lao dốc sau báo cáo tài chính yếu; Uphold và các sàn khác cắt giảm nhân sự. * MicroStrategy tiếp tục tích lũy Bitcoin và mua lại cổ phiếu của chính mình, một chiến lược bị chỉ trích là "vòng xoáy Ponzi". * Cảnh báo bảo mật nghiêm trọng về lỗ hổng trên ví phần cứng Coldcard có thể làm lộ khóa riêng tư, đòi hỏi người dùng hành động ngay. **Các chủ đề khác:** * **DeFi/Blockchain:** Trade.xyz trên Hyperliquid và Pump.fun trên Solana cực kỳ thành công, đặt ra câu hỏi liệu họ có tự khởi chạy blockchain riêng hay không. Nghi ngờ giao dịch nội gián trên Hyperliquid. * **AI & Crypto:** Jason Calacanis và Barry Silbert nhiệt tình ủng hộ dự án Bittensor (TAO), coi đó là mô hình AI phi tập trung. Tác giả cảnh báo nên thận trọng trước sự cổ xúy của các nhà đầu tư mạo hiểm. * Các tranh cãi trong ngành: Kyle Samani chỉ trích Multicoin Capital; Charles Hoskinson khó chịu vì câu hỏi về quá khứ đồng sáng lập Ethereum. **Thông điệp chính:** Thị trường đang trải qua giai đoạn biến động mạnh, đặc biệt ở mảng AI, trong khi tiền điện tử chịu áp lực. Tính kỷ luật, sự kiên nhẫn và cảnh giác cao độ (đặc biệt về bảo mật) là cần thiết trong bối cảnh hiện tại.

cryptonews.ru2 giờ trước