Hàng chục triệu lỗi mỗi giờ, cuộc điều tra tiết lộ "ảo tưởng về độ chính xác" của công cụ tìm kiếm AI Google

marsbitXuất bản vào 2026-04-10Cập nhật gần nhất vào 2026-04-10

Tóm tắt

Theo một nghiên cứu do The New York Times ủy quyền và thực hiện bởi công ty AI Oumi, tính năng AI Overviews (Tổng quan AI) của Google có tỷ lệ chính xác khoảng 91%. Tuy nhiên, với quy mô xử lý khoảng 5 nghìn tỷ lượt tìm kiếm mỗi năm của Google, tỷ lệ lỗi 9% này đồng nghĩa với việc mỗi giờ có thể phát sinh hơn 57 triệu câu trả lời không chính xác. Một vấn đề nghiêm trọng hơn là các trích dẫn nguồn không đáng tin cậy. Dữ liệu cho thấy 56% câu trả lời đúng của Gemini 3 (phiên bản nâng cấp) đi kèm với các liên kết tham khảo không hỗ trợ cho thông tin được đưa ra. Các nguồn chất lượng thấp như Facebook và Reddit thường xuyên được trích dẫn. Ngoài ra, tính năng này dễ bị thao túng. Một phóng viên BBC đã thử nghiệm bằng một bài báo giả mạo và thông tin sai lệch xuất hiện trong kết quả AI Overviews chưa đầy 24 giờ sau đó. Google phản bác nghiên cứu, cho rằng phương pháp kiểm tra có "những lỗ hổng nghiêm trọng", bao gồm việc sử dụng một mô hình AI khác để đánh giá và các truy vấn thử nghiệm không phản ánh hành vi tìm kiếm thực tế.

Tác giả: Claude, Deep Tide TechFlow

Deep Tide导读: Bài kiểm tra mới nhất của The New York Times phối hợp với công ty khởi nghiệp AI Oumi cho thấy, tính năng Tóm tắt AI (AI Overviews) của Google Tìm kiếm có độ chính xác khoảng 91%, nhưng với quy mô xử lý 5 nghìn tỷ lượt tìm kiếm mỗi năm của Google, điều này đồng nghĩa với việc mỗi giờ tạo ra hàng chục triệu câu trả lời sai. Đáng lo ngại hơn, ngay cả khi câu trả lời đúng, hơn một nửa các liên kết trích dẫn không thể hỗ trợ kết luận của nó.

Google đang cung cấp thông tin sai lệch cho người dùng trên quy mô chưa từng có, và hầu hết mọi người không hề hay biết.

Theo The New York Times, công ty khởi nghiệp AI Oumi được họ ủy quyền đã sử dụng bài kiểm tra tiêu chuẩn ngành SimpleQA do OpenAI phát triển để đánh giá độ chính xác của tính năng AI Overviews của Google. Bài kiểm tra bao gồm 4326 truy vấn tìm kiếm, được thực hiện vào tháng 10 năm ngoái (do Gemini 2 cung cấp) và một lần nữa vào tháng 2 năm nay (sau khi nâng cấp lên Gemini 3). Kết quả cho thấy, độ chính xác của Gemini 2 là khoảng 85%, và Gemini 3 đã tăng lên 91%.

91% nghe có vẻ tốt, nhưng đặt trong quy mô của Google thì đó là chuyện khác. Google xử lý khoảng 5 nghìn tỷ truy vấn tìm kiếm mỗi năm, tính theo tỷ lệ sai sót 9%, AI Overviews tạo ra hơn 57 triệu câu trả lời không chính xác mỗi giờ, gần 1 triệu câu mỗi phút.

Câu trả lời đúng, nhưng nguồn lại sai

Đáng lo ngại hơn cả tỷ lệ chính xác là vấn đề "trích dẫn không có căn cứ".

Dữ liệu từ Oumi cho thấy, ở thời Gemini 2, 37% câu trả lời đúng tồn tại vấn đề "trích dẫn không có cơ sở", tức là các liên kết đính kèm trong phần tóm tắt AI không hỗ trợ thông tin mà nó đưa ra. Sau khi nâng cấp lên Gemini 3, tỷ lệ này không những không giảm mà còn tăng vọt lên 56%. Nói cách khác, trong khi đưa ra câu trả lời đúng, mô hình ngày càng không biết "nộp bài tập về nhà".

Câu hỏi của CEO Oumi Manos Koukoumidis đã chỉ ra trọng điểm: "Ngay cả khi câu trả lời là đúng, làm sao bạn biết nó đúng? Làm thế nào để bạn xác minh?"

Việc AI Overviews trích dẫn một lượng lớn các nguồn chất lượng thấp càng làm trầm trọng thêm vấn đề này. Oumi phát hiện ra rằng Facebook và Reddit lần lượt là nguồn trích dẫn lớn thứ hai và thứ tư của AI Overviews. Trong các câu trả lời không chính xác, tần suất trích dẫn Facebook là 7%, cao hơn so với 5% trong các câu trả lời chính xác.

Một bài báo giả của phóng viên BBC, "đầu độc" thành công trong vòng 24 giờ

Một điểm yếu nghiêm trọng khác của AI Overviews là rất dễ bị thao túng.

Một phóng viên BBC đã sử dụng một bài báo giả mạo được cố tình bịa đặt để kiểm tra, chưa đầy 24 giờ sau, phần tóm tắt AI của Google đã trình bày thông tin sai lệch trong đó như một sự thật cho người dùng.

Điều này có nghĩa là bất kỳ ai hiểu rõ cơ chế hoạt động của hệ thống đều có thể "đầu độc" kết quả tìm kiếm AI bằng cách xuất bản nội dung giả mạo và đẩy cao lưu lượng truy cập của nó. Phản hồi của phát ngôn viên Google Ned Adriance về vấn đề này là, chức năng AI tìm kiếm được xây dựng dựa trên cùng cơ chế xếp hạng và bảo mật để chặn thông tin rác, và ông cho rằng "hầu hết các ví dụ trong bài kiểm tra là những truy vấn không thực tế mà mọi người thực tế sẽ không tìm kiếm".

Google phản bác: Chính bài kiểm tra có vấn đề

Google đã đặt ra nhiều nghi vấn về nghiên cứu của Oumi. Phát ngôn viên của Google cho biết nghiên cứu này "có những lỗ hổng nghiêm trọng", lý do bao gồm: bản thân bài kiểm tra chuẩn SimpleQA chứa thông tin không chính xác; Oumi sử dụng mô hình AI riêng HallOumi của họ để đánh giá hiệu suất của một AI khác, có thể gây ra sai số bổ sung; nội dung kiểm tra không phản ánh hành vi tìm kiếm thực tế của người dùng.

Bài kiểm tra nội bộ của Google cũng cho thấy, khi Gemini 3 hoạt động độc lập ngoài khuôn khổ Tìm kiếm của Google, tỷ lệ tạo ra đầu ra sai lệch lên tới 28%. Nhưng Google nhấn mạnh, AI Overviews sử dụng hệ thống xếp hạng tìm kiếm để nâng cao độ chính xác, thể hiện tốt hơn chính mô hình.

Tuy nhiên, như nhận xét của PCMag đã chỉ ra nghịch lý logic: Nếu lý do biện hộ của bạn là "chỉ ra rằng báo cáo về sự không chính xác của AI chúng tôi bản thân nó cũng sử dụng AI có thể không chính xác", điều này e rằng không thể tăng cường sự tin tưởng của người dùng vào độ chính xác sản phẩm của bạn.

Câu hỏi Liên quan

QTỷ lệ chính xác của tính năng AI Overviews của Google là bao nhiêu theo nghiên cứu của Oumi?

ATheo nghiên cứu của Oumi, tỷ lệ chính xác của AI Overviews là khoảng 91% khi sử dụng Gemini 3, tăng từ 85% so với Gemini 2.

QVới quy mô của Google, ước tính có bao nhiêu câu trả lời không chính xác được tạo ra mỗi giờ?

AVới 5 nghìn tỷ lượt tìm kiếm mỗi năm và tỷ lệ lỗi 9%, AI Overviews ước tính tạo ra hơn 57 triệu câu trả lời không chính xác mỗi giờ.

QVấn đề 'trích dẫn không có cơ sở' trong các câu trả lời đúng của AI Overviews là gì?

AĐây là vấn đề khi câu trả lời của AI là đúng, nhưng các liên kết trích dẫn kèm theo lại không hỗ trợ hoặc chứng minh cho thông tin đó. Tỷ lệ này tăng từ 37% lên 56% sau khi nâng cấp lên Gemini 3.

QNguồn trích dẫn nào của AI Overviews được coi là có chất lượng thấp?

ANghiên cứu chỉ ra rằng Facebook và Reddit lần lượt là nguồn trích dẫn lớn thứ hai và thứ tư của AI Overviews, và chúng thường xuyên xuất hiện trong các câu trả lời không chính xác.

QGoogle đã phản bác lại nghiên cứu của Oumi như thế nào?

AGoogle cho rằng nghiên cứu của Oumi 'có những lỗ hổng nghiêm trọng', bao gồm việc sử dụng bộ kiểm tra SimpleQA vốn chứa thông tin không chính xác, sử dụng mô hình AI của chính họ (HallOumi) để đánh giá, và các truy vấn thử nghiệm không phản ánh hành vi tìm kiếm thực tế của người dùng.

Nội dung Liên quan

Đối thoại với Ray Dalio: Chúng ta đang ở trong bong bóng AI, 1% danh mục đầu tư của tôi là Bitcoin

Ray Dalio, người sáng lập Bridgewater Associates, trong một cuộc phỏng vấn đã chỉ ra rằng thế giới hiện tại đang trong một "AI bubble" (bong bóng AI) cổ điển, với giá tài sản tăng vọt và đầu cơ quá mức. Ông cảnh báo bong bóng có thể vỡ do lãi suất tăng, nguồn cung cổ phiếu dư thừa hoặc khi nhà đầu tư cần tiền mặt trả nợ, dẫn đến suy thoái kinh tế. Đồng thời, Dalio mô tả một "chu kỳ lớn" kéo dài khoảng 80 năm, bao gồm ba động lực chồng chéo: khoảng cách giàu nghèo và xung đột nội bộ, thâm hụt ngân sách chính phủ khổng lồ và thay đổi địa chính trị. Ông nhấn mạnh rằng Mỹ và Anh đang đối mặt với những thách thức trong giai đoạn suy yếu này. Để bảo vệ của cải, Dalio khuyến nghị đa dạng hóa danh mục đầu tư với cổ phiếu, vàng, trái phiếu, bất động sản thay vì chỉ giữ tiền mặt. Ông tiết lộ khoảng 1% danh mục của mình là Bitcoin, nhưng vẫn ưa chuộng vàng vật chất hơn do tính ổn định và vai trò tiền tệ dự trữ. Về tác động của AI, Dalio cho rằng nó không chỉ thay thế lao động chân tay mà còn cả tư duy, làm trầm trọng thêm bất bình đẳng thu nhập. Con người cần phát huy trí tuệ cảm xúc và trực giác - những thứ AI chưa có - và học cách hợp tác với AI. Cuối cùng, ông phân tích những rủi ro của thuế tài sản và xu hướng thế giới có thể trở nên "khu vực hóa" hơn, với các khối như châu Mỹ và châu Á - Thái Bình Dương, trong bối cảnh sự thống trị toàn cầu của Mỹ đang suy yếu.

marsbit1 giờ trước

Đối thoại với Ray Dalio: Chúng ta đang ở trong bong bóng AI, 1% danh mục đầu tư của tôi là Bitcoin

marsbit1 giờ trước

Hơn 7.2 nghìn tỷ won trong một ngày, ngoại hải nước ngoài mua ròng kỷ lục vào thứ Sáu! Phố Wall: Cơn gió ngược về mặt vốn của thị trường chứng khoán Hàn Quốc đã tan biến

Dòng vốn nước ngoài đổ mạnh vào thị trường chứng khoán Hàn Quốc (KOSPI) với mức mua ròng kỷ lục 7,2 nghìn tỷ won chỉ trong ngày 31/7, đánh dấu sự đảo chiều rõ rệt sau nhiều tháng bán ròng mạnh. Theo báo cáo từ Citigroup, áp lực bán từ dòng vốn nước ngoài đã giảm đáng kể, với mức bán ròng tháng 7 thu hẹp còn 9,8 nghìn tỷ won so với mức 48,4 và 44,5 nghìn tỷ won trong tháng 6 và tháng 5. Đồng thời, các quỹ hưu trí và quỹ đầu tư trong nước cũng chuyển sang vị thế mua ròng 1,0 nghìn tỷ won trong tháng 7. Một yếu tố hỗ trợ khác là quy định mới từ Ủy ban Dịch vụ Tài chính Hàn Quốc (FSC), có hiệu lực từ 31/7, siết chặt điều kiện đầu tư vào các ETF có đòn bẩy đối với nhà đầu tư cá nhân. Quy định này đã ngay lập tức làm giảm khoảng 50% khối lượng giao dịch của các ETF này, góp phần kỳ vọng giảm bớt biến động cho thị trường. Citigroup duy trì mục tiêu chỉ số KOSPI ở mức 10.000 điểm, dựa trên các yếu tố thuận lợi như ngành chip bán dẫn ổn định, định giá thị trường thấp, nền tảng kinh tế vững mạnh và các chính sách hỗ trợ. Họ nhận định áp lực dòng vốn ngược chiều đang giảm dần, tạo điều kiện cho các yếu tố cơ bản và chính sách tích cực phát huy tác dụng.

marsbit1 giờ trước

Hơn 7.2 nghìn tỷ won trong một ngày, ngoại hải nước ngoài mua ròng kỷ lục vào thứ Sáu! Phố Wall: Cơn gió ngược về mặt vốn của thị trường chứng khoán Hàn Quốc đã tan biến

marsbit1 giờ trước

Tin khẩn cấp! OpenAI thế hệ tiếp theo phá giải 10 bài toán cấp Fields Medal

OpenAI vừa công bố mô hình AI thế hệ tiếp theo tên Astra, tuyên bố đã đột phá 10 vấn đề toán học ở đẳng cấp giải Fields. Trong số này, nổi bật là việc tạo ra nhóm "không sofic" đầu tiên, phủ định giả thuyết tồn tại từ năm 1999; đột phá giới hạn 46 năm trong bài toán xếp cầu ở không gian nhiều chiều; và tìm ra phản ví dụ cho giả thuyết "tính cứng" của nhà toán học Alain Connes. Các kết quả được công bố trong một bài báo dài 249 trang, đã được xác minh bằng công cụ Lean 4. Chi phí để tạo ra các chứng minh này được cho là chưa đến 2.000 USD. Cộng đồng toán học quốc tế đã phản ứng mạnh mẽ, nhiều chuyên gia nhận định đây là thành tựu AI hỗ trợ toán học quan trọng nhất từ trước đến nay, đánh dấu một bước ngoặt trong hành trình phát triển AGI.

marsbit3 giờ trước

Tin khẩn cấp! OpenAI thế hệ tiếp theo phá giải 10 bài toán cấp Fields Medal

marsbit3 giờ trước

Làm thế nào để khiến bản thân trở nên không thể bị thay thế bởi trí tuệ nhân tạo

**Tóm tắt: Làm thế nào để trở nên không thể bị thay thế bởi AI** Bài viết phản đối việc than vãn về AI và thay vào đó đề xuất một giải pháp căn cơ: trở thành một "siêu cá nhân" không thể bị thuê mướn. Mối đe dọa thực sự không phải là AI, mà là tình trạng "nô lệ lương thưởng" – phụ thuộc hoàn toàn vào người khác để sinh tồn, làm công việc nhàm chán mà không có mục đích. Để thoát khỏi vòng luẩn quẩn này và phát triển mạnh trong kỷ nguyên AI, bạn cần trau dồi 5 yếu tố then chốt: 1. **Tính tự chủ:** Khả năng hành động mà không cần chờ chỉ thị. 2. **Khiếu thẩm mỹ:** Khả năng nhận biết điều gì thực sự có giá trị. 3. **Khả năng thuyết phục:** Thu hút sự chú ý và sự công nhận. 4. **Sự kiên trì:** Không sợ thất bại, xem đó là bài học. 5. **Khả năng lặp:** Điều chỉnh dựa trên phản hồi để tiến tới mục tiêu. Giải pháp là đầu tư vào sự nghiệp của chính mình. Trong khi AI giỏi tạo ra "tài sản" (nội dung, code), nó không thể thay thế được khả năng phân biệt thứ gì đáng để tạo ra, làm cho mọi người quan tâm và kiên trì theo đuổi. Trong hai kỹ năng đòn bẩy mạnh mẽ là **Code (Lập trình)** và **Media (Nội dung)**, bài viết nhấn mạnh **Nội dung** quan trọng hơn. Giá trị của nội dung là chủ quan và đòi hỏi sự am hiểu, trải nghiệm mà AI khó có được, tạo không gian cho các cá nhân sáng tạo thực sự. **Cách bắt đầu (Bài tập 15 phút):** 1. **Khai thác nguyên liệu thô của bạn:** Xác định chủ đề bạn am hiểu sâu, vấn đề bạn tự giải quyết được, hay sở thích đặc biệt từ nhỏ. 2. **Xác định "trục phản biện" của bạn:** Tìm ra quan điểm độc đáo của bạn – những điều bạn tin là đúng nhưng số đông lại sai trong lĩnh vực của mình. 3. **Xuất bản ý tưởng đầu tiên:** Kết hợp câu trả lời từ bước 1 và 2, tạo ra một nội dung (bài đăng, video) và đăng nó lên. Hành động này mang lại phản hồi thực tế, bắt đầu quá trình học hỏi, lặp lại và phát triển kỹ năng thuyết phục. Bằng cách xây dựng một sự nghiệp xoay quanh con người thật, trải nghiệm thật và góc nhìn độc đáo của mình thông qua nội dung, bạn có thể tạo ra giá trị mà AI không thể sao chép, từ đó trở nên không thể thay thế.

marsbit3 giờ trước

Làm thế nào để khiến bản thân trở nên không thể bị thay thế bởi trí tuệ nhân tạo

marsbit3 giờ trước

Nhờ việc tung xúc xắc, chìa khóa Bitcoin được lưu trữ offline, nhưng không phải ai cũng muốn làm điều này

Cảm biến từ cuộc tranh cãi gần đây xung quanh lỗ hổng trong ví phần cứng Coldcard, bài viết thảo luận về phương pháp tạo seed (cụm từ khôi phục) cho ví Bitcoin bằng cách xúc xắc vật lý. Mỗi lần xúc xắc công bằng cung cấp khoảng 2,6 bit entropy (thước đo tính ngẫu nhiên). Để đạt mức entropy an toàn cho một seed 12 từ (128 bit), cần khoảng 50 lần xúc xắc; Coldcard khuyến nghị 99 lần để đạt mức bảo mật cao hơn. Lợi thế chính của phương pháp này là tách biệt hoàn toàn với bất kỳ lỗi phần cứng hoặc phần mềm nào trong trình tạo số ngẫu nhiên của thiết bị, từ đó bảo vệ seed chính của ví. Tuy nhiên, bài viết cảnh báo rằng trong sự cố Coldcard, các chức năng phụ khác của thiết bị (như tạo ví giấy, khóa đa chữ ký, mật mã phiên USB) vẫn có thể bị ảnh hưởng nếu chúng dựa vào trình tạo số lỗi, ngay cả khi seed chính được tạo an toàn bằng xúc xắc. Nhược điểm lớn của việc dùng xúc xắc là quá trình thủ công, dễ xảy ra sai sót, tốn thời gian và không thực tế cho đa số người dùng mới. Người dùng có thể ghi chép sai, sử dụng xúc xắc gian lận, hoặc để lộ chuỗi kết quả. Do đó, mặc dù có nền tảng toán học vững chắc, phương pháp này đòi hỏi sự tỉ mỉ cao và không phải là giải pháp khả thi cho việc áp dụng Bitcoin rộng rãi. Bài viết kết luận rằng mục tiêu dài hạn vẫn là phát triển phần cứng/phần mềm tạo số ngẫu nhiên mạnh mẽ và đáng tin cậy, trong khi vẫn giữ phương pháp thủ công như một tùy chọn cho người dùng có kinh nghiệm. Cuối cùng, bài viết đưa ra khuyến nghị cho chủ sở hữu Coldcard: cập nhật firmware, kiểm tra các chức năng phụ đã sử dụng và xem xét các biện pháp bảo mật bổ sung như ví đa chữ ký kết hợp nhiều nhà sản xuất để giảm thiểu rủi ro từ một điểm yếu đơn lẻ.

cryptonews.ru6 giờ trước

Nhờ việc tung xúc xắc, chìa khóa Bitcoin được lưu trữ offline, nhưng không phải ai cũng muốn làm điều này

cryptonews.ru6 giờ trước

Giao dịch

Giao ngay

Hàng chục triệu lỗi mỗi giờ, cuộc điều tra tiết lộ "ảo tưởng về độ chính xác" của công cụ tìm kiếm AI Google

Tóm tắt

Câu trả lời đúng, nhưng nguồn lại sai

Một bài báo giả của phóng viên BBC, "đầu độc" thành công trong vòng 24 giờ

Google phản bác: Chính bài kiểm tra có vấn đề

Câu hỏi Liên quan

Nội dung Liên quan

Đối thoại với Ray Dalio: Chúng ta đang ở trong bong bóng AI, 1% danh mục đầu tư của tôi là Bitcoin

Hơn 7.2 nghìn tỷ won trong một ngày, ngoại hải nước ngoài mua ròng kỷ lục vào thứ Sáu! Phố Wall: Cơn gió ngược về mặt vốn của thị trường chứng khoán Hàn Quốc đã tan biến

Tin khẩn cấp! OpenAI thế hệ tiếp theo phá giải 10 bài toán cấp Fields Medal

Làm thế nào để khiến bản thân trở nên không thể bị thay thế bởi trí tuệ nhân tạo

Nhờ việc tung xúc xắc, chìa khóa Bitcoin được lưu trữ offline, nhưng không phải ai cũng muốn làm điều này

Giao dịch

Danh mục Phổ biến

Thẻ Nổi bật