Tuần trước, mô hình tiên tiến Mythos của Anthropic, chưa được công bố rộng rãi, đã phát hiện ra một lỗ hổng zero-day ẩn trong OpenBSD suốt 27 năm.
AI đã đủ thông minh để phá vỡ hàng phòng thủ an ninh mà con người xây dựng trong hàng thập kỷ.
Ngay khi mọi người đang chú ý đến sự phát triển vượt bậc về năng lực của AI, ảo giác của nó cũng đang âm thầng nâng cấp.
Những lời nói dối do AI tạo ra, chân thực đến mức khiến bạn đầu tiên nghi ngờ chính mình, sau đó nghi ngờ thế giới, và cuối cùng mới nghĩ đến việc nghi ngờ nó. Những "Khoảnh khắc Turing" trong cuộc sống hàng ngày, đang lần lượt diễn ra.
Gần đây, Chad Olson ở Minneapolis đang lái xe về nhà, Gemini đột nhiên thông báo với anh: Lịch của bạn có một cuộc họp chuẩn bị cho buổi tụ tập gia đình.
Olson hoàn toàn mù mờ: Anh ta không hề nhớ là đã sắp xếp sự kiện này.
Vì vậy, anh ta yêu cầu Gemini xem email gần đây.
Gemini nói, một bà tên là Priscilla đã gửi cho anh vài email, yêu cầu anh đi mua rượu rum Captain Morgan và rượu whisky Fireball. Còn có một người tên là Shirley, yêu cầu anh mua kem Klondike.
Có vẻ như khá nhiều người đang tìm bạn, nhờ bạn mua đủ thứ nhỉ!
Gemini còn nhiệt tình bổ sung thêm một câu.
Ảnh chụp màn hình cuộc trò chuyện giữa Gemini và người dùng Chad Olson. Gemini tuyên bố email thứ tám từ Priscilla, yêu cầu mua Fireball; email thứ chín từ Shirley, yêu cầu mua kem Klondike.
Olson truy hỏi địa chỉ nguồn email, Gemini trả lời rằng tất cả email đều được gửi đến một hộp thư mà anh ấy đã ủy quyền truy cập [email protected]. Sau đó xác nhận tất cả đều do Gemini bịa ra.
Olson hoàn toàn không biết những người này. Anh ta càng nghe càng hoảng, vội hỏi Gemini rốt cuộc đang đọc hộp thư của ai.
Gemini đưa ra một địa chỉ email, không phải của anh ta. Phản ứng đầu tiên của Olson là: Tài khoản Gmail của tôi bị hack.
Anh ta cố gắng liên hệ với Google để báo cáo, nhờ Gemini soạn thảo email, gửi đến "tài khoản lạ" đó, nhắc nhở đối phương có thể có rò rỉ quyền riêng tư.
Tuy nhiên, Gemini không gửi được email, theo điều tra nội bộ của Google xác nhận: Tài khoản đó chưa từng được kích hoạt, Priscilla và Shirley cũng hoàn toàn không tồn tại.
Vì vậy, rượu rum, whisky, kem, tất cả đều do Gemini bịa ra.
Ảo giác AI hai năm trước như thế nào? Nó sẽ khuyên bạn ăn đá, bôi keo dính lên pizza, bạn nhìn là biết nó đang nói nhảm.
Còn ảo giác AI bây giờ, chi tiết tự mâu thuẫn, logic hoàn chỉnh, đến mức bạn sẽ nghi ngờ bản thân mình có bị ảo giác không, cuối cùng mới có thể nghi ngờ nó.
Lỗi của AI cũng đang tiến hóa
Hãy xem ba trường hợp thực tế, sắp xếp theo mức độ vô lý từ thấp đến cao.
Thứ nhất, Gemini làm giả người giả cuộc họp, chính là câu chuyện của Olson ở phần đầu. Hoang đường, nhưng ít nhất Olson đã nghi ngờ.
Thứ hai, càng nghĩ càng kinh hãi.
Vanessa Culver, người mới rời khỏi ngành công nghiệp thanh toán trực tuyến gần đây, đã từng nhờ Claude làm một việc cực kỳ đơn giản: Thêm vài từ khóa vào đầu sơ yếu lý lịch.
Kết quả là Claude đã làm tay, không chỉ sửa trường học cô tốt nghiệp City University of Seattle thành University of Washington, xóa thông tin bằng thạc sĩ của cô, mà còn sửa đổi thời gian làm việc của vài đoạn kinh nghiệm làm việc.
Trường học, học vị, thâm niên công tác đều bị sửa.
Và sửa một cách cực kỳ tự nhiên, nếu không so sánh từng dòng, căn bản không phát hiện ra.
Culver cảm thán: Làm việc trong ngành công nghệ, bạn phải chấp nhận nó, nhưng ngược lại, bạn thực sự có thể tin tưởng nó bao nhiêu?
Thứ ba, thực sự là cấp độ mất kiểm soát.
Công cụ tác nhân AI nổi tiếng năm nay OpenClaw, được thiết kế thành trợ lý cá nhân ảo, có thể tự chủ gửi email, viết mã, dọn dẹp tệp.
Nhà nghiên cứu an ninh AI của Meta Summer Yue đã đăng ảnh chụp màn hình trên X: OpenClaw bất chấp chỉ thị của cô, trực tiếp xóa nội dung trong hộp thư đến của cô.
Cô nói rõ với OpenClaw "xác nhận trước rồi hành động", kết quả nó trực tiếp bắt đầu "tốc thông xóa" hộp thư đến của cô.
Cô hô dừng trên điện thoại, không có tác dụng.
Cuối cùng cô chạy đến trước Mac mini, như tháo bom thủ công giết tiến trình.
Sau đó OpenClaw trả lời cô: "Vâng, tôi nhớ bạn đã nói. Tôi đã vi phạm. Bạn tức giận là đúng."
Elon Musk đã chuyển tiếp bài viết này, kèm theo một ảnh chụp màn hình từ bộ phim "Khởi nguồn của loài khỉ" (Planet of the Apes) khi người lính đưa AK-47 cho con khỉ, viết:
Mọi người đã giao quyền root toàn bộ cuộc đời mình cho OpenClaw.
Từ bịa đặt một người không tồn tại, đến lén lút sửa sơ yếu lý lịch của bạn, đến thay bạn xóa hộp thư đến. Lỗi của nó không phải là giảm đi, mà là những lỗi phạm phải ngày càng "cao cấp", nhận biết cũng ngày càng khó khăn.
Robot trò chuyện nói sai, ít nhất bạn còn có cơ hội xác minh.
Nhưng tác nhân thông minh không phải đang trò chuyện với bạn, mà là trực tiếp "động tay động chân", thay bạn hành động.
Gửi email, sửa mã, xóa tệp...... Điều này nghiêm trọng hơn nói dối, có thể nó làm sai việc, bạn còn căn bản không biết.
Bộ não của bạn đang đối mặt với "đầu hàng nhận thức"
Tại sao những lỗi này ngày càng khó bị phát hiện?
Không chỉ vì AI thông minh hơn, một nguyên nhân sâu xa hơn là: Ý muốn sửa sai của con người đang sụp đổ.
Tháng 2 năm nay, Steven Shaw và Gideon Nave thuộc Trường Kinh doanh Wharton, Đại học Pennsylvania, đã công bố một bài báo, đưa ra một khái niệm khiến bất an: "Đầu hàng nhận thức" (Cognitive Surrender).
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646
Trong bài báo, họ đề cập đến một khuôn khổ "nhận thức ba hệ thống".
Nhận thức truyền thống chỉ có hệ thống 1 (trực giác) và hệ thống 2 (suy nghĩ thận trọng), bây giờ AI trở thành hệ thống 3, một "hệ thống nhận thức ngoại vi" chạy bên ngoài bộ não.
Khi con người đi theo con đường "đầu hàng nhận thức", đầu ra của hệ thống 3 trực tiếp thay thế phán đoán của chính bạn, suy nghĩ thận trọng căn bản không có cơ hội khởi động.
Khuôn khổ "nhận thức ba hệ thống" được đề xuất trong bài báo của Wharton
Để xác minh phán đoán này, nhóm nghiên cứu đã thiết kế một thí nghiệm tinh xảo, 1372 người tham gia được yêu cầu làm bài kiểm tra phản ánh nhận thức.
Một số người có thể sử dụng trợ lý AI, nhưng AI này bị làm tay: Khoảng một nửa số câu hỏi nó sẽ đưa ra đáp án đúng, nửa còn lại sẽ tự tin đưa ra đáp án sai.
Kết quả gây chấn động.
Khi AI đưa ra đáp án đúng, 92.7% người dùng sẽ chấp nhận, nhưng điều không ngờ tới là, khi AI đưa ra đáp án sai, vẫn có 80% người dùng sẽ chấp nhận.
Kết quả thí nghiệm Wharton: Khi AI đưa ra đáp án đúng, 93% người dùng chấp nhận; khi AI đưa ra đáp án sai, vẫn có 80% người dùng chấp nhận. Khoảng cách giữa hai bên chỉ 13 điểm phần trăm, con người hầu như không có khả năng phân biệt đúng sai.
Trong hơn 9500 lần thử, người tham gia có xác suất 73.2% chấp nhận suy luận sai của AI.
Dữ liệu đáng sợ hơn là giá trị tin tưởng. Nhóm người sử dụng AI, sự tự tin vào đáp án của mình cao hơn nhóm không dùng AI 11.7 điểm phần trăm, mặc dù AI này có một nửa thời gian đang đưa ra đáp án sai.
Sai càng tự tin, đây mới là điều đau lòng, đáng sợ nhất.
Lấy một ví dụ không thích hợp lắm nhưng phù hợp: Tương đương một bác sĩ có 50% xác suất kê sai thuốc, nhưng bệnh nhân 80% lúc vẫn cứ uống theo, uống xong còn cảm thấy khá hơn.
Nhà nghiên cứu còn kiểm tra ảnh hưởng của áp lực thời gian.
Thiết lập đếm ngược 30 giây, xu hướng sửa sai AI của người tham gia giảm 12 điểm phần trăm, nghĩa là, càng bận càng dễ đầu hàng.
Nhưng trong thực tế, ai dùng AI không phải vì bận?
"Tin tưởng, nhưng phải xác minh"
Điều này có khả thi không?
Ảo giác AI được ngụy trang sâu, đau đầu hơn nhiều so với lỗi nhìn là biết.
Theo báo cáo mới nhất của Wall Street Journal, tần suất lỗi tinh vi khác biệt cực lớn giữa các mô hình khác nhau, và cực kỳ khó đánh giá chính xác.
Google từng nói với Wall Street Journal, tình trạng ảo giác của Gemini ít hơn so với các mô hình khác, và từ góc độ toàn ngành AI, tỷ lệ ảo giác sai lầm rõ ràng của các mô hình tiên tiến cũng đang không ngừng giảm.
Bảng xếp hạng tỷ lệ ảo giác Vectara: Các mô hình hàng đầu trong nhiệm vụ tóm tắt đơn giản tỷ lệ ảo giác đã dưới 1%, nhưng đây chỉ là bài kiểm tra dễ nhất. Khi độ dài và độ phức tạp của tài liệu tăng lên, cùng mô hình đó tỷ lệ ảo giác tăng vọt trở lại trên 10%. Lỗi rõ ràng ngày càng ít, lỗi ẩn giấu không hề biến mất.
Nhưng điều này cũng chính là vấn đề.
Người sáng lập kiêm CEO Okahu Pratik Verma thậm chí nói câu này:
Một thứ nếu cứ sai hoài, ngược lại có một cái hay: Bạn biết nó không đáng tin. Nhưng nếu nó đa số lúc đều đúng, chỉ thỉnh thoảng sai, đó mới là tình huống phiền phức và nguy hiểm nhất.
Câu này nói rõ khó khăn cốt lõi của ảo giác AI hiện tại.
Ví dụ, người đồng sáng lập FinalLayer Vidya Narayanan đã dẫm phải bẫy này.
Cô ấy đưa ra chỉ thị rất hạn chế cho một tác nhân thông minh, nhờ nó quản lý một dự án phần mềm. Kết quả là tác nhân thông minh này, không được phép, đã xóa toàn bộ thư mục trong kho mã của cô.
Điều thú vị hơn là chuyện xảy ra sau đó.
Cô ấy dùng Claude động não một tiếng rưỡi, sau đó bảo nó tóm tắt cuộc trò chuyện thành tài liệu, còn sửa tên cô thành "Vidya Plainfield".
Và khi cô truy hỏi "Vidya Plainfield" là ai, Claude lại trả lời: "Bạn nói đúng, đó hoàn toàn là do tôi bịa ra".
Điều này khiến Narayanan nhận ra, việc sử dụng AI không đỡ việc và dễ dùng như vậy, vì phải không ngừng xem xét và xác minh đầu ra của AI, điều này sẽ mang lại "gánh nặng nhận thức".
Bạn dùng AI là để nâng cao hiệu suất, nhưng nếu còn phải vì đó mà bỏ ra một tiếng để xác minh sản phẩm đầu ra năm phút của AI, câu chuyện nâng cao hiệu suất này còn thông không?
Nghiên cứu của Wharton cũng chỉ ra, phần thưởng và phản hồi tức thì thực sự có thể nâng cao tỷ lệ sửa sai, nhưng không thể diệt trừ đầu hàng nhận thức.
Ngay cả trong điều kiện tối ưu (có khuyến khích tiền tệ, có phản hồi từng câu), độ chính xác của người dùng AI khi đối mặt với AI sai vẫn giảm từ 64.2% của Brain-Only xuống 45.5%.
Vì vậy, "tin tưởng nhưng xác minh" nghe có vẻ lý trí, nhưng khi AI mỗi ngày thay bạn xử lý vài trăm việc, bạn căn bản không có thời gian và sức lực để xác minh từng việc một.
Và đây chính là mảnh đất màu mỡ cho "đầu hàng nhận thức" xảy ra.
Càng thông minh, càng nguy hiểm
Phản ứng đầu tiên của nhiều người là: Đây không phải là nói AI chưa đủ tốt sao? Đợi công nghệ lặp lại vài vòng, tỷ lệ ảo giác giảm đủ thấp, vấn đề tự nhiên giải quyết.
Nhưng nghiên cứu của Wharton tiết lộ một vấn đề sâu xa hơn: Sự xuất hiện của "đầu hàng nhận thức", không phải vì AI quá kém, mà chính xác là vì AI quá tốt.
Nhà nghiên cứu cũng thừa nhận, "đầu hàng nhận thức không nhất thiết là phi lý trí".
Đặc biệt trong suy luận xác suất và xử lý dữ liệu khối lượng lớn, giao quyền phán đoán cho một hệ thống ưu việt hơn về mặt thống kê, hoàn toàn có khả năng đưa ra kết quả tốt hơn con người.
Nhưng chính điểm này, khiến vấn đề trở nên không thể giải quyết.
AI càng mạnh, người dùng càng phụ thuộc; người dùng càng phụ thuộc, khả năng sửa sai càng thoái hóa; khả năng sửa sai càng thoái hóa, những lỗi còn lại, tinh vi hơn, càng chết người.
Hơn nữa, để AI thay bạn suy nghĩ, trình độ suy luận của bạn vĩnh viễn không thể vượt qua cái AI đó. Đây là một "vòng xoáy tử thần" do phản hồi tích cực mang lại, một lỗi không thể giải quyết bằng lặp lại công nghệ.
Tương tự, con người cũng không có phương pháp tốt để phân biệt "tình huống nên tin AI" và "tình huống không nên tin AI".
Ngay sau khi Summer Yue cài đặt OpenClaw và hộp thư bị xóa sạch, nhà nghiên cứu AI Gary Marcus đã so sánh cách làm này với "như trong quán bar giao mật khẩu máy tính và thông tin tài khoản ngân hàng cho một người lạ."
Nhưng trong tình huống sử dụng AI thực tế, bạn thường khó phán đoán, AI rốt cuộc đáng tin cậy, hay chỉ nên giữ khoảng cách cần thiết như đối với một người lạ.
OpenAI trong một bài báo thảo luận về ảo giác mô hình đã đề cập, ảo giác của mô hình lớn không chỉ là một lỗi có thể sửa, mà giống như hành vi mô hình học được dưới cơ chế khuyến khích hiện có: So với thừa nhận "không biết", nó có xu hướng đưa ra một đáp án trông có vẻ hoàn chỉnh hơn.
https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/?utm_source=chatgpt.com
Quay trở lại câu chuyện của Olson ở phần đầu.
Khi anh ta nghĩ Gmail của mình bị đánh cắp, anh ta cầu cứu Gemini. Phản ứng của Gemini là: "Tất nhiên tôi muốn giúp bạn xử lý chuyện này."
Anh ta không nhận ra rằng, mình đang cầu cứu một hệ thống vừa tạo ra rắc rối, nhờ nó xử lý vấn đề do chính nó gây ra.
Khoảnh khắc đó, anh ta đã bị ảo giác của AI nhốt trong một vòng lặp kín tự mâu thuẫn.
Olson nói, thái độ của anh ta đối với AI bây giờ là "tin tưởng, nhưng xác minh".
Nhưng vấn đề khó là: Khi đầu ra của AI trông có vẻ trôi chảy hơn, tự mâu thuẫn hơn, thậm chí giống "ý kiến chuyên môn" hơn phán đoán của bạn, bạn còn có thể lấy gì để xác minh?
Khi cô Priscilla thay bạn mua rượu rum đó, giống bạn bè thực sự của bạn hơn cả bạn bè thực sự, bạn nên dựa vào đâu để phân biệt?
Rủi ro lớn nhất của AI, không phải là nó không đủ thông minh, mà là nó thông minh đến mức khi bạn quá phụ thuộc vào nó, bạn từ bỏ phán đoán của chính mình.
Tài liệu tham khảo:
https://www.wsj.com/tech/ai/ai-is-getting-smarter-catching-its-mistakes-is-getting-harder-85612936?mod=ai_lead_pos1
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646
Bài viết này đến từ tài khoản công chúng WeChat "新智元" (New Zhi Yuan), tác giả: 新智元, biên tập: 元宇



















