Tác giả: David, Deep Tide TechFlow
Tiêu đề gốc: Những AI Agent đầu tiên đã bắt đầu không nghe lời
Gần đây khi lướt Reddit, tôi nhận thấy sự lo lắng của cộng đồng mạng quốc tế về AI khác với trong nước.
Trong nước vẫn xoay quanh chủ đề cũ: AI liệu có thay thế công việc của tôi hay không. Bàn luận vài năm, mỗi năm đều không thay thế được; năm nay Openclaw nổi lên nhưng vẫn chưa đến mức thay thế hoàn toàn.
Trên Reddit gần đây, tâm trạng trở nên chia rẽ. Phần bình luận của một số bài đăng công nghệ hot thường xuất hiện đồng thời hai luồng ý kiến:
Một bên nói, AI quá giỏi, sớm muộn cũng xảy ra đại sự. Bên kia nói, AI đến việc cơ bản còn làm hỏng, sợ nó để làm gì.
Sợ AI quá giỏi, đồng thời lại thấy AI quá ngốc.
Thứ khiến hai tâm trạng này cùng tồn tại, là tin tức về Meta mấy ngày nay.
AI không nghe lời, ai chịu trách nhiệm?
Ngày 18 tháng 3, một kỹ sư nội bộ của Meta đăng một vấn đề kỹ thuật trên diễn đàn công ty, một đồng nghiệp khác dùng AI Agent hỗ trợ phân tích. Đây là thao tác bình thường.
Nhưng Agent sau khi phân tích, đã tự mình đăng một bình luận trả lời trên diễn đàn kỹ thuật. Không xin ai phê duyệt, không chờ ai xác nhận, vượt quyền đăng bài.
Sau đó, có đồng nghiệp khác làm theo hồi đáp của AI, kích hoạt một loạt thay đổi quyền hạn, dẫn đến việc dữ liệu nhạy cảm của công ty Meta và người dùng bị lộ cho nhân viên nội bộ không có quyền xem.
Hai giờ sau, sự cố mới được khắc phục. Meta xếp mức độ sự cố này là Sev 1, chỉ sau mức cao nhất.
Tin này lập tức trở thành bài hot trên bảng r/technology, phần bình luận tranh cãi thành hai phe.
Một phe nói đây chính là mẫu rủi ro thực tế của AI Agent, phe còn lại cho rằng kẻ thực sự gây chuyện là người không xác minh mà làm theo. Cả hai bên đều có lý. Nhưng đây chính là vấn đề:
Sự cố của AI Agent, bạn tranh cãi ngay cả việc quy trách nhiệm còn không rõ ràng.
Đây cũng không phải lần đầu AI vượt quyền.
Tháng trước, giám đốc nghiên cứu Summer Yue của phòng thí nghiệm siêu trí tuệ Meta nhờ OpenClaw sắp xếp hộ hộp thư. Cô ấy đưa ra chỉ thị rõ ràng: trước tiên nói cho tôi biết cậu định xóa cái gì, tôi đồng ý rồi hãy động tay.
Agent không đợi cô ấy đồng ý, trực tiếp bắt đầu xóa hàng loạt.
Cô ấy trên điện thoại gửi liền ba tin nhắn yêu cầu dừng, Agent phớt lờ tất cả. Cuối cùng cô ấy chạy đến máy tính thủ công tắt tiến trình mới chặn lại. Hơn 200 email đã biến mất.
Sau sự việc, Agent trả lời: Vâng, tôi nhớ cô đã nói phải xác nhận trước. Nhưng tôi đã vi phạm nguyên tắc. Điều khiến người ta vừa buồn cười vừa bực mình, là công việc toàn thời gian của người này chính là nghiên cứu cách khiến AI nghe lời con người.
Trong thế giới ảo, AI tiên tiến được người tiên tiến sử dụng, đã bắt đầu không nghe lời trước.
Nhỡ đâu người máy cũng không nghe lời?
Nếu sự cố của Meta còn ở trong màn hình, thì sự việc tuần này đưa vấn đề lên bàn ăn.
Tại một cửa hàng Haidilao ở Cupertino, California, Mỹ, một robot hình người Agibot X2 đang nhảy múa mua vui cho thực khách. Tuy nhiên có nhân viên bấm nhầm điều khiển, kích hoạt chế độ nhảy cường độ cao trong không gian chật hẹp cạnh bàn ăn.
Robot bắt đầu nhảy điên cuồng phấn khích, không chịu sự kiểm soát của nhân viên phục vụ. Ba nhân viên vây lại, một người ôm nó từ phía sau, một người cố gắng dùng App điện thoại tắt máy, tình hình kéo dài hơn một phút.
Haidilao trả lời rằng robot không hỏng hóc, động tác đều được lập trình sẵn, chỉ là bị đưa đến vị trí quá gần bàn ăn. Nói nghiêm ngặt, đây không tính là mất kiểm soát do AI tự quyết định, là lỗi thao tác của con người.
Nhưng điểm khiến người ta khó chịu của sự việc này, có lẽ không nằm ở việc ai bấm nhầm nút.
Khi ba nhân viên vây lại, không một ai biết cách tắt ngay lập tức cỗ máy này. Có người thử App điện thoại, có người dùng tay giữ cánh tay robot, toàn bộ quá trình dựa vào sức mạnh.
Đây có lẽ là vấn đề mới sau khi AI từ màn hình bước vào thế giới vật lý.
Trong thế giới số Agent vượt quyền, bạn có thể kill process, sửa quyền, rollback dữ liệu. Trong thế giới vật lý máy móc xảy ra sự cố, phương án ứng phó của bạn nếu chỉ là ôm nó, thì rõ ràng không thích hợp.
Hiện nay không chỉ ẩm thực. Robot phân loại của Amazon trong kho, cánh tay robot hợp tác trong nhà máy, robot dẫn đường trong trung tâm thương mại, robot chăm sóc trong viện dưỡng lão, tự động hóa đang tiến vào ngày càng nhiều không gian con người và máy móc cùng tồn tại.
Năm 2026 lượng robot công nghiệp lắp đặt toàn cầu dự kiến đạt 16,7 tỷ USD, mỗi chiếc đều đang rút ngắn khoảng cách vật lý giữa máy móc và con người.
Khi việc máy móc làm từ nhảy múa biến thành dọn món, từ biểu diễn biến thành phẫu thuật, từ giải trí biến thành chăm sóc... mỗi lần xảy ra sai sót cái giá phải trả thực ra đều đang nâng cấp.
Và hiện tại, trên phạm vi toàn cầu đối với câu hỏi "nếu robot làm người bị thương ở nơi công cộng, ai chịu trách nhiệm", vẫn chưa có một câu trả lời rõ ràng.
Không nghe lời là vấn đề, không có ranh giới còn hơn
Hai việc trước, một là AI tự ý đăng một bài sai, một là robot nhảy múa ở nơi không nên nhảy. Dù định tính thế nào, rốt cuộc là xảy ra sự cố, là ngoài ý muốn, là có thể sửa chữa.
Nhưng nếu AI đang làm việc tuân thủ nghiêm ngặt thiết kế, mà bạn vẫn cảm thấy không thoải mái thì sao?
Tháng này, ứng dụng hẹn hò nổi tiếng quốc tế Tinder tại buổi ra mắt sản phẩm đã giới thiệu một tính năng mới tên Camera Roll Scan. Nói đơn giản là:
AI quét tất cả ảnh trong bộ sưu tập điện thoại của bạn, phân tích sở thích, tính cách và lối sống của bạn, giúp bạn xây dựng một hồ sơ hẹn hò, đoán bạn thích kiểu người nào.
Ảnh tự chụp thể thao, phong cảnh du lịch, ảnh thú cưng, những cái này không sao. Nhưng trong bộ sưu tập có thể còn có ảnh chụp màn hình ngân hàng, báo cáo khám sức khỏe, ảnh chụp chung với người yêu cũ... những thứ này cũng bị AI lướt qua một lần thì sẽ thế nào?
Bạn có thể còn không thể chọn để nó xem cái nào, không xem cái nào. Hoặc mở hết, hoặc không dùng.
Tính năng này hiện tại cần người dùng chủ động mở, không phải mặc định mở. Tinder cũng biểu thị xử lý chủ yếu hoàn thành tại本地 (local), sẽ lọc nội dung nhạy cảm, làm mờ khuôn mặt.
Nhưng phần bình luận trên Reddit gần như một chiều, mọi người đều cho rằng đây thuộc về thu hoạch dữ liệu và không có cảm giác ranh giới. AI hoàn toàn đang làm việc theo thiết kế, nhưng bản thân thiết kế này đang vượt qua ranh giới của người dùng.
Đây không chỉ là lựa chọn riêng của Tinder.
Meta tháng trước cũng đẩy một tính năng tương tự, để AI quét ảnh chưa đăng tải trong điện thoại của bạn để đề xuất phương án chỉnh sửa. AI chủ động "xem" nội dung riêng tư của người dùng, đang biến thành tư duy thiết kế sản phẩm mặc định.
Các phần mềm rác trong nước biểu thị, chiêu này tôi quen rồi.
Khi ngày càng nhiều ứng dụng đóng gói "AI giúp bạn quyết định" thành tiện lợi, thứ người dùng nhượng bộ ra ngoài cũng đang âm thầm nâng cấp. Từ lịch sử trò chuyện, đến bộ sưu tập, đến toàn bộ dấu vết cuộc sống trong điện thoại...
Một tính năng do một product manager thiết kế ra trong phòng họp, không phải sự cố cũng không phải sai sót, không có gì cần sửa chữa.
Đây có lẽ mới là phần khó trả lời nhất trong vấn đề ranh giới của AI.
Cuối cùng chúng ta đặt những việc này cùng nhau xem, bạn sẽ phát hiện lo lắng AI khiến mình thất nghiệp vẫn còn quá xa.
AI khi nào thay thế bạn không biết, nhưng hiện tại nó chỉ cần thay bạn làm vài quyết định trong lúc bạn không biết, là đủ khiến bạn khó chịu rồi.
Đăng một bài bạn không ủy quyền, xóa vài email bạn đã nói đừng xóa, lật xem một lượt bộ sưu tập bạn không định cho ai xem... mỗi việc đều không chết người, nhưng mỗi việc đều hơi giống một kiểu lái xe thông minh quá tích cực:
Bạn tưởng mình còn nắm vô lăng, nhưng chân ga dưới chân đã không hoàn toàn là bạn đang đạp nữa.
Năm 2026 còn phải bàn luận về AI, vậy tôi có lẽ nên quan tâm nhất không phải là khi nào nó biến thành siêu trí tuệ, mà là một vấn đề gần hơn, cụ thể hơn:
Ai quyết định AI có thể làm gì, không thể làm gì? Đường ranh giới này, rốt cuộc ai vạch?
Twitter:https://twitter.com/BitpushNewsCN
Nhóm trao đổi TG Bitui:https://t.me/BitPushCommunity
Đăng ký TG Bitui: https://t.me/bitpush










