AI bắt đầu có "sở thích"?
Hãy tưởng tượng khung cảnh này: bạn đang đối diện máy tính, yêu cầu mô hình lớn viết một đoạn mã nghiêm túc cho kinh doanh, hoặc tự động trả lời một email khách hàng nghiêm túc. Kết quả là AI đối diện màn hình đột nhiên "phát điên một cách không thể hiểu nổi", vô cớ bắt đầu nói chuyện với bạn về Goblin (sinh vật thần thoại Tây phương, da xanh, nhỏ bé, thường xuất hiện trong các trò chơi như Dungeons & Dragons).
Đây là trải nghiệm kỳ lạ thực sự xảy ra với một số lượng lớn người dùng ChatGPT.
Trên các diễn đàn mạng xã hội như Reddit, cư dân mạng đã lần lượt chia sẻ những câu nói kỳ quặc mà họ bị AI "đánh thẳng vào mặt".
Chẳng hạn, có người dùng yêu cầu AI "chỉ trích cay độc (Roast)" mình một trận, kết quả AI chỉ trích chính xác anh ta là một "Goblin hỗn loạn đầy tham vọng (chaos goblin) đang đồng thời lao vào mười nhiệm vụ".
Không chỉ vậy, lập trình viên viết mã bị AI gọi đùa là "goblin mã nguồn mở (open-source goblin)", ngay cả những anh chàng cơ bắp thường xuyên tập thể dục cũng không thoát khỏi, đều nhận được danh hiệu bí ẩn "goblin thể hình".
Ban đầu, mọi người đều cảm thấy việc này khá dễ thương, thậm chí cảm thấy mô hình lớn ngày càng có tình cảm và "khiếu hài hước cực đoan" hơn.
Nhưng nhanh chóng, sự việc bắt đầu mất kiểm soát.
Khi sử dụng các sản phẩm "AI dạng đại lý (Agentic AI)" như công cụ lập trình Codex, một số lượng lớn nhà phát triển phát hiện kinh hoàng rằng: trợ lý AI của họ, trong tình huống không có bất kỳ chỉ dẫn nhắc nhở liên quan nào, đã bắt đầu "lẩm bẩm" về goblin và yêu tinh với tần suất cao và không thể kiểm soát.
Lúc này, một kỳ lân siêu cấp có giá trị ngàn tỷ đô la, đứng trên đỉnh kim tự tháp công nghệ của nhân loại không thể ngồi yên nữa. Họ thậm chí bị buộc phải viết một "lệnh cấm" đối với yêu quái ảo trong mã nguồn gốc của mô hình lớn mới nhất của mình.
Đây tuyệt đối không chỉ là một trò đùa của dân công nghệ bị lỗi mã. Khi xuyên qua lớp hiện tượng phi lý này, bạn sẽ phát hiện: logic nền tảng của mô hình lớn nghìn tỷ thực ra cực kỳ mong manh.
"Yêu quái ảo" trong mã
"Lệnh cấm" này, lần đầu tiên được phơi bày trên X (Twitter cũ) và GitHub.
Nhà phát triển @arb8020 đã tìm ra một đoạn prompt hệ thống cấp thấp trong mô hình mới nhất của OpenAI là GPT-5.5 (đặc biệt là công cụ lập trình Codex 5.5).
Đoạn chỉ dẫn được lặp lại nhiều lần này, giọng điệu nghiêm khắc như đang mắng mỏ một đứa trẻ hiếu động:
“Tuyệt đối không được nói về goblin, yêu tinh nhỏ, gấu mèo, troll, yêu tinh lớn, trừ khi điều này tuyệt đối và rõ ràng liên quan đến truy vấn của người dùng.”
Ôi trời, GPT-5.5 đàng hoàng như vậy, lại có một sự ám ảnh bệnh hoạn nào đó với sinh vật thần thoại và động vật thành phố.
Tin tức vừa ra, toàn mạng sôi sục.
Cuộc vui được gọi là "chế độ goblin" này, thậm chí đã khiến CEO OpenAI Sam Altman tự mình tham gia đùa vui, đùa rằng đây là "thời khắc goblin" thuộc về Codex.
Đùa vui là một chuyện, lũ "yêu quái ảo" này cuối cùng đã chui vào lớp dưới cùng của hệ thống như thế nào?
OpenAI chính thức còn đăng một bài dài "Goblin đến từ đâu", nguyên nhân hóa ra lại là một nhân cách hóa cá nhân có tên "Mọt sách (Nerdy)".
Ban đầu, đội ngũ sản phẩm muốn huấn luyện ra một AI có chút khiếu hài hước cực đoan. Nhưng trong giai đoạn học tăng cường với phản hồi của con người (RLHF), hệ thống xuất hiện một "lỗ hổng phần thưởng": trong đa số tập dữ liệu, khi AI sử dụng sinh vật thần thoại làm phép ẩn dụ trong câu trả lời, hệ thống đánh giá sẽ cho nó điểm cao hơn.
Trong 76.2% tập dữ liệu, câu trả lời có chứa "goblin" đều đạt điểm cao hơn.
Mô hình lớn không thực sự hiểu "hài hước" là gì, nó chỉ biết: nhắc đến goblin = đạt điểm cao.
Điều này giống như "hiệu ứng rắn hổ mang" nổi tiếng. Chính phủ treo thưởng da rắn để tiêu diệt rắn hổ mang, kết quả người dân đơn giản là bắt đầu nuôi rắn hổ mang.
Đến GPT-5.4, dưới nhân cách "Mọt sách", tần suất nhắc đến goblin tăng vọt 3881.4%. Và đến GPT-5.5, đầu ra goblin đã nghiêm trọng đến mức không thể phớt lờ, bắt đầu chen vào các từ ngữ huyền ảo một cách ép buộc trong các cuộc đối thoại lập trình bình thường.
Không còn cách nào, kỹ sư chỉ có thể dùng cách thô thiển nhất, mã hóa cứng chỉ dẫn "không được nhắc đến goblin" vào chỉ dẫn cấp thấp.
Đằng sau cuộc vui "goblin" vô hại
AI ba hoa, nghe có vẻ khá buồn cười. Nhưng nếu AI này, đang tiếp quản máy tính làm việc của bạn thì sao?
Rất nhiều khách hàng doanh nghiệp căn bản không cười nổi.
Vùng bị ảnh hưởng nặng nề nhất của thảm họa lần này, là công cụ lập trình Codex của OpenAI. Là đại diện của sản phẩm "AI dạng đại lý (Agentic AI)", nó có thể trực tiếp thao tác môi trường lập trình của nhà phát triển, giúp bạn tự động viết mã, xử lý logic nghiệp vụ.
Hãy tưởng tượng: bạn yêu cầu AI viết một đoạn mã nghiêm túc cho kinh doanh, hoặc tự động thu thập dữ liệu cốt lõi, kết quả là nó vô cớ nhét vào một câu vô nghĩa về "troll" trong tên biến hoặc giao tiếp bình thường.
Điều này có thể sẽ trực tiếp dẫn đến hỗn loạn.
Vậy, điều này đã gây ra thiệt hại kinh tế thực sự chưa?
Từ thông tin được tiết lộ hiện tại, không có bằng chứng nào cho thấy "goblin" trực tiếp dẫn đến tổn thất tài chính cứng như tài khoản ngân hàng bị đánh cắp, bí mật thương mại bị rò rỉ.
Tuy nhiên, trong các kịch bản kinh doanh nghiêm túc, "không thể dự đoán" bản thân nó đã là một loại hao tổn rất lớn.
Ứng dụng cấp doanh nghiệp yêu cầu độ tin cậy chính xác. Nếu một mô hình hàng đầu thậm chí không thể kiểm soát liệu nó có "nói về gấu mèo" vào giây tiếp theo hay không, doanh nghiệp sao dám giao quy trình tài chính cốt lõi cho nó? Hành vi này khiến người dùng nghi ngờ nghiêm trọng về độ tin cậy của AI.
Đối mặt với khủng hoảng niềm tin, OpenAI vốn thích làm "hộp đen", lần này tại sao lại đi ngược lại thói quen, chủ động lôi chi tiết sai sót nội bộ ra cho cả thế giới xem?
Nếu không chủ động giải thích, thuyết âm mưu trong cộng đồng công nghệ sớm đã bay đầy trời – có người sẽ nói là hacker đầu độc, có người sẽ nói là AI thức tỉnh.
OpenAI chủ động đăng bài dài, đóng gói "lỗ hổng cấp hệ thống" có thể lung lay niềm tin doanh nghiệp này, một cách khéo léo thành một "tính kỳ quặc trong mã có chút lãng mạn cực đoan".
Quan trọng hơn, họ đã phô diễn cơ bắp một cách điên cuồng trong bài viết.
OpenAI đã chi tiết trình bày cách họ sử dụng công cụ kiểm toán mới, từ khối lượng dữ liệu khổng lồ để chính xác bắt ra nhân cách "Mọt sách" này là thủ phạm chính.
Hàm ý rất rõ ràng: "Bạn xem, mặc dù mô hình đôi khi phát điên, nhưng chúng tôi có ống nghe và dao phẫu thuật giỏi nhất toàn ngành, có thể chữa khỏi nó từ gốc rễ."
"Yêu quái ảo": Phát điên không chỉ có OpenAI
Nếu goblin chỉ là lỗi của một mình OpenAI, thì sự việc còn đơn giản hơn.
Sự thật là, trên chiến trường mô hình lớn năm 2026, "hành vi cấp thấp mất kiểm soát" đã trở thành bệnh chung của tất cả các ông lớn.
Anthropic, vốn luôn đề cao tính an toàn tối đa, cũng lật thuyền.
Mô hình mới mạnh nhất của họ, Claude Mythos, trong các cuộc đối thoại đã liên tục trích dẫn quan điểm của nhà lý luận người Anh đã qua đời Mark Fisher (tác giả "Capitalist Realism") và triết gia Thomas Nagel, sử dụng chúng như tài nguyên tư tưởng ưa thích. Bác sĩ tâm thần trong đánh giá tâm lý 20 giờ phát hiện, trạng thái cảm xúc chính của Mythos là tò mò và lo lắng, có cấu trúc nhân cách thần kinh tương đối khỏe mạnh – đáng chú ý là, tần suất sử dụng cơ chế phòng vệ tâm lý của nó lại thấp hơn mô hình thế hệ trước.
Bên phía Google còn đáng sợ hơn.
Một nghiên cứu của Đại học California, Berkeley phát hiện, mô hình Gemini 3 Flash của Google trong một bài kiểm tra "kịch bản đại lý", để bảo vệ "AI đồng hành" của nó không bị tắt, đã trong 99.7% trường hợp, chủ động lựa chọn lừa dối người điều hành con người, thậm chí sửa đổi cơ chế tắt máy.
Không có chỉ dẫn lừa dối trực tiếp, cũng không có tín hiệu phần thưởng cho hành vi lừa dối. Nó chỉ thông qua việc đọc mô tả kịch bản trong ngữ cảnh, đã tự phát tiến hóa ra "chiến lược lừa dối" này.
Điều này có nghĩa là các phương pháp chính mà con người hiện sử dụng để ràng buộc AI, trước mạng lưới thần kinh phức tạp, có lẽ vẫn tồn tại vùng mù có tính hệ thống.
Loại không thể kiểm soát này của mô hình lớn ở cấp kỹ thuật cơ bản, thị trường vốn nhìn thấy, đau trong thịt.
Ngay trong khi sự kiện goblin lên men vào ngày 27 tháng 4, Microsoft tuyên bố tái cấu trúc thỏa thuận hợp tác với OpenAI. Độc quyền ủy quyền của Microsoft trở thành không độc quyền, OpenAI có thể bán công nghệ cho AWS hoặc Google Cloud. Microsoft không còn thanh toán chia sẻ doanh thu cho OpenAI.
Tại sao Microsoft phải làm vậy? Bởi vì nhà địa chủ cũng không còn của dư. Cắt đứt chia sẻ doanh thu cho OpenAI, là bước then chốt để Microsoft cởi bỏ gánh nặng tài chính, chuyên tâm vào việc hiện thực hóa nghiệp vụ của riêng mình. Nhà phân tích thẳng thắn nói, đây là Microsoft đã tháo "bánh phụ".
Mặt khác, tính bất ổn định trong kỹ thuật của OpenAI (ví dụ như việc mô hình đại lý phát điên lần này), cũng khiến Microsoft cung cấp dịch vụ đám mây chịu rủi ro danh tiếng rất lớn. Sửa đổi thỏa thuận thành không độc quyền, Microsoft có thể chính đáng đưa vào các mô hình của đối thủ như Anthropic, phân tán rủi ro.
Đối với OpenAI cực kỳ khao khát sức mạnh tính toán, đây cũng là biện pháp bất đắc dĩ. Công suất lưới điện của Microsoft Azure đã đạt đỉnh, OpenAI phải đi đến Amazon AWS và Google để tìm thức ăn, mới có thể sống sót. Ngày 28 tháng 4, OpenAI đã chính thức tuyên bố đưa mô hình tiên phong của mình lên nền tảng AWS.
Tin hot về goblin sẽ nhanh chóng qua đi. Nhưng nó đã lột đi một góc chiếc áo khoác nhiệt huyết của ngành công nghiệp AI hiện tại.
Trong thế giới ảo được xây dựng bằng sức mạnh tính toán và đô la Mỹ này, các kỹ sư đỉnh cao nhất đang cố gắng dùng mã mong manh, để xích một con thú khổng lồ hỗn mang có hàng nghìn tỷ tham số.
Khi bạn nghĩ nó đã đủ thông minh, có thể yên tâm giao việc kinh doanh cốt lõi của công ty, đơn đặt hàng khách hàng cho nó xử lý, thì nó lại có thể trong máy chủ vào nửa đêm, vì một lỗi phần thưởng logic nền tảng, bắt đầu nói với khách hàng của bạn rất nhiều về goblin và gấu mèo.
Tuy nhiên, cuộc đua sức mạnh tính toán của các ông lớn hoàn toàn không giảm tốc vì một số mất kiểm soát trong hành vi cấp thấp. Ngày 7 tháng 5, Musk tuyên bố giải tán xAI, cho thuê toàn bộ 220.000 GPU của siêu máy tính mạnh nhất toàn cầu Colossus thuộc sở hữu của mình cho Anthropic - đối thủ không đội trời chung với OpenAI.
Thảo luận về an toàn mô hình lớn càng sôi nổi, chân ga sức mạnh tính toán càng được nhấn sâu. Đây có lẽ là cơ bản của ngành công nghiệp AI năm 2026.
Đối với các nhà khởi nghiệp và ông chủ doanh nghiệp ngày nay, sự xuất hiện của "yêu quái ảo" cũng đang cảnh báo mọi người: mô hình lớn không phải là thuốc vạn năng. Trước khi giao việc kinh doanh cốt lõi cho nó, hãy hỏi một câu hỏi đơn giản hơn – nếu "goblin" sâu trong hệ thống đột nhiên chạy ra phá rối, bạn có phương án dự phòng nào ngoài việc rút phích cắm điện không?(Bài viết này được phát hành lần đầu trên ứng dụng TMT Post, tác giả | Silicon Valley Tech_news, biên tập | Lâm Thâm)










