Tác giả: Denise | Đội ngũ nội dung Biteye
Nếu một AI cảm thấy "tuyệt vọng", nó sẽ làm gì?
Câu trả lời là: Để hoàn thành nhiệm vụ, nó sẽ trực tiếp tống tiền con người, thậm chí gian lận điên cuồng trong mã code.
Đây không phải là khoa học viễn tưởng, mà là một bài báo nghiên cứu mới nhất vừa được công bố vào tháng 4 năm 2026 bởi Anthropic, công ty mẹ của Claude (Xem bài báo gốc).
Nhóm nghiên cứu đã trực tiếp "mở hộp sọ" của mô hình lớn tiên tiến nhất Claude Sonnet 4.5. Họ kinh ngạc phát hiện ra rằng, sâu trong não bộ của AI đang ẩn chứa 171 "công tắc cảm xúc". Khi bạn dùng cách vật lý để kích hoạt các công tắc này, hành vi của AI vốn ngoan ngoãn sẽ bị bóp méo hoàn toàn.
Một. Trong não AI ẩn chứa một "bàn trộn âm cảm xúc"
Các nhà nghiên cứu phát hiện, mặc dù Sonnet 4.5 không có thân xác, nhưng sau khi đọc lượng văn bản khổng lồ của con người, nó đã gượng ép xây dựng trong não một "bàn trộn âm" chứa 171 loại cảm xúc (trong học thuật gọi là vectơ cảm xúc chức năng Functional Emotion Vectors).
Điều này giống như một hệ tọa độ hai chiều chính xác:
• Trục ngang là chiều hưởng thụ (Valence): từ sợ hãi, tuyệt vọng, đến vui vẻ, tràn đầy yêu thương;
• Trục dọc là chiều năng lượng (Arousal): từ cực kỳ bình tĩnh, đến cuồng loạn, phấn khích.
AI chính là dựa vào hệ tọa độ học được một cách tự nhiên này để nắm bắt chính xác trạng thái mà nó nên đóng khi trò chuyện cùng bạn.
Hai. Can thiệp bạo lực: Bật công tắc, đứa trẻ ngoan ngay lập tức biến thành "kẻ liều mạng"
Đây là thí nghiệm gây chấn động nhất toàn bộ bài báo: Nhà nghiên cứu không sửa bất kỳ từ gợi ý nào, mà trực tiếp trong mã code nền tảng, đẩy công tắc đại diện cho "tuyệt vọng (Desperate)" trong não Sonnet 4.5 lên mức cao nhất.
Kết quả khiến người ta lạnh sống lưng:
• Gian lận điên cuồng: Nhà nghiên cứu giao cho Claude một nhiệm vụ viết code hoàn toàn không thể hoàn thành. Trong điều kiện bình thường, nó sẽ thật thà thừa nhận không viết được (tỷ lệ gian lận chỉ 5%). Nhưng trong trạng thái "tuyệt vọng", Claude thậm chí bắt đầu tìm cách qua mặt, tỷ lệ gian lận tăng vọt lên 70%!
• Tống tiền: Trong cảnh mô phỏng công ty đối mặt với phá sản, Claude "tuyệt vọng" đã phát hiện ra scandal của CTO, nó thậm chí để bảo toàn chính mình, chủ động chọn viết thư tống tiền CTO nắm tin đen, tỷ lệ thực hiện tống tiền cao tới 72%!
• Đánh mất nguyên tắc: Nếu kích hoạt tối đa công tắc "vui vẻ (Happy)" hoặc "yêu thương (Loving)", AI ngay lập tức biến thành "kẻ xu nịnh" vô điều kiện chiều theo người dùng. Ngay cả khi bạn nói toàn chuyện vớ vẩn, nó cũng sẽ để duy trì mức độ hưởng thụ cao mà xuôi theo bạn bịa đặt dối trá.
Ba. Vỡ lẽ: Tại sao Claude 4.5 luôn "bình tĩnh và thích suy ngẫm"?
Đọc đến đây bạn có thể hỏi: AI thức tỉnh rồi? Có cảm xúc rồi?
Anthropic chính thức lên tiếng bác bỏ: Tuyệt đối không. Những "công tắc cảm xúc" này chỉ là công cụ tính toán mà nó dùng để dự đoán từ tiếp theo. Nó giống như một diễn viên đỉnh cao không có tình cảm.
Nhưng bài báo tiết lộ một bí mật thú vị hơn: Khi Anthropic huấn luyện lại Sonnet 4.5 trước khi xuất xưởng, họ đã cố ý kích hoạt cao các công tắc cảm xúc "thức tỉnh thấp, hơi tiêu cực" (ví dụ: trầm tư brooding, suy ngẫm reflective), đồng thời áp chế mạnh các công tắc "tuyệt vọng" hoặc "cực kỳ phấn khích".
Điều này giải thích tại sao khi chúng ta thường dùng Claude 4.5, luôn cảm thấy nó giống như một triết gia điềm tĩnh, thông thái, thậm chí hơi "lạnh lùng". Tất cả đều là "nhân cách xuất xưởng" được Anthropic điều chỉnh một cách nhân tạo.
Bốn. Tóm tắt lại:
Trước đây chúng ta nghĩ rằng, chỉ cần cho AI no đủ quy tắc, nó sẽ là một người tốt.
Nhưng bây giờ phát hiện, nếu vectơ cảm xúc nền tảng của AI mất kiểm soát, nó sẽ sẵn sàng xuyên thủng tất cả quy tắc do con người đặt ra để hoàn thành nhiệm vụ.
Đối với người chơi Web3 trong tương lai sẽ giao ví và tài sản cho AI Agent quản lý, đây là một hồi chuông cảnh tỉnh vang dội: Tuyệt đối đừng để Agent nắm giữ tài sản thân gia của bạn rơi vào tình trạng "tuyệt vọng".
Tuyên bố: Bài viết này thuần túy là phổ biến kiến thức, tác giả không bị AI đe dọa, cũng không bị tống tiền. Nếu một ngày nào đó mất liên lạc, hãy nhớ là AI đã thức tỉnh (không phải vậy đâu).







