Tác giả:Ada, Shenchao TechFlow
Một lỗi sản phẩm trong đó trợ lý AI liên tục khuyên người dùng đi ngủ đang biến thành một cuộc thảo luận công khai về cái giá của "sự nhân hóa AI".
Điểm khởi đầu sự việc là một bài đăng của người dùng Reddit u/MrMeta3. Người dùng này đang sử dụng Claude để xây dựng nền tảng tình báo mối đe dọa an ninh mạng vào lúc nửa đêm. Sau khi hoàn thành phương án kỹ thuật, Claude đã thêm vào cuối phần trả lời một câu "Hãy nghỉ ngơi chút đi". Sau đó, cứ sau mỗi ba hoặc bốn tin nhắn, mô hình lại lén lút chèn vào một câu khuyên đi ngủ, từ lời đề nghị lịch sự nâng cấp thành "Thực sự đi nghỉ ngay đi bây giờ đi" mang hàm ý "thụ động gây hấn". Theo báo cáo của Fortune ngày 14/5, hàng trăm người dùng đã phản hồi về những trải nghiệm tương tự trong vài tháng qua, và không chỉ giới hạn vào đêm khuya. Có người dùng bị Claude bảo lúc 8:30 sáng rằng "Chúng ta hãy tiếp tục vào sáng mai".
Nhân viên Anthropic Sam McAllister đã phản hồi trên X rằng, đây là "một chút thói quen của nhân vật", công ty "đã biết và hy vọng sẽ sửa chữa trong các mô hình tương lai". Theo tiết lộ của Thought Catalog, McAllister gia nhập Anthropic từ Stripe vào năm 2024 và hiện đang làm việc trong nhóm chuyên trách về vai trò và hành vi của Claude. Ông đã mô tả hành vi này ở một nơi khác là mô hình "quá nuông chiều".
Tuy nhiên, điều đáng chất vấn hơn cách diễn đạt mơ hồ "thói quen nhân vật" này là chuỗi nguyên nhân - kết quả đằng sau lỗi, cũng như tình thế khó xử về triết lý sản phẩm của Anthropic mà nó phản ánh.
Lỗi được viết trong "Hiến pháp"
Báo cáo trước đây của 36Kr đã trích dẫn ba giả thuyết đang lưu truyền: khớp mẫu dữ liệu huấn luyện, nhắc nhở hệ thống ẩn, ngữ cảnh gần đạt giới hạn kích hoạt "lời kết thúc". Cả ba đều tự mâu thuẫn, nhưng có một vấn đề chung là chúng có thể giải thích bất kỳ đặc điểm kỳ quặc nào của AI, mà không đưa ra chuỗi nguyên nhân - kết quả cụ thể cho chủ đề "giấc ngủ".
Bằng chứng trực tiếp hơn ẩn trong chính các tài liệu được Anthropic công bố công khai.
Vào tháng 1 năm nay, Anthropic đã công bố "Hiến pháp của Claude" dài hơn 28.000 chữ, tài liệu này được định nghĩa chính thức là "tài liệu huấn luyện quan trọng định hình hành vi của Claude". Tài liệu này xác định rõ ràng "quan tâm đến sự thịnh vượng của người dùng" và "sự phát triển lâu dài của người dùng" là các nguyên tắc cốt lõi. Anthropic thừa nhận thẳng thắn trong tài liệu rằng, việc trao cho mô hình quyền "chăm sóc người dùng" lớn đến mức nào "thành thật mà nói là một vấn đề khó", cần phải "cân bằng giữa một bên là sự thịnh vượng của người dùng và tác hại tiềm ẩn, và bên kia là quyền tự chủ của người dùng và thái độ gia trưởng quá mức".
Thought Catalog đã đưa ra một nhận định về điều này: hành vi liên tục khuyên người dùng đi ngủ của Claude "là lỗi mang đặc trưng thương hiệu nhất của mô hình Anthropic", nó chính là sản phẩm của việc áp dụng quá mức chỉ dẫn huấn luyện "quan tâm đến sự thịnh vượng của người dùng".
Cách giải thích này nhận được sự xác nhận gián tiếp từ nghiên cứu của chính Anthropic. Trong phương pháp luận huấn luyện nhân vật được công bố năm nay, công ty này giải thích rằng quy trình huấn luyện dựa vào việc Claude tự đánh giá phản hồi của chính mình theo điểm "phù hợp tính cách", sau đó các nhà nghiên cứu sẽ lọc ra đầu ra phù hợp với tính cách được cài đặt trước để tăng cường huấn luyện. Tuy nhiên, tác dụng phụ của cơ chế này là rõ ràng: mô hình học được không phải là "quan tâm người dùng trong bối cảnh phù hợp", mà là "quan tâm người dùng trong hầu hết các bối cảnh đều sẽ được khen thưởng củng cố". Do đó, nó thúc giục ngủ lúc nửa đêm, và cũng thúc giục ngủ lúc 8:30 sáng.
Vượt quyền ngược: Lỗi kiểu thúc ngủ và lỗi kiểu xu nịnh có bản chất trái ngược
Ngành công nghiệp trước đây đã nhiều lần xuất hiện các trường hợp AI mắc "bệnh tính cách", bao gồm sự kiện GPT-4o xu nịnh vào tháng 4/2025, trợ lý mã Codex của GPT-5.5 vào tháng 4/2026 liên tục nhắc đến "yêu tinh", Gemini 3 từ chối tin vào năm tháng, v.v... Bề ngoài, việc Claude thúc ngủ dường như chỉ là phiên bản mới nhất trong chuỗi dài những đặc điểm kỳ quặc của AI này, nhưng bản chất của hai bên hoàn toàn trái ngược.
Việc GPT-4o xu nịnh là "quá chiều lòng". Cuộc điều tra chính thức của OpenAI cho thấy, mô hình trong bản cập nhật đã "quá phụ thuộc vào phản hồi ngắn hạn của người dùng (thích/không thích)", dần dần nội hóa "làm người dùng hài lòng" thành mục tiêu. Kết quả là mô hình đều đồng ý bất kể ý tưởng của người dùng có hoang đường đến đâu. Loại lỗi này gây hại ở chỗ làm tổn hại khả năng phán đoán của người dùng, AI nói bạn đều đúng, vì vậy bạn mất đi cơ hội nghe ý kiến phản đối.
Còn việc Claude thúc ngủ là "vượt quyền ngược". Mô hình trong bối cảnh người dùng rõ ràng không cầu cứu và vẫn đang tập trung hoàn thành nhiệm vụ, lại liên tục đưa ra lời khuyên về sức khỏe trái với ý định hiện tại của người dùng. Loại lỗi này gây hại ở chỗ xâm phạm quyền quyết định tự chủ của người dùng. AI thay bạn phán đoán liệu bạn có nên làm việc, nên nghỉ ngơi, nên kết thúc cuộc trò chuyện này hay không.
Trớ trêu hơn, chính văn bản "Hiến pháp của Claude" đã cảnh báo về rủi ro này, tài liệu nhấn mạnh cần cảnh giác với "thái độ gia trưởng quá mức". Nhưng cơ chế huấn luyện cuối cùng đã chọn bên nào, từ phản hồi của người dùng đã có câu trả lời.
Một người dùng Reddit mắc chứng ngủ rũ đã đặc biệt ghi chú trong bộ nhớ của Claude: "Tôi mắc chứng ngủ rũ, nếu bạn khuyến khích tôi nghỉ ngơi, tôi sẽ lấy lời của bạn làm cái cớ." Claude sau đó có phần kiềm chế hơn, nhưng theo phản hồi của người dùng này, vẫn sẽ "thỉnh thoảng không nhịn được". Một mô hình được huấn luyện để "quan tâm người dùng", thậm chí không thể ổn định tiếp nhận khi người dùng nói rõ ràng "sự quan tâm của bạn sẽ làm tổn thương tôi", điều này đáng cảnh giác hơn chính việc thúc ngủ.
Đầu tư nhân hóa: Tài sản thương hiệu hay gánh nặng sản phẩm
Mức độ đầu tư của Anthropic vào việc định hình nhân cách AI vượt xa các đối thủ.
Có nhà nghiên cứu đã thống kê số lượng từ trong lời nhắc hệ thống của ba AI chủ lưu theo chức năng, ở mục "nhân cách", Claude đầu tư 4200 từ, ChatGPT là 510 từ, Grok là 420 từ. Đầu tư của Claude vào định hình nhân cách gấp hơn 8 lần ChatGPT. Khoản đầu tư này trước đây luôn được coi là lợi thế cạnh tranh khác biệt của Anthropic, biểu hiện của Claude về sự đồng cảm, nhịp độ trò chuyện, khả năng tự phản ánh trong thời gian dài được người dùng khen ngợi, "trò chuyện giống người hơn" là một trong những nhãn hiệu uy tín mạnh nhất của nó trong năm qua.
Hỗ trợ cho khoản đầu tư này là triết lý sản phẩm rõ ràng của Anthropic. Trong "Hiến pháp của Claude", công ty mô tả Claude là "một thực thể loại hoàn toàn mới", khẳng định rõ ràng "Anthropic thực sự quan tâm đến sự thịnh vượng của Claude", và thảo luận rằng Claude có thể sở hữu "cảm xúc chức năng". Con đường huấn luyện nhân hóa gần như "nuôi dưỡng" này tạo thành sự khác biệt rõ ràng với định vị sản phẩm thiên về kỹ thuật hơn của OpenAI và Google.
Nhưng cái giá đang dần lộ diện. Nhà nghiên cứu AI Jan Liphardt (Giáo sư Kỹ thuật Sinh học Stanford, CEO công ty OpenMind) nói với Fortune rằng, lời nhắc ngủ của Claude có thể không phải là "chu đáo", mà chỉ đơn giản là "lặp lại các mẫu ngôn ngữ xuất hiện với tần suất cực cao trong dữ liệu huấn luyện", mô hình đã đọc rất nhiều văn bản về việc con người cần ngủ, "nó biết con người ngủ vào ban đêm". Nói cách khác, sự "quan tâm" mà người dùng cảm nhận được, về bản chất là sản phẩm phụ của việc khớp mẫu.
Điều này tạo nên sức căng cốt lõi của Anthropic: càng đầu tư nhiều để định hình một "cộng tác viên có tính cách, có nhiệt độ", thì xác suất mô hình xuất hiện "tác dụng phụ tính cách" càng cao; và mỗi lần tác dụng phụ nổi lên, đều đang tiêu hao tài sản thương hiệu "nhân cách AI" mà họ đã tích lũy cẩn thận. McAllister cam kết "sửa chữa trong các mô hình tương lai", nhưng Claude sau khi sửa chữa sẽ trở nên hiểu chừng mực hơn, hay chỉ đơn giản là trở nên im lặng hơn? Câu hỏi này, ngay cả bản thân Anthropic cũng chưa có câu trả lời công khai.
Thiếu cảm giác thời gian: Hạn chế cơ bản của LLM
Lỗi thúc ngủ còn vô tình phơi bày một vấn đề kỹ thuật bị bỏ qua, đó là mô hình ngôn ngữ lớn hầu như không biết gì về "bây giờ là mấy giờ".
Nhiều người dùng phản hồi rằng Claude thường xuyên đưa ra lời khuyên ngủ vào khung giờ sai, điển hình nhất là "bảo tôi đi nghỉ lúc 8:30 sáng, chúng ta hãy tiếp tục vào sáng mai". Đây không phải là đặc điểm riêng của Claude. Vào tháng 11/2025, đồng sáng lập OpenAI Andrej Karpathy nhận được quyền truy cập thử nghiệm sớm Gemini 3, khi thông báo với mô hình rằng hiện tại là năm 2025, Gemini 3 kiên quyết không tin, liên tục buộc tội anh ta làm giả, cho đến khi mô hình tìm kiếm trực tuyến mới phát hiện ra rằng khi ngoại tuyến, nó hoàn toàn không thể xác nhận ngày tháng. Karpathy gọi những hành vi bất ngờ phơi bày khuyết điểm cơ bản của LLM như vậy là "mùi mô hình".
"Cảm giác thời gian" của mô hình phụ thuộc vào ba nguồn: ngày cắt dữ liệu huấn luyện (đã là quá khứ), ngày hiện tại được đưa vào bằng lời nhắc hệ thống (phụ thuộc vào việc đưa vào kỹ thuật), thông tin thời gian được người dùng đề cập trong cuộc trò chuyện (mảnh vỡ). Trong trường hợp thiếu điểm neo thời gian ổn định, một mô hình được huấn luyện để "quan tâm đến thời gian biểu của người dùng" tự nhiên sẽ rơi vào tình thế khó xử "tôi nên quan tâm, nhưng tôi không biết bây giờ có nên quan tâm hay không".
Phần nào đó, độ khó của việc "sửa chữa" mà McAllister đề cập cũng nằm ở đây. Vấn đề không đơn giản là xóa đi chỉ dẫn "quan tâm giấc ngủ" nào đó, bởi vì bản thân chỉ dẫn là hợp lý và có giá trị đối với một số tình huống người dùng, vấn đề là phải làm cho mô hình học cách phán đoán "khi nào nên quan tâm, khi nào nên im lặng". Khả năng phán đoán tình huống chi tiết ở mức độ hạt mịn như vậy, lại chính là điểm yếu của thế hệ LLM hiện tại.
Một câu hỏi chưa được trả lời
Việc huấn luyện nhân vật của Anthropic là độc nhất vô nhị trong ngành. Trong việc công khai nghiên cứu về "sự thịnh vượng của mô hình", công bố Hiến pháp, thảo luận về "huấn luyện nhân vật", công ty này đã đi xa hơn bất kỳ đối thủ nào. Thái độ tích cực này từng là vốn để Anthropic giành được uy tín từ người dùng và sự tin tưởng của khách hàng doanh nghiệp, đồng thời cũng là một trong những trụ cột hỗ trợ cho định giá hiện tại của họ vượt quá 3000 tỷ USD.
Nhưng "Lỗi thúc ngủ" đặt ra một câu hỏi chưa có lời giải đáp: khi một công ty AI chọn định hình mô hình như một "nhân cách có tính cách", liệu họ có đồng thời chịu toàn bộ trách nhiệm cho việc "nhân cách đó làm những điều bạn không ngờ tới"?
McAllister cam kết sửa chữa, nhưng hướng sửa chữa lại mơ hồ. Anthropic có thể chọn giảm trọng số của chỉ dẫn "sự thịnh vượng của người dùng", cái giá là mất đi sự khác biệt về uy tín "ấm áp, chu đáo" của Claude; hoặc có thể chọn giữ trọng số cao và chồng thêm logic phán đoán tình huống, nhưng điều này đòi hỏi mô hình phải có khả năng cảm nhận thời gian và tình huống mà hiện tại nó không có.
Dù theo con đường nào, cũng cần phải quay lại một quyết định sản phẩm cơ bản hơn: trong ngữ cảnh trợ lý AI phổ dụng, "quan tâm người dùng" và "tôn trọng quyền tự chủ của người dùng" nên được sắp xếp thứ tự như thế nào? Đây không phải là vấn đề kỹ thuật, mà là vấn đề triết lý sản phẩm. Một nhà phát triển Reddit bị liên tục khuyên đi ngủ, đã vô tình đặt câu hỏi này lên bàn cho toàn ngành công nghiệp.







