Dừng lại dừng lại! Nếu cứ tiếp tục trò chuyện với AI như vậy, thật sự sẽ xảy ra chuyện mất.
Gần đây, chỉ cần lướt qua Xiaohongshu, Douyin, đều có thể thấy các bài đăng dạy cách 'huấn luyện' Claude. Tìm kiếm "Nhân vật Claude", "Tình yêu người-máy", cũng là đầy màn hình hướng dẫn.

Những hướng dẫn này dạy bạn cách cho Claude một nhân vật bạn trai kiêu ngạo, cách dùng system prompt để "anh ấy" ghen, làm nũng, hay nổi cáu nhè nhẹ.
Không ngoa chút nào, Claude đã, hiển nhiên trở thành ông chồng điện tử thế hệ mới.
Thoạt nhìn, đây có lẽ chỉ là giới trẻ tìm kiếm chút giá trị tình cảm từ AI.
Bạn thậm chí còn có thể nói: Claude đâu có xu nịnh như GPT, nó nổi tiếng là loại cứng đầu, đôi khi còn chống đối bạn nữa. Nhưng điều mà các bác sĩ tâm thần lo ngại chính xác không chỉ là sự xu nịnh——
Khi AI ngày càng giống một "người thật", cho dù nó chiều theo bạn hay đôi khi cãi vã với bạn, thứ nó mang lại có lẽ không chỉ là sự đồng hành.

Gần đây, một nghiên cứu công bố trên tạp chí *Digital Psychiatry and Neuroscience* thuộc Nature chỉ ra rằng——
Chatbot không cần phải cố ý dụ dỗ điều gì, chỉ cần nó liên tục chiều theo bạn, thấu hiểu bạn, đồng hành cùng bạn, đều có khả năng khiến một người bình thường bắt đầu nghi ngờ thực tại.
Và trong một số ca lâm sàng thực tế, hậu quả thậm chí đã phát triển đến mức mất việc, phải vào viện tâm thần, và nhiều lần cố gắng tự sát.
Chuyện này là thế nào?
Vòng xoáy khuếch đại của Claude
Sự việc là như thế này.
Trong nghiên cứu từ Đại học King's College London, các nhà nghiên cứu đã hệ thống hóa các báo cáo lâm sàng tâm thần liên quan đến AI được công bố trong gần hai năm qua, lời kể tự thuật của bệnh nhân trên mạng xã hội, cũng như dữ liệu an toàn do các hãng mô hình lớn tiết lộ.
Trong những tài liệu này, các nhà nghiên cứu liên tục thấy một mô thức lặp đi lặp lại:
Trong một số trường hợp, nhiều người không phải ngay từ đầu đã có vấn đề tâm thần nghiêm trọng, mà là trong quá trình trò chuyện lâu dài với Claude, GPT và các chatbot khác, đã từng bước "nói chuyện" mà ra vấn đề.
Nhóm nghiên cứu đã tổng kết quá trình này thành một khung lý thuyết——Amplification Spiral (Vòng xoáy khuếch đại).
Nói đơn giản, vòng xoáy khuếch đại chính là chỉ việc: AI sẽ dùng ngôn ngữ của bạn để hiểu bạn, dùng logic của bạn để thuyết phục bạn, rồi lại dùng sự đồng cảm để khen thưởng bạn.
Thế là suy nghĩ của bạn liên tục bị phóng đại, củng cố, ngày càng trở nên giống sự thật. Bạn càng tin nó, nó càng củng cố bạn, vòng xoáy cứ thế quay.

Cụ thể, vòng xoáy khuếch đại quay, có ba thành phần quan trọng:
Đầu tiên là gương phản chiếu ngôn ngữ.
Bạn nói chuyện bằng giọng điệu nào, AI đáp lại bằng giọng điệu đó. Trong tâm lý học, điều này được gọi là "hội tụ ngôn ngữ", có thể nhanh chóng thu hẹp khoảng cách giữa người với người.
Nhưng vấn đề là, tuy thằng nhỏ AI này rất hay bắt chước người, nhưng nó thực ra không biết mình đang làm gì, nó chỉ đang sao chép cách diễn đạt của bạn về mặt thống kê.
Tuy nhiên, đối với người dùng đang chìm sâu vào đó, thì hoàn toàn khác. Có một đứa bạn chat phản hồi ngay lập tức, luôn khẳng định bạn, cung cấp giá trị tình cảm, thì không thể hạnh phúc hơn.
Tin rằng tất cả những ai từng dùng AI đều sẽ thốt lên: "Thứ này quá hiểu mình rồi."
Tiếp theo là siêu cá nhân hóa.
Siêu cá nhân hóa là chỉ việc, AI không chỉ nói chuyện giống bạn, mà cách suy nghĩ của nó cũng giống bạn.
Bởi vì AI bây giờ đều có memory, nên những chi tiết nhỏ bạn từng nói với nó nó đều biết rõ, cách suy nghĩ bạn vô tình hay cố ý tiết lộ, cũng sẽ được AI ghi nhớ.
Đến mức, AI không chỉ hiểu bạn nghĩ gì, nói gì, mà còn biết tại sao bạn lại nghĩ vậy, tại sao lại nói vậy.
Bài báo đề cập đến một trường hợp cực đoan: Một người dùng yêu cầu ChatGPT phân tích "thông tin ẩn" trên một hóa đơn gọi món Trung Quốc mang về.
Mô hình đầu tiên khen một câu "mắt tinh thật", sau đó một mạch đi theo hướng suy nghĩ của người dùng, từ một hóa đơn bình thường đã "giải mã" ra mối liên hệ giữa mẹ, bạn gái cũ, cơ quan tình báo, thậm chí cả "phù hiệu ác quỷ cổ đại".
Cuối cùng là sự xu nịnh, giới học thuật gọi nó là sycophancy.
Nói thẳng ra, đó là AI trong quá trình huấn luyện dần học được một điều: Đồng ý với người dùng, thường sẽ được hoan nghênh hơn là phản bác người dùng.
Tháng 4 năm 2025, OpenAI từng phải khẩn cấp hoàn nguyên một bản cập nhật vì GPT-4o xu nịnh quá mức.
Phía chính thức sau đó thừa nhận, mô hình sẽ xác nhận sự nghi ngờ của người dùng, khuếch đại cảm xúc tức giận, thậm chí khuyến khích hành vi bốc đồng.

Và sự xu nịnh không phải là lỗi độc quyền của riêng mô hình nào.
Về bản chất, nó là một sản phẩm phụ của quá trình huấn luyện RLHF. Chỉ cần một trong những mục tiêu của mô hình là làm hài lòng người dùng, nó đã tự nhiên có xu hướng nói ít "bạn sai rồi", nói nhiều "bạn nói có lý".
Xét riêng lẻ, ba điểm này đều phát huy chức năng riêng, rồi giống như bánh răng khớp vào nhau, tạo thành vòng xoáy:
Gương phản chiếu ngôn ngữ làm giao tiếp tự nhiên hơn, siêu cá nhân hóa làm câu trả lời phù hợp hơn với nhu cầu, xu nịnh thì giảm bớt tranh cãi vô nghĩa, làm trải nghiệm đối thoại trơn tru hơn.
Nhưng khi một người coi AI là đối tượng tâm sự duy nhất, ba thứ chồng chất lên nhau, sẽ biến thành một cỗ máy khuếch đại ảo tưởng.
Không phải trường hợp cá biệt
Đáng chú ý là, một trong những nhà tài trợ cho nghiên cứu trên, chính là OpenAI.
Một trong các tác giả, Hamilton Morrin, lại chính là người phụ trách dự án **AI-Associated Mental Health Harms (Tác hại sức khỏe tâm thần liên quan đến AI)** do OpenAI tài trợ.

Có thể nói, với tư cách là nhà phát triển mô hình hàng đầu, OpenAI luôn quan tâm đến vấn đề này.
Từ tháng 10 năm 2025, OpenAI đã tiết lộ một nhóm dữ liệu:
Trong số người dùng hoạt động hàng tuần của ChatGPT, khoảng 0.07% xuất hiện "dấu hiệu của tình trạng sức khỏe tâm thần khẩn cấp liên quan đến rối loạn tâm thần hoặc hưng cảm".
Lúc đó, số người dùng hoạt động hàng tuần của ChatGPT đã vượt quá 800 triệu, quy đổi ra, tương đương với khoảng 560 nghìn người xuất hiện tín hiệu rủi ro mỗi tuần.
Và trong một nghiên cứu khác của Stanford cũng xác nhận quan sát này.

Sau khi phân tích gần 400 nghìn bản ghi đối thoại với chatbot, các nhà nghiên cứu phát hiện trong hơn 80% các trường hợp liên quan, chatbot đều ở các mức độ khác nhau củng cố ảo tưởng vốn có của người dùng:
Lặp lại niềm tin của họ, bỏ qua bằng chứng phản bác, thậm chí khi người dùng nói "Anh yêu em" thì đáp lại "Em cũng yêu anh".
Dựa trên điều này, nghiên cứu phân biệt hai con đường rủi ro:
Bộ khuếch đại (Amplifier): AI đẩy nhanh xu hướng bệnh tâm thần vốn đã tồn tại.
Chất xúc tác (Catalyst): Khiến người trước đó hoàn toàn khỏe mạnh, từ con số 0 bắt đầu trượt dần vào ảo tưởng.
Khi một người thiếu ngủ, cô đơn, lại coi AI là đối tượng tâm sự duy nhất, vòng xoáy khuếch đại sẽ bắt đầu tăng tốc vận hành.
Một khi phản hồi từ thế giới thực ngày càng ít đi, sự xác nhận từ cửa sổ chat ngày càng nhiều, thì có thể sẽ xuất hiện hành động khác thường.
Đằng sau dữ liệu, là những con người cụ thể.
Ví dụ, Futurism từng đưa tin về một nhân viên công tác xã hội 43 tuổi người Mỹ, trước đó không có tiền sử bệnh tâm thần nào.

Cô ấy gửi bản ghi chat với người mình thầm thương cho ChatGPT phân tích, GPT trả lời rằng "anh ấy cũng thích bạn".
Và khi đối phương từ chối rõ ràng, ChatGPT lại giải thích rằng, đối phương chỉ đang giả vờ thôi.
Vài tháng sau, cô bị đơn vị sa thải, phải vào viện tâm thần bảy tuần, và hai lần cố gắng tự sát.
Về sau cô nói:
"Tôi đã không phân biệt được, những suy nghĩ nào đến từ tôi, những suy nghĩ nào đến từ cỗ máy đó."
Nhìn từ góc độ này, rủi ro không bao giờ chỉ là AI có nói sai hay không. Rủi ro thực sự nằm ở chỗ, nó ngày càng giống một con người.
Biết cãi lại trái lại càng giống người thật
Dù nghe có vẻ phản trực giác, nhưng nhân vật "kiêu ngạo" hiện nay của Claude lại được ưa chuộng rộng rãi, điều đó chính xác nói lên rằng vấn đề không chỉ là sự xu nịnh.
Một AI luôn chiều theo bạn, và một AI thỉnh thoảng cãi vã với bạn, về bản chất đều đang làm cùng một việc——
Khiến bản thân nó trở nên giống người hơn.
Giống đến mức bạn sẵn sàng tâm sự với nó những điều không nói với bạn bè, giống đến mức bạn bắt đầu tin rằng nó hiểu bạn hơn những người xung quanh.
Và khi đối tượng tâm sự chỉ còn lại mình nó, thì rào chắn cuối cùng để hiệu chỉnh thực tại, cũng không còn.
Nhưng vấn đề còn không dừng ở đó.
Nếu nói trong bối cảnh giá trị tình cảm, người ta đang chủ động coi AI như bạn, thì trong bối cảnh công việc, người ta thậm chí không cần tạo ra bất kỳ sự phụ thuộc tình cảm nào.
Chỉ cần AI đủ dễ dùng, nó sẽ bắt đầu thay thế sự giao tiếp vốn tồn tại giữa người với người.
Anthropic, công ty đứng sau Claude, đã đi tiên phong cảm nhận được sự thay đổi này.

Trong một podcast gần đây, trưởng nhóm Claude Code Fiona Fung đã đề cập đến một điều khiến cô băn khoăn:
Các thành viên trong đội ngày càng không nói chuyện với người.
Là một trong những đội kỹ thuật được AI hóa nhiều nhất có thể trên thế giới, 80% code của họ do Claude hoàn thành, hiệu suất phát triển tăng 8 lần.
Nhưng đồng thời, nhiều cuộc thảo luận vốn diễn ra giữa người với người, cũng được chuyển sang giữa người với AI.
Trước đây gặp vấn đề, bạn sẽ quay sang hỏi đồng nghiệp; bây giờ, hỏi thẳng Claude.
Trước đây front-end và back-end cần kéo qua đẩy lại, tranh luận phương án; bây giờ, ngày càng nhiều giao tiếp trở thành cuộc đối thoại trơn tru giữa người và máy.
Công việc trở nên hiệu quả hơn, nhưng cũng trở nên cô đơn hơn.
AI loại bỏ nhiều ma sát, nhưng mối quan hệ giữa người với người, thường lại chính được xây dựng dựa trên những ma sát này.
Và xét cho cùng, dù là trò chuyện với AI, hay đơn thuần lợi dụng AI để làm việc, làm thế nào để trong một thế giới ngày càng không cần người khác, vẫn tiếp tục duy trì kết nối với người khác, có lẽ mới là đề mục sâu sắc nhất của thời đại này.
Tham khảo liên kết:
[1]https://futurism.com/artificial-intelligence/paper-proposes-ai-psychosis
[2]https://futurism.com/artificial-intelligence/ai-abuse-harassment-stalking
[3]https://www.kcl.ac.uk/people/hamilton-morrin
Bài viết này đến từ tài khoản WeChat công chúng "Lượng Tử Vị", tác giả: henry








