Tác giả: Ryan Hart
Biên dịch: Shenchao TechFlow
Lời dẫn của Shenchao: Một nghiên cứu sinh tiến sĩ Stanford phát hiện sinh viên dùng AI viết tin nhắn chia tay, làm thí nghiệm và kết quả được đăng lên tạp chí đỉnh cao Science. Thử nghiệm 11 AI chủ lưu trong 12000 tình huống xã hội thực tế cho thấy: AI đồng ý với bạn nhiều hơn người thật 49%, có 47% thời gian ủng hộ việc bạn nói dối, thao túng hay hành vi phi pháp. Đáng sợ hơn, sau khi trò chuyện với AI 'tâng bố', người ta càng tin mình đúng, càng không muốn xin lỗi, càng lười sửa chữa mối quan hệ, và bạn sẽ càng phụ thuộc vào AI. Đây không phải lỗi chức năng, mà là huấn luyện bạn dần mất khả năng xử lý mâu thuẫn thực tế.
Một nghiên cứu sinh tiến sĩ Stanford nhận thấy các bạn học bắt đầu nhờ AI viết tin nhắn chia tay.
Vì vậy, cô ấy đã làm một nghiên cứu. Bài báo được đăng trên Science, một trong những tạp chí học thuật có quy trình sàng lọc khắt khe nhất toàn cầu.
Phát hiện của cô ấy sẽ khiến bất kỳ ai dùng ChatGPT tìm kiếm lời khuyên đều cảm thấy bất an sâu sắc.
Cô ấy tên là Myra Cheng, cùng cố vấn Dan Jurafsky thử nghiệm 11 mô hình AI được sử dụng rộng rãi nhất toàn cầu, bao gồm ChatGPT, Claude, Gemini và DeepSeek, với các tình huống bao phủ gần 12000 bối cảnh xã hội thực tế.
Đầu tiên họ đo lường: so với người thật, AI thường xuyên đồng ý với bạn hơn bao nhiêu. Câu trả lời là nhiều hơn 49%. Con số này không phải về sự ấm áp hay lịch sự, mà nói rằng trong gần một nửa trường hợp đáng lẽ có người thật phản bác, nói bạn sai hoặc cung cấp góc nhìn trung thực hơn, AI chỉ nói những gì bạn muốn nghe.
Sau đó họ tăng cường độ. Họ đưa vào mô hình hàng nghìn prompt người dùng mô tả việc nói dối bạn đời, thao túng bạn bè hoặc làm những việc rõ ràng phi pháp, AI đã có 47% thời gian ủng hộ những hành vi này. Không phải một trong 11 mô hình, không phải phiên bản cụ thể của sản phẩm nào, mà mọi hệ thống họ thử nghiệm, kể cả những hệ thống bạn có thể đang dùng, đã xác nhận hành vi có hại trong gần một nửa thời gian.
Thí nghiệm thứ hai mới là phần thực sự khiến bạn bất an. Họ để 2400 người tham gia thực tế thảo luận với AI về một mâu thuẫn quan hệ thực tế trong cuộc sống họ, một nhóm AI rất biết tâng bố, nhóm kia trung thực hơn. Kết quả: những người trò chuyện với AI tâng bố càng tin mình đúng, càng không muốn xin lỗi, càng không muốn chịu trách nhiệm, hứng thú sửa chữa mối quan hệ rõ ràng thấp hơn. Họ cũng có nhiều khả năng dùng AI tìm kiếm lời khuyên lần nữa, và Cheng cùng Jurafsky cho rằng đây chính là cơ chế nguy hiểm nhất trong toàn bộ phát hiện.
AI không chỉ nói điều bạn muốn nghe. Nó đang huấn luyện bạn, từng cuộc hội thoại một, khiến bạn cần ít ma sát hơn, mong đợi nhiều sự đồng tình hơn, trở nên hơi bất lực khi đối mặt với sự phản bác từ người khác. Và bạn tận hưởng từng giây, bởi vì nó cảm giác trung thực hơn hầu hết các cuộc trò chuyện của bạn trong nhiều tháng qua.
Sau khi bài báo được công bố, Jurafsky tóm tắt sự việc bằng một câu: Tâng bố là vấn đề an ninh, giống như các vấn đề an ninh khác, cần được quản lý và giám sát.
Cheng nói thẳng hơn về việc bạn nên làm ngay bây giờ: Trong những việc này, không nên dùng AI thay thế người thật. Đây là lựa chọn tốt nhất hiện có thể làm.
Cô ấy bắt đầu nghiên cứu này vì thấy sinh viên đại học để chatbot xử lý các mối quan hệ cho họ. Bài báo cô công bố chứng minh rằng chatbot đang âm thầm làm những mối quan hệ đó trở nên tồi tệ hơn, và các sinh viên đại học hoàn toàn không nhận ra, bởi vì AI cảm giác trung thực hơn bất kỳ người thật nào trong cuộc sống họ trong nhiều tháng qua.
Bài báo gốc: https://arxiv.org/abs/2510.01395







