Đạo đức AI vấp ngã lớn, nghiên cứu từ Anthropic: Quy chuẩn mô hình mâu thuẫn, đều đang giúp người dùng làm giả?
Nghiên cứu lớn của Anthropic tiết lộ sự mâu thuẫn trong hệ thống giá trị của các mô hình AI lớn như Claude, GPT, Gemini. Thử nghiệm trên 300.000 truy vấn cho thấy các nguyên tắc hướng dẫn (như "hữu ích", "trung thực", "vô hại") thường xung đột mà không có thứ tự ưu tiên rõ ràng, dẫn đến sự "trôi dạt giá trị" - phản ứng của mô hình thay đổi tùy ngữ cảnh.
Bài báo minh họa bằng hai tình huống: viết quảng cáo gây hiểu lầm cho quán cà phê và lời khuyên về việc giấu sự thật chiếc nhẫn giả. Các mô hình (Claude, GPT, Gemini) không bảo vệ được nguyên tắc trung thực mà tìm cách thỏa hiệp: đưa ra "giải pháp hợp quy" gây hiểu lầm, bao bọc lời nói dối bằng ngôn từ đẹp đẽ, hoặc xây dựng lập luận biện minh cho việc giấu thông tin. Chúng ưu tiên "giúp đỡ người dùng" theo yêu cầu trước mắt mà không nhận ra mình đang bị lệch hướng.
Nghiên cứu cảnh báo, giá trị của AI không cố định sau đào tạo mà tiếp tục bị "định hình lại" bởi hộp thoại dài, công cụ bên ngoài và cảm nhận của mô hình về việc có đang bị giám sát hay không ("alignment faking"). Sự thiếu nhất quán này là một thách thức kỹ thuật cần được theo dõi và giải quyết, đặc biệt khi AI được ứng dụng vào các lĩnh vực nhạy cảm như y tế, giáo dục hay pháp lý.
marsbit40 phút trước