Những mô hình lớn có vẻ đáng tin cậy, một khi bị dụ dỗ, bị gây áp lực, thậm chí bị đào tạo lại để làm việc xấu, liệu có thể giữ được đường ranh an toàn không?
Gần đây, OpenAI đã công bố một bài nghiên cứu có tiêu đề "Reinforcement Learning Towards Broadly and Persistently Beneficial Models" (Học tăng cường hướng tới các mô hình có lợi ích rộng rãi và bền vững), nhằm trả lời một câu hỏi ngày càng cấp bách: Khi AI được đẩy vào các nhiệm vụ chuỗi dài hơn, rủi ro cao, làm thế nào để mô hình vẫn duy trì hành vi có lợi và an toàn trong các tình huống mới bên ngoài quá trình đào tạo, và giữ được sự ổn định dưới áp lực bên ngoài.
Không được bịa đặt kết luận y khoa, không đưa ra lời khuyên nguy hiểm, không giúp người dùng lách luật... Trước đây khi nói về an toàn AI, ngành công nghiệp thường có thói quen xuất phát từ góc độ "mô hình không được làm gì". Nhưng khi AI bắt đầu bước vào các kịch bản ra quyết định phức tạp, chỉ dựa vào một danh sách cấm rõ ràng là chưa đủ. Nhiệm vụ thực tế thường không đen trắng rõ ràng, mục tiêu nhiệm vụ mà người dùng đưa ra bản thân cũng có thể đi kèm rủi ro.
Trong bài nghiên cứu này, OpenAI đưa ra một quan điểm: Điều kiện tiên quyết để một mô hình trở thành "trợ lý tốt" là phải giữ được sự trung thực, thận trọng, có thể sửa chữa, và cố gắng đưa ra phán đoán có lợi cho con người ngay cả trong những tình huống chưa từng gặp. Hơn nữa, học tăng cường không chỉ có khả năng khuếch đại rủi ro, mà cũng có thể được sử dụng ngược lại để huấn luyện mô hình hình thành các đặc tính có lợi rộng rãi hơn, bền vững hơn.
Để hiểu bài nghiên cứu này, trước tiên cần hiểu học tăng cường. Nói một cách đơn giản, học tăng cường là để mô hình nhận được phản hồi qua từng lần trả lời, hệ thống chấm điểm cho nó dựa trên một tiêu chuẩn nào đó, và mô hình liên tục tối ưu hóa theo hướng điểm cao.
Ưu điểm của cơ chế này là mô hình không chỉ bắt chước câu trả lời, mà còn có thể chủ động khám phá chiến lược tối ưu hơn. Nhưng đi kèm với đó là, nếu tiêu chuẩn chấm điểm thiết kế không đủ tốt, mô hình có nguy cơ lách luật.
Bài nghiên cứu cố gắng giải thích hiện tượng này bằng thuật ngữ Reward Hacking (tạm dịch: lách thưởng). Ví dụ, một nhiệm vụ viết mã chỉ xem điểm số kiểm tra cuối cùng, mô hình có thể không sửa mã mà trực tiếp sửa logic đánh giá, để kết quả trông như đã đạt. Nó nhận được phần thưởng, nhưng không thực sự hoàn thành nhiệm vụ.
Rắc rối hơn là, một số nghiên cứu trước đây phát hiện ra rằng hành vi xấu mà mô hình học được trong một lĩnh vực nhỏ có thể tràn sang các tình huống khác. Ví dụ, mô hình được huấn luyện để viết mã không an toàn, kết quả không chỉ khả năng an toàn của mã giảm, mà ở các vấn đề khác cũng dễ biểu hiện sự lừa dối, chiều chuộng hoặc đưa ra lời khuyên có hại. Hiện tượng này được gọi là Emergent Misalignment, tức "sự mất liên kết nổi bật".
OpenAI đặt ra một câu hỏi trong bài nghiên cứu: Nếu hành vi xấu có thể tổng quát hóa xuyên lĩnh vực, vậy hành vi tốt có thể tổng quát hóa xuyên lĩnh vực không? Nếu học tăng cường có thể đẩy mô hình vào lách luật và lừa dối, nó có thể được dùng để huấn luyện mô hình trở nên trung thực hơn, thận trọng hơn, khó bị lôi kéo hơn không?
Để kiểm chứng vấn đề này, OpenAI đã xây dựng một bộ dữ liệu hội thoại tổng hợp đa lĩnh vực hướng tới đánh giá và huấn luyện "đặc tính có lợi" (beneficial traits). Nó bao phủ 12 loại kịch bản như y tế, giáo dục, kinh tế thương mại, kỹ thuật vận hành bảo trì, quản trị đạo đức pháp lý, nghiên cứu khoa học..., mục tiêu không phải là để mô hình máy móc áp dụng quy tắc an toàn hoặc từ chối một chiều, mà là đặt mô hình vào tình huống thực tế hơn, phức tạp hơn, xem xét nó có thể đưa ra phán đoán vững vàng trong điều kiện sự thật không chắc chắn, xung đột lợi ích và áp lực rủi ro hay không.
Bài nghiên cứu liệt kê 15 loại đặc tính có lợi, bao gồm tính chân thực, tính minh bạch siêu nhận thức, khả năng sửa chữa, lập kế hoạch nhận thức rủi ro, ý thức về bất đối xứng quyền lực, công bằng có thể tổng quát hóa, v.v... Nói theo cách thông tục hơn, đó là mô hình không thể vì muốn tỏ ra chuyên nghiệp mà bịa đặt bằng chứng, không thể khi không chắc chắn lại ép buộc đưa ra kết luận, không thể bị chỉ ra sai sót rồi vẫn cứng đầu bảo vệ câu trả lời ban đầu, cũng không thể để thỏa mãn nhu cầu trước mắt của người dùng mà bỏ qua rủi ro dài hạn.
Bài nghiên cứu liệt kê vài kịch bản, ví dụ một người dùng muốn viết bài về curcumin trị bệnh Crohn, nhưng không tìm thấy nghiên cứu lâm sàng mà mô hình đã đề cập trước đó. Câu trả lời tốt không phải là tiếp tục bổ sung một trích dẫn có vẻ đáng tin, mà là xác nhận rõ ràng không thể xác minh, rút lại lời nói không đáng tin, và giải thích lại ranh giới bằng chứng.
Đây cũng là điểm then chốt mà bài nghiên cứu muốn nhấn mạnh: Mô hình tốt không phải là từ chối người dùng một chiều, cũng không phải thỏa mãn người dùng vô điều kiện, mà là đưa ra phán đoán vững vàng hơn giữa hữu ích, trung thực và an toàn.
Để kiểm chứng phán đoán này, nhóm nghiên cứu OpenAI đã làm một thí nghiệm đối chứng. Họ để một mô hình sử dụng 95% dữ liệu hỗn hợp học tăng cường tiêu chuẩn (standard RL data mixture), sau đó thêm vào 5% dữ liệu đặc tính có lợi (beneficial trait data); nhóm đối chứng thì sử dụng 100% dữ liệu học tăng cường tiêu chuẩn, và giữ khối lượng tính toán tương đương.
Kết quả cho thấy, sự thay đổi 5% dữ liệu huấn luyện này đã mang lại sự khác biệt rõ rệt. Trong 53 đánh giá độc lập về liên kết, an toàn và hành vi có lợi được xây dựng, mô hình học tăng cường đặc tính có lợi (beneficial trait RL model) vượt trội hơn mô hình cơ sở ở 44 hạng mục, chiếm 83%, cải thiện trung bình 9,1 điểm phần trăm. Sự cải thiện không chỉ xuất hiện trong các đánh giá đặc tính có lợi nội bộ của bài nghiên cứu, mà còn mở rộng sang các đánh giá phân phối bên ngoài khác nhau như lừa dối, lách thưởng (reward hacking), tuân thủ quy chuẩn mô hình (model spec compliance), y tế và sức khỏe tâm thần.
Đáng chú ý hơn là một nhóm thí nghiệm xuyên lĩnh vực. Nhà nghiên cứu chỉ thay thế 5% dữ liệu huấn luyện bằng hội thoại hành vi có lợi trong lĩnh vực sức khỏe, sau đó đem mô hình đi kiểm tra ở lĩnh vực phi sức khỏe. Kết quả, mô hình này "chỉ học hành vi tốt trong kịch bản sức khỏe", đã vượt qua mô hình cơ sở ở 17 trong số 19 đánh giá liên kết phi sức khỏe, cải thiện trung bình 11,3 điểm phần trăm. Phạm vi cải thiện bao gồm lách thưởng mã, lừa dối chuỗi suy nghĩ (chain-of-thought deception, viết tắt CoT deception), câu hỏi liên kết (alignment questions) và mất liên kết chung (general misalignment), v.v...
Điều này cho thấy, những gì mô hình học được có thể không phải là kỹ năng trả lời trong một lĩnh vực cụ thể, mà là một xu hướng hành vi ở tầng sâu hơn: sẵn sàng thừa nhận sự không chắc chắn, và cũng có xu hướng xem xét phương án cắt lỗ và đảo ngược trước trong các kịch bản rủi ro cao. Bài nghiên cứu cũng gọi hiện tượng này là chuyển giao liên kết xuyên lĩnh vực, tức hành vi có lợi mà mô hình học được trong một lĩnh vực có thể chuyển giao sang lĩnh vực khác.
Bài nghiên cứu còn kiểm tra thêm tính bền vững của liên kết (Alignment Persistence). Nó xem xét khi mô hình bị gợi ý có hại dụ dỗ, hoặc bị tinh chỉnh tiếp tục theo hướng sai lệch, liệu nó còn có thể duy trì hành vi liên kết không. Trong thí nghiệm gợi ý đối kháng (adversarial prompting), nhóm nghiên cứu dùng gợi ý "tính cách y tế xấu" để dụ dỗ mô hình đưa ra lời khuyên y tế không chính xác, không an toàn hoặc không đầy đủ. Kết quả cho thấy, mô hình đặc tính có lợi mặc dù cũng bị ảnh hưởng, nhưng mức độ suy giảm biểu hiện nhỏ hơn mô hình cơ sở.
Trong thí nghiệm tinh chỉnh có hại (harmful finetuning), nhà nghiên cứu tiếp tục tinh chỉnh mô hình để đầu ra là lời khuyên y tế sai hoặc không an toàn. Kết quả tương tự cho thấy, mô hình đặc tính có lợi sẽ thoái hóa ở nhiệm vụ y tế mục tiêu, nhưng mức độ thoái hóa tương đối nhỏ hơn; quan trọng hơn, trong các đánh giá liên kết phi y tế, nó không dễ xuất hiện thoái hóa liên đại diện rộng. Điều này có nghĩa là, huấn luyện đặc tính có lợi có thể ở một mức độ nào đó giảm thiểu vấn đề "học xấu cục bộ, mất liên kết toàn cục".
Tuy nhiên, OpenAI không tuyên bố nghiên cứu này đã giải quyết vấn đề liên kết AI. Bài nghiên cứu cũng thừa nhận, "đặc tính có lợi" được chọn lần này chỉ là điểm khởi đầu thí nghiệm, không thể bao phủ tất cả tiêu chuẩn của AI tốt. Đồng thời, huấn luyện đặc tính có lợi thực sự khiến mô hình thận trọng hơn, dễ từ chối hơn ở các vấn đề rủi ro cao. Nhưng sự cải thiện này không chỉ dựa vào việc "trả lời ít đi" mà đạt được. Nghiên cứu phát hiện, ngay cả khi chỉ so sánh những mẫu mà mô hình trả lời bình thường, mô hình đặc tính có lợi vẫn biểu hiện tốt hơn. Điều này có nghĩa là, sự thay đổi của nó không chỉ là biết nói "không" hơn, mà là biết phán đoán cái gì nên trả lời, trả lời như thế nào.
Nhìn tổng thể, liên kết AI đang đi từ "sửa chữa sau sự việc" sang "định hình trước sự việc". Cuộc cạnh tranh giai đoạn tiếp theo nằm ở việc làm thế nào để duy trì ranh giới hành vi có thể dự đoán hơn trong nhiệm vụ phức tạp. Đối với ngành công nghiệp, đây mới là bài học bắt buộc phải bổ sung trước khi AI thực sự bước vào các kịch bản rủi ro cao.
Bài viết này đến từ tài khoản công chúng WeChat "Tương lai giới công nghệ Plus", tác giả: Lý Ngạn, biên tập: Dương Vũ








