Dwarkesh Patel: Thế hệ AI tiếp theo có thể được tạo ra từ công việc thực tế
Bài viết trình bày phân tích của Dwarkesh Patel về hướng phát triển tiếp theo của AI, vượt ra ngoài khuôn khổ "Huấn luyện Củng cố với Phần thưởng có thể Xác minh" (RLVR) hiện tại. Ông chỉ ra rằng RLVR thành công trong các lĩnh vực như viết mã, toán học vì chúng có tính "có thể mài mòn" cao - dễ dàng nhân bản, thiết lập lại và kiểm tra song song. Tuy nhiên, nhiều nhiệm vụ thế giới thực như khởi nghiệp, vận động tranh cử hay nghiên cứu khoa học lại thiếu các thuộc tính này, khiến việc huấn luyện trở nên khó khăn.
Điểm mấu chốt mà Patel đưa ra là sự cần thiết phải chuyển từ mô hình chỉ huấn luyện trước khi triển khai sang khả năng học tập liên tục từ kinh nghiệm triển khai thực tế. Ông cho rằng kiến thức giá trị nhất thường nảy sinh từ tương tác thực, lỗi thực và bối cảnh cụ thể, nhưng hiện tại việc học ngữ cảnh (in-context learning) của các mô hình lớn chỉ là tạm thời và không lưu lại trọng số.
Bài viết đề xuất hai hướng tiếp cận chính cho mô hình học tập tiếp theo:
1. **Tự chưng cất theo chính sách (OPSD):** Nén kiến thức mà một mô hình đã học được trong một phiên làm việc dài (như một "nhân viên kỳ cựu") trở lại trọng số của mô hình cơ sở.
2. **Mơ mộng (Dreaming):** Mô hình tự xây dựng môi trường mô phỏng dựa trên quan sát thế giới thực để luyện tập và thử nghiệm chiến lược, sau đó nén kinh nghiệm thu được.
Tầm nhìn cuối cùng là một quy trình huấn luyện mới: AI đầu tiên đạt được năng lực cơ bản thông qua RLVR, sau đó được triển khai để thực hiện công việc thực. Kinh nghiệm tích lũy từ các nhiệm vụ thực này, thông qua các cơ chế như OPSD, sẽ liên tục được tinh chỉnh trở lại mô hình, biến mỗi lần tương tác của người dùng thành cơ hội học tập. Tương lai của AI có thể phụ thuộc vào dữ liệu huấn luyện do chính nó tạo ra từ kinh nghiệm thực tế, hơn là chỉ từ dữ liệu có sẵn trên internet hay các nhiệm vụ được xây dựng sẵn trong phòng thí nghiệm.
marsbit2 giờ trước