Tin tức Liên quan Kích thước Bước - Cập nhật Mới nhất Kích thước Bước HTX

Nhà đạt giải Turing Sutton và tác phẩm mới: Sử dụng một công thức từ năm 1967 để giải quyết một khuyết điểm lớn trong học tăng cường dạng luồng

Vào cuối năm 2024, một nhóm nghiên cứu tại Đại học Alberta đã chỉ ra một nghịch lý: học tăng cường (RL) vốn được thiết kế để học “trên đường chạy” (streaming), lại gần như không thể hoạt động trong môi trường deep learning nếu không có bộ đệm dữ liệu (replay buffer) hoặc batch size lớn. Hiện tượng này được gọi là “stream barrier”. Một năm rưỡi sau, nghiên cứu mới với sự tham gia của Richard Sutton (Giải Turing 2024) đã đưa ra giải pháp cốt lõi: nguyên nhân không phải do thiếu dữ liệu, mà do **đơn vị của learning rate (bước học) đã bị chọn sai**. Các phương pháp truyền thống quy định tham số thay đổi bao nhiêu, dẫn đến đầu ra hàm mục tiêu thay đổi không kiểm soát, gây ra hiện tượng dao động mạnh và sụp đổ khi học online (batch size=1). Nghiên cứu đề xuất **“Cập nhật Có Chủ Đích” (Intentional Updates)**, lấy ý tưởng từ thuật toán NLMS năm 1967. Thay vì định trước kích thước bước cho tham số, họ xác định trước **lượng thay đổi mong muốn ở đầu ra** (ví dụ: giảm 5% sai số dự đoán giá trị), rồi tính ngược ra learning rate phù hợp. Cách tiếp cận này đảm bảo mỗi bước cập nhật tác động một cách nhất quán lên hàm mục tiêu. Phương pháp được áp dụng cho học giá trị (Intentional TD) và học chính sách (Intentional Policy Gradient), kết hợp với RMSProp và eligibility traces. Kết quả thử nghiệm trên các nhiệm vụ MuJoCo và Atari cho thấy, trong chế độ streaming, các thuật toán mới đạt hiệu suất ngang bằng với các phương pháp tiêu chuẩn như SAC hay DQN (vốn dùng replay buffer lớn), trong khi yêu cầu tính toán ít hơn đáng kể (chỉ khoảng 1/140 so với SAC). Ưu điểm chính là tính ổn định và độc lập với nhiều kỹ thuật ổn định hóa phức tạp. Tuy nhiên, nghiên cứu cũng chỉ ra một hạn chế tiềm ẩn: trong học chính sách, learning rate phụ thuộc vào hành động được lấy mẫu, có thể gây ra sai lệch nhỏ trong hướng kỳ vọng của gradient. Tóm lại, “Cập nhật Có Chủ Đích” đưa học tăng cường dòng chảy tiến gần hơn tới mục tiêu học liên tục, thích ứng và hiệu quả như cách sinh vật học, mở ra tiềm năng cho các ứng dụng robot hoặc thiết bị biên cần hoạt động trực tuyến lâu dài với tài nguyên hạn chế.

marsbit05/10 06:37

Nhà đạt giải Turing Sutton và tác phẩm mới: Sử dụng một công thức từ năm 1967 để giải quyết một khuyết điểm lớn trong học tăng cường dạng luồng

marsbit05/10 06:37

# Bài viết Liên quan Kích thước Bước

Nhà đạt giải Turing Sutton và tác phẩm mới: Sử dụng một công thức từ năm 1967 để giải quyết một khuyết điểm lớn trong học tăng cường dạng luồng

Danh mục Phổ biến

Thẻ Nổi bật

Bitcoin

Khác