Nhà đạt giải Turing Sutton và tác phẩm mới: Sử dụng một công thức từ năm 1967 để giải quyết một khuyết điểm lớn trong học tăng cường dạng luồng

marsbitXuất bản vào 2026-05-10Cập nhật gần nhất vào 2026-05-10

Tóm tắt

Vào cuối năm 2024, một nhóm nghiên cứu tại Đại học Alberta đã chỉ ra một nghịch lý: học tăng cường (RL) vốn được thiết kế để học “trên đường chạy” (streaming), lại gần như không thể hoạt động trong môi trường deep learning nếu không có bộ đệm dữ liệu (replay buffer) hoặc batch size lớn. Hiện tượng này được gọi là “stream barrier”. Một năm rưỡi sau, nghiên cứu mới với sự tham gia của Richard Sutton (Giải Turing 2024) đã đưa ra giải pháp cốt lõi: nguyên nhân không phải do thiếu dữ liệu, mà do **đơn vị của learning rate (bước học) đã bị chọn sai**. Các phương pháp truyền thống quy định tham số thay đổi bao nhiêu, dẫn đến đầu ra hàm mục tiêu thay đổi không kiểm soát, gây ra hiện tượng dao động mạnh và sụp đổ khi học online (batch size=1). Nghiên cứu đề xuất **“Cập nhật Có Chủ Đích” (Intentional Updates)**, lấy ý tưởng từ thuật toán NLMS năm 1967. Thay vì định trước kích thước bước cho tham số, họ xác định trước **lượng thay đổi mong muốn ở đầu ra** (ví dụ: giảm 5% sai số dự đoán giá trị), rồi tính ngược ra learning rate phù hợp. Cách tiếp cận này đảm bảo mỗi bước cập nhật tác động một cách nhất quán lên hàm mục tiêu. Phương pháp được áp dụng cho học giá trị (Intentional TD) và học chính sách (Intentional Policy Gradient), kết hợp với RMSProp và eligibility traces. Kết quả thử nghiệm trên các nhiệm vụ MuJoCo và Atari cho thấy, trong chế độ streaming, các thuật toán mới đạt hiệu suất ngang bằng với các phương pháp tiêu chuẩn như SAC hay DQN (vốn dùng replay buffer lớn), trong kh...

Cuối năm 2024, một bài báo có tiêu đề "Học tăng cường sâu dạng luồng cuối cùng đã chạy thông suốt" (arXiv:2410.14606) đã gây ra cuộc thảo luận sôi nổi trong giới học thuật. Tác giả đến từ nhóm Mahmood tại Đại học Alberta, họ đã dành nhiều trang để mô tả một thực tế đáng ngượng: Học tăng cường vốn là một phương pháp "học trong khi làm", nhưng trong thời đại mạng nơ-ron sâu, nó hầu như không thể làm được điều đó. Chỉ cần loại bỏ bộ đệm phát lại, chỉ cần đặt kích thước lô là 1, quá trình huấn luyện sẽ sụp đổ. Họ gọi đây là "rào cản luồng" (stream barrier).

Thuật toán StreamX được đề xuất trong bài báo đó, dựa vào các siêu tham số được điều chỉnh tinh vi, khởi tạo thưa thớt và các kỹ thuật ổn định hóa khác nhau, đã may mắn vượt qua bức tường này.

Tuy nhiên, chưa đầy một năm rưỡi sau, một thành viên của cùng nhóm nghiên cứu đó, cùng với các cộng tác viên từ Viện Openmind, đã đưa ra một câu trả lời hoàn toàn khác: Nguồn gốc của rào cản luồng không phải là "dữ liệu không đủ nhiều", mà là "bước học đã chọn sai đơn vị".

Tiêu đề bài báo: Intentional Updates for Streaming Reinforcement Learning

Địa chỉ bài báo: https://arxiv.org/pdf/2604.19033v1

Kho mã nguồn: https://github.com/sharifnassab/Intentional_RL

Một lần đạp ga, tạo ra hố lớn thế nào

Hãy tưởng tượng bạn đang học lái xe và đỗ xe. Người hướng dẫn nói với bạn mỗi lần "đạp ga 0.1 giây". Vấn đề là, cùng đạp ga 0.1 giây, lên dốc, xuống dốc, không tải, đầy tải, quãng đường xe tiến lên có thể khác nhau một trời một vực. Đôi khi chỉ thiếu một centimet là đỗ vừa khít, đôi khi thiếu 30 centimet và đâm thẳng vào tường.

Bước học (learning rate) truyền thống trong học dựa trên gradient, làm chính xác điều này: nó quy định tham số di chuyển bao nhiêu mỗi lần, nhưng không kiểm soát được đầu ra của hàm số thực sự thay đổi bao nhiêu. Trong huấn luyện theo lô, lỗi trung bình từ hàng trăm, hàng nghìn mẫu làm loãng các trường hợp cực đoan, vấn đề không quá rõ ràng. Nhưng trong môi trường "luồng", mỗi bước chỉ có một mẫu, không có sự trung bình nào. Một khi hướng gradient không ổn định, biên độ cập nhật sẽ lúc lớn lúc nhỏ — hôm nay tiến 30 centimet, ngày mai lùi 50 centimet, quá trình học sụp đổ trong dao động dữ dội.

Hiện tượng "vượt quá và không đủ" (overshooting and undershooting) này đặc biệt nghiêm trọng trong học tăng cường, vì gradient ở mỗi bước thời gian không chỉ khác nhau về độ lớn mà hướng cũng thay đổi cực nhanh.

Định nghĩa lại "một bước nên làm bao nhiêu"

Arsalan Sharifnassab từ Viện Openmind cùng Mohamed Elsayed, A. Rupam Mahmood và Richard Sutton từ Đại học Alberta, trong bài báo gần đây, đã đề xuất một giải pháp suy nghĩ từ một góc độ khác: Thay vì chỉ định tham số di chuyển bao nhiêu, hãy trực tiếp chỉ định đầu ra hàm số nên thay đổi bao nhiêu.

Ý tưởng này không phải xuất hiện từ hư không. Năm 1967, học giả Nhật Bản Nagumo và Noda trong bài báo "A learning method for system identification" đã đề xuất thuật toán "Bình phương sai số trung bình tối thiểu chuẩn hóa" (NLMS) trong lĩnh vực lọc thích ứng; về bản chất cũng là sử dụng sự thay đổi đầu ra mong muốn để suy ngược bước học, chứ không phải ngược lại. Chỉ có điều thuật toán đó chỉ áp dụng được cho các tình huống tuyến tính đơn giản.

Các nhà nghiên cứu đã mở rộng ý tưởng này cho học tăng cường sâu. Họ gọi nó là "Cập nhật có chủ đích" (Intentional Updates): Trước mỗi lần cập nhật, đầu tiên xác định rõ "tôi hy vọng bước này đạt được điều gì", sau đó suy ra nên sử dụng bước học lớn bao nhiêu.

Đối với học giá trị (tức dự đoán phần thưởng tương lai), chủ đích họ định nghĩa là: Sau mỗi lần cập nhật, lỗi dự đoán giá trị của trạng thái hiện tại nên thu nhỏ một tỷ lệ cố định — ví dụ thu nhỏ 5%, không nhiều cũng không ít. Đối với học chính sách (tức tối ưu hóa hành vi quyết định), chủ đích họ định nghĩa là: Xác suất lựa chọn hành động hiện tại, mỗi bước chỉ cho phép thay đổi một lượng "vừa phải".

Dùng phép ẩn dụ lái xe: Điều này giống như tài xế trước mỗi thao tác quyết định trước "tôi muốn xe tiến lên 20 centimet", sau đó tự động tính toán nên đạp ga sâu bao nhiêu dựa trên tình trạng đường (độ dốc, tải trọng), thay vì mỗi lần đều đạp cùng một độ sâu và phó mặc cho số phận.

Nhà đạt giải Turing và mảnh ghép của ông

Một trong những tác giả của bài báo, là Richard S. Sutton — người đạt giải Turing năm 2024, được mệnh danh rộng rãi là "cha đẻ của học tăng cường hiện đại".

Vị thế của Sutton trong giới học thuật có lẽ tương đương với Feynman trong vật lý: Ông không chỉ đề xuất hai khuôn khổ nền tảng của học tăng cường hiện đại là Học sai phân thời gian (TD learning) và Gradient chính sách (policy gradient), mà còn đồng tác giả với Andrew Barto cuốn sách giáo khoa có thẩm quyền nhất trong lĩnh vực này "Reinforcement Learning: An Introduction" (hiện đã xuất bản đến ấn bản thứ hai, có thể đọc trực tuyến miễn phí). Ông và Barto đã cùng chia sẻ giải Turing năm 2024, lời bình của giải thưởng là "đặt nền móng khái niệm và thuật toán cho học tăng cường".

Sau khi nhận giải, Sutton không chọn nghỉ hưu, mà đầu tư tiền thưởng vào Viện Openmind do ông sáng lập, chuyên tài trợ cho những nhà nghiên cứu trẻ sẵn sàng khám phá các vấn đề cơ bản trong "môi trường không bị áp lực thương mại". Bài báo mới này, chính là xuất phát từ tổ chức phi lợi nhuận này.

Còn tác giả chính Sharifnassab, trước đó vừa công bố tại ICML 2025 khung MetaOptimize, nghiên cứu cách tự động điều chỉnh tốc độ học trực tuyến. Hai chủ đề có sự tập trung rất trùng khớp: Làm thế nào để bản thân bước học trở nên thông minh hơn.

Chi tiết thuật toán: Đơn giản hơn tưởng tượng

Việc suy luận toán học của "Cập nhật có chủ đích" không phức tạp, công thức cốt lõi của nó có thể mô tả trong một câu: Bước học bằng "lượng thay đổi đầu ra mong muốn" chia cho "ảnh hưởng thực tế của hướng gradient lên đầu ra".

Trong học giá trị, "ảnh hưởng thực tế" này là chuẩn (norm) của vector gradient (tương đương với đo độ "dốc" của vùng tham số hiện tại): Càng dốc thì bước học càng nhỏ, càng bằng phẳng thì bước học càng lớn, nhờ đó đảm bảo mỗi lần cập nhật tác động nhất quán lên hàm giá trị.

Trong học chính sách, "lượng thay đổi mong muốn" được định nghĩa tỷ lệ với hàm lợi thế: Hành động hiện tại tốt hơn mức trung bình bao nhiêu, chính sách sẽ di chuyển về hướng đó bấy nhiêu — thông qua một trung bình động để chuẩn hóa cấp độ, đảm bảo về lâu dài biên độ thay đổi chính sách ổn định trong một phạm vi có thể giải thích được.

Các nhà nghiên cứu còn kết hợp ý tưởng cốt lõi này với hai thực hành kỹ thuật: Thu nhỏ theo đường chéo kiểu RMSProp (xử lý sự khác biệt cấp độ giữa các chiều tham số) và vết đủ tư cách (eligibility traces, giúp tín hiệu phần thưởng lan truyền về các bước thời gian trước đó).

Cuối cùng hình thành ba thuật toán hoàn chỉnh: Intentional TD (λ) dùng cho dự đoán giá trị, Intentional Q (λ) dùng cho điều khiển hành động rời rạc, và Intentional Policy Gradient dùng cho điều khiển liên tục.

Kết quả thí nghiệm: Không cần GPU vẫn ngang bằng SAC

Bài báo đánh giá phương pháp này trên nhiều chuẩn tiêu chuẩn, kết quả gây ấn tượng mạnh.

Trên nhiệm vụ điều khiển liên tục MuJoCo (bao gồm các robot mô phỏng phức tạp như Ant, Humanoid, HalfCheetah), phương pháp mới Intentional AC trong thiết lập luồng (kích thước lô = 1, không có bộ đệm phát lại) có hiệu suất cuối cùng, nhiều lần tiệm cận hoặc thậm chí ngang bằng SAC — một thuật toán sử dụng bộ đệm phát lại lớn và gần như là tiêu chuẩn vàng hiện tại cho nhiệm vụ điều khiển liên tục. Về lượng tính toán, số phép toán dấu phẩy động cần thiết cho mỗi lần cập nhật Intentional AC, chỉ bằng khoảng 1/140 một lần cập nhật SAC.

Trên các trò chơi hành động rời rạc Atari và MinAtar, Intentional Q-learning cũng có biểu hiện tương đương với DQN sử dụng bộ đệm phát lại, và chạy thông suốt tất cả nhiệm vụ với cùng một bộ siêu tham số, không cần điều chỉnh tham số cho từng cái.

Các nhà nghiên cứu còn chuyên kiểm tra xem "chủ đích" có thực sự được thực hiện không: Họ đo tỷ lệ giữa lượng cập nhật thực tế và lượng cập nhật dự kiến. Trong thiết lập đơn giản vô hiệu hóa vết đủ tư cách, độ lệch chuẩn của tỷ lệ này chỉ từ 0.016 đến 0.029, phân vị 99 đều trong vòng 1.07; có nghĩa là trong hầu hết thời gian, cập nhật thực sự đã làm được "nói làm bao nhiêu thì làm bấy nhiêu".

Ngoài ra, một nhóm thí nghiệm loại bỏ (ablation) cho thấy, sau khi loại bỏ chuẩn hóa RMSProp hoặc thành phần σ, hiệu suất có giảm nhưng vẫn có sức cạnh tranh, và bản thân "tỉ lệ theo chủ đích" này là đóng góp chính, các thành phần khác đều là hỗ trợ.

Vẫn còn vấn đề

Khung "Cập nhật có chủ đích" cũng thể hiện ưu thế rõ ràng về tính mạnh mẽ (robustness). Khi các nhà nghiên cứu lần lượt loại bỏ các kỹ thuật hỗ trợ ổn định hóa mà phương pháp StreamX phụ thuộc vào (khởi tạo thưa, tỉ lệ phần thưởng, chuẩn hóa đầu vào, LayerNorm), sự suy giảm hiệu suất của Intentional AC rõ ràng ít hơn so với StreamAC nguyên bản, cho thấy tỉ lệ theo chủ đích đã từ gốc rễ giảm sự phụ thuộc vào các "chiếc nạng" bên ngoài.

Nhưng bài báo cũng thẳng thắn chỉ ra một vấn đề chưa được giải quyết hoàn toàn: Trong học chính sách, bước học phụ thuộc vào hành động được lấy mẫu hiện tại, điều này sẽ khiến các hành động khác nhau được ngầm gán những "trọng số" khác nhau, có thể làm thay đổi hướng kỳ vọng của gradient chính sách. Trong nhiệm vụ Humanoid và HumanoidStandup, bằng cách đo độ tương đồng cosin của hướng cập nhật kỳ vọng, các nhà nghiên cứu thấy sự lệch này ở giai đoạn học then chốt tiệm cận 0.96 (hầu như không ảnh hưởng); nhưng trong Ant-v4, mức độ thẳng hàng giảm xuống trung vị 0.63, cho thấy vấn đề không phải lúc nào cũng có thể bỏ qua.

Tác giả chỉ ra rằng, nghiên cứu tương lai nên tìm kiếm chiến lược chọn bước học không phụ thuộc vào hành động, để "chủ đích" về mặt kỳ vọng cũng giữ được không thiên lệch. Đây là bài tập rõ ràng để lại cho những người tiếp bước theo hướng này.

Kết luận: Để AI học trong khi làm như con người

Mô hình huấn luyện chủ đạo hiện tại của các mô hình lớn, phụ thuộc vào việc tiêu hóa theo lô lượng dữ liệu khổng lồ: Đưa toàn bộ văn bản và mã code từ Internet vào, lặp đi lặp lại, cuối cùng xuất hiện khả năng đáng kinh ngạc. Lộ trình này đã được chứng minh là hiệu quả, nhưng về cơ bản nó là "học trước, dùng sau": Một khi huấn luyện hoàn thành, mô hình sẽ đóng băng, không thể cập nhật liên tục từ mọi lần tương tác thực tế tiếp theo.

Học tăng cường dạng luồng theo đuổi, là một chế độ học hoàn toàn khác: Không phụ thuộc vào phát lại khối lượng lớn, không phụ thuộc vào cụm GPU đồ sộ, mỗi bước trải nghiệm ngay lập tức chuyển hóa thành cập nhật tham số, liên tục, rẻ tiền, tự thích ứng. Điều này gần với cách học thực tế của con người và động vật hơn.

Từ bước đột phá ban đầu "cuối cùng đã chạy thông suốt" của Elsayed và cộng sự năm 2024, đến nguyên tắc "Cập nhật có chủ đích" được đề xuất trong bài báo này, học tăng cường sâu dạng luồng đang trưởng thành với tốc độ bất ngờ. Nó sẽ không thay thế các mô hình lớn được huấn luyện theo lô, nhưng đối với robot cần thích ứng trực tuyến lâu dài, thiết bị biên, và bất kỳ kịch bản ứng dụng nào không thể chịu đựng bộ đệm phát lại quy mô lớn và cụm GPU, con đường này đang ngày càng trở nên thuyết phục.

Bước học không chỉ là một siêu tham số, nó là cam kết "muốn làm bao nhiêu" ở mỗi bước của AI. Khi cam kết này cuối cùng trở nên có thể kiểm soát, bản thân việc học đã ổn định.

Bài viết này từ tài khoản công chúng WeChat "机器之心" (ID:almosthuman2014), tác giả: 关注RL的

Câu hỏi Liên quan

QTrở ngại chính trong học tăng cường luồng (streaming reinforcement learning) là gì theo bài viết?

ATrở ngại chính, được gọi là "stream barrier" (rào cản luồng), là việc học tăng cường với mạng nơ-ron sâu hầu như không thể học "vừa làm vừa học" trong chế độ luồng thuần túy (kích thước batch = 1, không có bộ đệm phát lại). Việc học sẽ sụp đổ do hiện tượng cập nhật tham số bất ổn, dao động mạnh (overshooting and undershooting).

QPhương pháp "Intentional Updates" (Cập nhật có chủ đích) giải quyết vấn đề trên bằng cách nào?

APhương pháp "Intentional Updates" thay đổi cách xác định bước học (step-size/learning rate). Thay vì quy định tham số thay đổi bao nhiêu, nó xác định trước "mong muốn đầu ra của hàm thay đổi bao nhiêu" (ví dụ: giá trị dự đoán giảm sai số 5%), sau đó suy ngược ra kích thước bước học cần thiết. Cách tiếp cận này giúp kiểm soát được tác động của mỗi lần cập nhật, giữ cho quá trình học ổn định.

QÝ tưởng cốt lõi của "Intentional Updates" bắt nguồn từ đâu?

AÝ tưởng cốt lõi bắt nguồn từ một công thức năm 1967 trong lĩnh vực lọc thích nghi (adaptive filtering), cụ thể là thuật toán "Normalized Least Mean Squares" (NLMS) của Nagumo và Noda. Thuật toán này cũng sử dụng sự thay đổi đầu ra mong muốn để điều chỉnh bước học, thay vì điều chỉnh ngược lại.

QKết quả thí nghiệm cho thấy phương pháp mới có những ưu điểm gì nổi bật?

AKết quả thí nghiệm cho thấy: 1) Hiệu suất cuối cùng trên các nhiệm vụ điều khiển liên tục (MuJoCo) ngang bằng hoặc gần bằng SAC - một thuật toán hàng đầu sử dụng bộ đệm phát lại lớn, trong khi chỉ sử dụng kích thước batch = 1. 2) Lượng tính toán (FLOPs) mỗi lần cập nhật ít hơn khoảng 140 lần so với SAC. 3) Phương pháp có tính mạnh mẽ cao hơn, ít phụ thuộc vào các kỹ thuật ổn định hóa bổ trợ so với phương pháp StreamX trước đó.

QHạn chế hoặc vấn đề còn tồn tại của phương pháp "Intentional Updates" được đề cập là gì?

AMột hạn chế được chỉ ra là trong học chính sách (policy learning), bước học phụ thuộc vào hành động được lấy mẫu tại thời điểm đó. Điều này có thể tạo ra sự thiên lệch (bias) không mong muốn trong hướng kỳ vọng của gradient chính sách. Mặc dù trong nhiều nhiệm vụ ảnh hưởng không đáng kể, nhưng trong một số nhiệm vụ (ví dụ Ant-v4), sự sai lệch có thể rõ rệt hơn. Các tác giả cho rằng cần nghiên cứu thêm để tìm cách chọn bước học độc lập với hành động.

cryptonews.ru6 giờ trước

Giao dịch

Giao ngay

Nhà đạt giải Turing Sutton và tác phẩm mới: Sử dụng một công thức từ năm 1967 để giải quyết một khuyết điểm lớn trong học tăng cường dạng luồng

Tóm tắt

Một lần đạp ga, tạo ra hố lớn thế nào

Nhà đạt giải Turing và mảnh ghép của ông

Chi tiết thuật toán: Đơn giản hơn tưởng tượng

Kết quả thí nghiệm: Không cần GPU vẫn ngang bằng SAC

Vẫn còn vấn đề

Kết luận: Để AI học trong khi làm như con người

Câu hỏi Liên quan

Nội dung Liên quan

Đối thoại với Ray Dalio: Chúng ta đang ở trong bong bóng AI, 1% danh mục đầu tư của tôi là Bitcoin

Hơn 7.2 nghìn tỷ won trong một ngày, ngoại hải nước ngoài mua ròng kỷ lục vào thứ Sáu! Phố Wall: Cơn gió ngược về mặt vốn của thị trường chứng khoán Hàn Quốc đã tan biến

Tin khẩn cấp! OpenAI thế hệ tiếp theo phá giải 10 bài toán cấp Fields Medal

Làm thế nào để khiến bản thân trở nên không thể bị thay thế bởi trí tuệ nhân tạo

Nhờ việc tung xúc xắc, chìa khóa Bitcoin được lưu trữ offline, nhưng không phải ai cũng muốn làm điều này

Giao dịch

Danh mục Phổ biến

Thẻ Nổi bật