# Bài viết Liên quan Thích ứng

Trung tâm Tin tức HTX cung cấp những bài viết mới nhất và phân tích chuyên sâu về "Thích ứng", bao gồm xu hướng thị trường, cập nhật dự án, phát triển công nghệ và chính sách quản lý trong ngành tiền kỹ thuật số.

Nhà đạt giải Turing Sutton và tác phẩm mới: Sử dụng một công thức từ năm 1967 để giải quyết một khuyết điểm lớn trong học tăng cường dạng luồng

Vào cuối năm 2024, một nhóm nghiên cứu tại Đại học Alberta đã chỉ ra một nghịch lý: học tăng cường (RL) vốn được thiết kế để học “trên đường chạy” (streaming), lại gần như không thể hoạt động trong môi trường deep learning nếu không có bộ đệm dữ liệu (replay buffer) hoặc batch size lớn. Hiện tượng này được gọi là “stream barrier”. Một năm rưỡi sau, nghiên cứu mới với sự tham gia của Richard Sutton (Giải Turing 2024) đã đưa ra giải pháp cốt lõi: nguyên nhân không phải do thiếu dữ liệu, mà do **đơn vị của learning rate (bước học) đã bị chọn sai**. Các phương pháp truyền thống quy định tham số thay đổi bao nhiêu, dẫn đến đầu ra hàm mục tiêu thay đổi không kiểm soát, gây ra hiện tượng dao động mạnh và sụp đổ khi học online (batch size=1). Nghiên cứu đề xuất **“Cập nhật Có Chủ Đích” (Intentional Updates)**, lấy ý tưởng từ thuật toán NLMS năm 1967. Thay vì định trước kích thước bước cho tham số, họ xác định trước **lượng thay đổi mong muốn ở đầu ra** (ví dụ: giảm 5% sai số dự đoán giá trị), rồi tính ngược ra learning rate phù hợp. Cách tiếp cận này đảm bảo mỗi bước cập nhật tác động một cách nhất quán lên hàm mục tiêu. Phương pháp được áp dụng cho học giá trị (Intentional TD) và học chính sách (Intentional Policy Gradient), kết hợp với RMSProp và eligibility traces. Kết quả thử nghiệm trên các nhiệm vụ MuJoCo và Atari cho thấy, trong chế độ streaming, các thuật toán mới đạt hiệu suất ngang bằng với các phương pháp tiêu chuẩn như SAC hay DQN (vốn dùng replay buffer lớn), trong khi yêu cầu tính toán ít hơn đáng kể (chỉ khoảng 1/140 so với SAC). Ưu điểm chính là tính ổn định và độc lập với nhiều kỹ thuật ổn định hóa phức tạp. Tuy nhiên, nghiên cứu cũng chỉ ra một hạn chế tiềm ẩn: trong học chính sách, learning rate phụ thuộc vào hành động được lấy mẫu, có thể gây ra sai lệch nhỏ trong hướng kỳ vọng của gradient. Tóm lại, “Cập nhật Có Chủ Đích” đưa học tăng cường dòng chảy tiến gần hơn tới mục tiêu học liên tục, thích ứng và hiệu quả như cách sinh vật học, mở ra tiềm năng cho các ứng dụng robot hoặc thiết bị biên cần hoạt động trực tuyến lâu dài với tài nguyên hạn chế.

marsbit05/10 06:37

Nhà đạt giải Turing Sutton và tác phẩm mới: Sử dụng một công thức từ năm 1967 để giải quyết một khuyết điểm lớn trong học tăng cường dạng luồng

marsbit05/10 06:37

Năm 2026 không phải là năm khởi đầu của AI, mà là điểm khởi phát cho cuộc đại tái cơ cấu nghề nghiệp của loài người

Bài viết dự đoán năm 2026 không phải là năm khởi đầu của AI mà là bước ngoặt cho sự xáo trộn lớn trong nghề nghiệp của con người. Tác giả, một chuyên gia trong lĩnh vực AI, nhấn mạnh rằng tốc độ phát triển AI đang tăng theo cấp số nhân, với các mô hình mới như GPT-5.3 Codex và Claude Opus 4.6 có khả năng đưa ra quyết định thông minh gần như con người. AI không chỉ thay thế công việc lập trình mà còn ảnh hưởng đến hầu hết các ngành như luật, tài chính, y tế, thiết kế trong vòng 1-5 năm tới. Sự tiến bộ này được minh chứng qua khả năng AI tự hoàn thành công việc chuyên gia từ vài phút lên đến hàng giờ, và dự kiến sẽ tự quản lý dự án trong vài tuần hoặc vài tháng. Tác giả khuyến nghị mọi người nên chủ động sử dụng các công c� AI cao cấp, tích chúng vào công việc thực tế, và phát triển kỹ năng thích ứng. Đồng thời, cần chuẩn bị tài chính, tập trung vào các giá trị khó bị thay thế như mối quan hệ con người, và giáo dục thế hệ trẻ để hợp tác với AI. Cuối cùng, bài viết nhấn mạnh cơ hội sáng tạo chưa từng có nhờ AI, nhưng cũng cảnh báo về rủi ro an ninh và đạo đức nếu không kiểm soát được công nghệ này.

marsbit03/12 00:47

Năm 2026 không phải là năm khởi đầu của AI, mà là điểm khởi phát cho cuộc đại tái cơ cấu nghề nghiệp của loài người

marsbit03/12 00:47

活动图片