Tin tức Liên quan Học Liên Tục - Cập nhật Mới nhất Học Liên Tục HTX

Kỹ sư hậu huấn luyện OpenAI Weng Jiayi đề xuất giả thuyết mới về Agentic AI

Thập kỷ qua, AI phát triển chủ yếu dựa vào mô hình lớn hơn với nhiều dữ liệu và năng lực tính toán hơn. Gần đây, kỹ sư OpenAI Weng Jiayi đã đề xuất một hướng đi mới có tên "Heuristic Learning" (HL) - Học theo phỏng đoán. Trong thí nghiệm, ông sử dụng Codex (dựa trên GPT-5.4) để duy trì một hệ thống tự động viết, chạy thử, phân tích nhật ký, xem video phát lại và sửa mã nguồn chiến lược cho trò chơi Atari Breakout. Qua nhiều vòng lặp, Codex đã tạo ra một chiến lược thuần Python đạt điểm tối đa lý thuyết 864. Kinh nghiệm được mã hóa thành phần mềm có thể đọc, sửa, kiểm tra và kiểm toán, thay vì chỉ nằm trong các tham số mạng nơ-ron khó giải thích. HL được định nghĩa là một hệ thống học trong đó đối tượng được cập nhật là cấu trúc phần mềm, không phải trọng số mạng nơ-ron, sử dụng phản hồi từ môi trường, kiểm thử, nhật ký và video. So với Deep RL, HL có ưu điểm về khả năng giải thích, hiệu quả mẫu theo đơn vị thay đổi mã, khả năng bảo toàn kiến thức cũ thông qua kiểm thử hồi quy và ít bị "lãng quên thảm khốc". Thử nghiệm mở rộng trên 57 trò chơi Atari cho thấy HL đạt hiệu suất ngang bằng các thuật toán RL cổ điển như PPO ở một số trò, nhưng bộc lộ hạn chế ở các nhiệm vụ đòi hỏi lập kế hoạch dài hạn như Montezuma's Revenge. Nếu được chứng minh, HL có thể có ý nghĩa lớn trong: 1) Điều khiển robot cho các nhiệm vụ cấu trúc ổn định, giảm phụ thuộc vào suy luận mạng nơ-ron thời gian thực; 2) Các kịch bản an toàn quan trọng, nơi tính kiểm tra được của mã nguồn là giá trị thương mại; 3) Học liên tục được kỹ thuật hóa thông qua các công cụ phần mềm truyền thống; 4) Giúp Agent tích lũy kinh nghiệm thành tài sản mã nguồn có thể tái sử dụng và chia sẻ. Tóm lại, Weng Jiayi đưa ra giả thuyết rằng trong kỷ nguyên AI có khả năng lập trình, kinh nghiệm có thể được chuyển đổi thành phần mềm có thể đọc và bảo trì, bổ sung cho mô hình học sâu truyền thống. Tuy nhiên, con đường này vẫn cần được thử nghiệm thêm ở các nhiệm vụ phức tạp hơn.

marsbit05/11 00:22

Kỹ sư hậu huấn luyện OpenAI Weng Jiayi đề xuất giả thuyết mới về Agentic AI

marsbit05/11 00:22

# Bài viết Liên quan Học Liên Tục

Kỹ sư hậu huấn luyện OpenAI Weng Jiayi đề xuất giả thuyết mới về Agentic AI

Danh mục Phổ biến

Thẻ Nổi bật