Dwarkesh Patel, người dẫn chương trình podcast công nghệ nổi tiếng ở Thung lũng Silicon, gần đây đã đặt ra một câu hỏi: Phương thức huấn luyện tiếp theo cho AI sẽ là gì?

Dwarkesh Patel là người dẫn chương trình podcast và nhà văn công nghệ nổi lên nhanh chóng ở Thung lũng Silicon trong vài năm gần đây, mới 25 tuổi nhưng đã thâm nhập vào vòng tròn lõi của các cuộc thảo luận về AI nhờ Dwarkesh Podcast. Những người ông phỏng vấn bao gồm Ilya Sutskever, Andrej Karpathy, Dario Amodei, Demis Hassabis, Mark Zuckerberg và nhiều nhân vật hàng đầu khác trong lĩnh vực AI và công nghệ. TIME đã liệt kê ông vào danh sách TIME100 AI năm 2024, cho rằng podcast của ông đã trở thành nội dung nghe quan trọng của nhiều người làm việc trong lĩnh vực AI.

Trong tập podcast mới nhất, ông tóm tắt hướng đi mà các phòng thí nghiệm AI tiên phong hiện nay đang đặt cược vào bằng một từ khóa: RLVR, tức là Reinforcement Learning with Verifiable Rewards (Học Tăng Cường với Phần Thưởng Có Thể Xác Minh).
Nói một cách đơn giản, đó là để mô hình thử và sai lặp đi lặp lại trong một loạt nhiệm vụ có thể tự động đánh giá đúng sai, từ đó huấn luyện ra khả năng lập kế hoạch, sửa lỗi, lặp lại và thực thi dài hạn. Những tiến bộ nhanh chóng ngày nay trong lĩnh vực mã code, toán học, phần lớn đều đến từ cách suy nghĩ này.
Nhưng điều Dwarkesh thực sự muốn hỏi là: Nếu thế hệ AI tiếp theo chỉ dựa vào loại "huấn luyện nhiệm vụ có thể xác minh" này, có đủ không?
Câu trả lời của ông là: Có lẽ là không đủ.
Bởi vì một nhiệm vụ chỉ "có thể xác minh" là chưa đủ, nó còn phải "có thể luyện" được.
Khái niệm chính ở đây là grindability, khả năng có thể mài giũa (hoặc trong ngữ cảnh huấn luyện AI, có thể hiểu là "tính chất có thể luyện tập lặp lại"). Trong ngữ cảnh huấn luyện AI, đó là "khả năng làm đi làm lại bài tập" hay "khả năng triển khai quy mô lớn".
Nhiệm vụ về mã code là một nhiệm vụ điển hình có thể "luyện" được. Bạn có thể chuẩn bị một kho lưu trữ phần mềm, một lỗi cần sửa, một bộ kiểm thử, sau đó sao chép cùng một môi trường đó thành hàng ngàn bản, để hàng ngàn agent thử cùng một lúc. Agent nào vượt qua kiểm thử thì được điểm. Quá trình này có thể thực hiện song song, tái tạo, đặt lại, đặc biệt phù hợp với RLVR.
Bài toán toán học cũng tương tự. Có thể xác minh đáp án đúng hay sai, môi trường huấn luyện cũng dễ sao chép.
Nhưng Dwarkesh đặt ra một câu hỏi rất thú vị: Tại sao tiến bộ của AI trong việc "sử dụng máy tính" lại chậm hơn so với mã code và toán học?
Thoạt nhìn, việc sử dụng máy tính cũng có thể xác minh. Ví dụ, đơn hàng có thành công hay không, địa điểm tổ chức sự kiện có đặt được không, biểu mẫu thuế có nộp chưa, những kết quả này đều có thể đánh giá. Nhưng vấn đề nằm ở chỗ, rất khó sao chép và phát lại chúng trên quy mô lớn. Bạn không thể để một nghìn agent đồng thời chạy cùng một quy trình thanh toán trên Amazon lặp đi lặp lại, vì trang web thực sẽ nhận diện bot, cấm tài khoản, thay đổi trạng thái. Tất nhiên bạn có thể tạo bản sao các ứng dụng như Slack, Gmail, Amazon để làm môi trường mô phỏng, nhưng ở giai đoạn hiện tại, đây vẫn là một công trình có chi phí cao và khả năng mở rộng thấp.
Dwarkesh chỉ ra: AI tiến bộ nhanh trong một lĩnh vực không chỉ vì kết quả trong lĩnh vực đó có thể xác minh, mà còn vì lĩnh vực đó có thể được đóng gói thành một môi trường huấn luyện có thể sao chép, phát lại và thử sai song song.
Điều này cũng giải thích tại sao các nhiệm vụ về mã code, toán học, trò chơi lại trở thành "vùng đất màu mỡ" tự nhiên cho RLVR, trong khi nhiều nhiệm vụ thế giới thực lại khó trực tiếp đưa vào phương thức huấn luyện này.
Sau đó, ông đẩy câu hỏi tới thế giới thực phức tạp hơn.
- Nếu chúng ta muốn huấn luyện một AI khởi nghiệp từ số 0, phải làm sao?
- Nếu muốn huấn luyện nó thắng một vụ kiện, phải làm sao?
- Nếu muốn huấn luyện nó kiếm tiền ổn định trên thị trường, hoặc giúp một ứng viên giành chiến thắng trong cuộc bầu cử, phải làm sao?
Những nhiệm vụ này tất nhiên cũng có kết quả. Công ty có phát triển hay không, vụ kiện có thắng hay không, giao dịch có sinh lời hay không, cuộc bầu cử có thắng hay không, cuối cùng đều có thể đánh giá.
Nhưng vấn đề của chúng là: Phản hồi quá chậm, biến số quá nhiều, thế giới không thể đặt lại, cũng không thể sao chép thành một nghìn bản trong trung tâm dữ liệu.
Một lần khởi nghiệp có thể kéo dài nhiều năm. Một chiến dịch chính trị phụ thuộc vào khu vực cụ thể, ứng viên, tâm trạng cử tri, môi trường truyền thông và sự kiện ngẫu nhiên. Một vụ án pháp lý cũng không thể sao chép từ một điểm xuất phát giống nhau thành một nghìn vũ trụ song song để các agent khác nhau thử sai.
Loại môi trường này trong học tăng cường gần với cái gọi là môi trường không thể đặt lại (reset-free) và không ổn định (non-stationary environment): không thể tùy ý đặt lại, và bản thân môi trường còn đang liên tục thay đổi.
Vì vậy, Dwarkesh đặt câu hỏi: Agent được huấn luyện bởi RLVR trong môi trường có thể xác minh, có thể "luyện", liệu có thể tổng quát hóa cho những nhiệm vụ thế giới thực này không?
Đây không phải là một câu hỏi có thể trả lời bằng khẩu hiệu, mà là một vấn đề thực chứng.
Những người lạc quan sẽ nói rằng, chỉ cần môi trường RLVR đủ nhiều, đủ phức tạp, cuối cùng mô hình sẽ học được năng lực agent tổng quát. Khả năng lập kế hoạch và thử sai mà nó rèn luyện được trong mã code, toán học, trang web, sử dụng công cụ, cuối cùng sẽ chuyển giao sang các lĩnh vực như khởi nghiệp, quản lý tổ chức, chính trị, pháp luật, nghiên cứu khoa học.
Nhưng Dwarkesh vẫn hoài nghi về điều này.
Bởi vì trong thế giới thực, tri thức có giá trị nhất thường không xuất hiện dưới dạng rõ ràng, có thể xác minh, có thể lặp lại. Chúng có thể đến từ một phản hồi mơ hồ của khách hàng, một cuộc họp thất bại, một quy trình ngầm trong nội bộ tổ chức, một kiểu thất bại chỉ xuất hiện khi thực hiện nhiệm vụ thực tế. Để mô hình học được những điều này, nó không thể chỉ dựa vào "luyện bài tập", mà còn phải có hiệu suất mẫu thực sự.
Điều này đưa cuộc thảo luận đến điểm quan trọng nhất của toàn bài: learning back to the weights, tức là viết lại việc học vào trọng số.
Các mô hình lớn ngày nay đã rất giỏi trong việc học trong ngữ cảnh (in-context learning). Nó có thể đọc nhiều tài liệu trong một ngữ cảnh dài, hiểu bối cảnh của một dự án, tạm thời thích ứng với nhu cầu của một người dùng hoặc tổ chức. Nhưng vấn đề là, việc học này chủ yếu chỉ nằm trong cửa sổ ngữ cảnh. Sau khi phiên làm việc kết thúc, mô hình không nhất thiết thực sự "ghi nhớ".
Dwarkesh cho rằng, đây là một sự lãng phí lớn.
Bởi vì tín hiệu huấn luyện thực sự có giá trị của mô hình lại xuất hiện chính sau khi được triển khai. Mô hình được người dùng thực sử dụng, bước vào tổ chức thực, tham gia nhiệm vụ thực, phơi bày lỗi sai thực. Nó sẽ thấy công ty vận hành như thế nào, mọi người thực tế dùng nó để làm gì, những chỗ nào thường xuyên thất bại, những đề xuất nào trong thực tế hoàn toàn không khả thi.
Nhưng nếu những kinh nghiệm này không thể lắng đọng lại vào trọng số mô hình, thì nó chỉ là một sự thích ứng tạm thời trong một phiên làm việc, chứ không phải là sự tăng trưởng năng lực dài hạn.
Ông dùng việc học của con người để làm một phép loại suy: Con người không trở nên mạnh mẽ bằng cách ghi nhớ nguyên văn mọi sự việc xảy ra mỗi ngày. Một nhân viên trở nên hữu ích sau nửa năm làm việc, không phải vì anh ta nhớ từng email, từng ghi chú cuộc họp, mà vì anh ta đã nén những trải nghiệm đó thành khả năng phán đoán, trực giác, hiểu biết về quy trình và các mẫu vấn đề.
Mô hình cũng nên như vậy.
Học liên tục thực sự (continual learning), không phải là mở rộng vô hạn bộ nhớ KV cache, cũng không phải nhồi nhét tất cả lịch sử vào ngữ cảnh, mà là từ kinh nghiệm thực tế tinh lọc ra một lượng nhỏ kiến thức thực sự hữu ích, rồi nén chúng vào trọng số.
Đây chính là vấn đề mà Dwarkesh cho rằng phương thức huấn luyện thế hệ tiếp theo phải giải quyết.
Vậy, cụ thể làm thế nào?
Ông đề cập đến một hướng đang được thảo luận: on-policy self-distillation, viết tắt là OPSD.
Có thể hiểu đại khái là: Để một mô hình đã tích lũy nhiều kinh nghiệm trong các phiên làm việc dài, đóng vai "nhân viên kỳ cựu" hoặc giáo viên (teacher); sau đó huấn luyện mô hình cơ sở, để ngay cả khi không có đầy đủ ngữ cảnh đó, nó cũng có thể đưa ra phán đoán tương tự như teacher.
Nói cách khác, chưng cất những thứ mô hình học được trong ngữ cảnh qua một nhiệm vụ thực tế, quay trở lại trọng số của chính mô hình đó.
Điều này khác với SFT thông thường. SFT đơn giản nhất có thể chỉ là để mô hình dự đoán token đã xuất hiện trong phiên làm việc, tương đương với việc để nó kể lại toàn bộ nhật ký công việc. Nhưng đây không phải là học hiệu quả. Điều quan trọng thực sự không phải là ghi nhớ mọi chi tiết, mà là tinh lọc ra những hiểu biết then chốt có thể giúp mô hình làm tốt hơn vào lần sau.
Ưu điểm của OPSD là nó không nhất thiết cần một phần thưởng có thể xác minh bên ngoài. Chỉ cần mô hình có thể học được điều gì đó hữu ích trong ngữ cảnh, thì có thể lấy "mô hình sau khi học" làm teacher, để mô hình cơ sở tiến gần tới nó.
Đồng thời, so với RL thông thường chỉ có phần thưởng cuối cùng, OPSD có thể cung cấp tín hiệu giám sát dày đặc hơn. Nó có thể so sánh sự khác biệt về phân bố xác suất giữa teacher và student ở cấp độ token, từ đó nén kinh nghiệm khan hiếm từ một nhiệm vụ thực tế thành những cập nhật trọng số nhỏ hơn, chính xác hơn.
Ngoài OPSD, Dwarkesh còn đề xuất một hướng khác: dreaming (mơ).
Dreaming ở đây là chỉ việc AI dựa trên quan sát thế giới thực, tự xây dựng một môi trường mô phỏng, sau đó luyện tập lặp đi lặp lại, thử nghiệm chiến lược, củng cố hành vi hiệu quả bên trong đó.
Nghe có vẻ giống với model-based RL trong truyền thống học tăng cường, cũng giống như Sutton luôn nhấn mạnh về agent tích lũy kinh nghiệm thông qua tương tác với môi trường. Điều khác biệt là, Dwarkesh đặt nó vào ngữ cảnh của mô hình lớn và triển khai thực tế.
Ví dụ, một AI sau khi quan sát một quy trình kinh doanh cụ thể trong một công ty thực, không chỉ viết một bản tóm tắt, mà còn sử dụng lượng tính toán lớn để xây dựng "phiên bản trò chơi mô phỏng" của quy trình này. Sau đó nó thử nghiệm các chiến lược giao tiếp, đường dẫn thực thi và cách thức thúc đẩy dự án khác nhau trong đó, xem cái gì có khả năng thành công hơn. Cuối cùng, nén những kinh nghiệm có được từ các bài tập mô phỏng này trở lại mô hình.
Nếu hướng đi này thành lập, nó có thể trở thành một trục mở rộng mới (scaling axis).
Trong quá khứ, sự mở rộng của AI chủ yếu đến từ ba trục: huấn luyện trước (pretraining), RL và tính toán tại thời điểm suy luận (inference-time compute). Dwarkesh hình dung, tương lai có thể sẽ có thêm trục thứ tư: test-time training, hay còn gọi là dreaming. Mô hình không chỉ suy luận, mà trong quá trình suy luận và thực thi nhiệm vụ, nó còn xây dựng môi trường mô phỏng cho người dùng, tổ chức, dự án cụ thể, và huấn luyện chính mình trong đó.
Đây cũng là lý do tại sao có người trong phần bình luận đề cập đến bài viết "Welcome to the Era of Experience" của David Silver và Richard Sutton: bài viết đó cũng nhấn mạnh, AI không thể mãi mãi phụ thuộc vào dữ liệu của con người, chìa khóa cho giai đoạn tiếp theo sẽ là tác nhân thông minh (agent) thu được kinh nghiệm từ sự tương tác của chính nó với môi trường.

Dwarkesh thì cụ thể hóa phán đoán vĩ mô đó thành vấn đề huấn luyện mô hình lớn ngày nay: RLVR là một giai đoạn chuyển tiếp quan trọng, nó để mô hình rèn luyện năng lực agent trong các nhiệm vụ có thể xác minh; nhưng để bước vào thế giới thực phức tạp hơn, mô hình phải học cách liên tục học hỏi từ quá trình triển khai thực tế, và viết kinh nghiệm trở lại trọng số.
Trong viễn cảnh năm 2027 hoặc 2028 mà Dwarkesh hình dung, quy trình huấn luyện có thể sẽ trở thành như thế này:
- Đầu tiên, RLVR huấn luyện ra một agent có năng lực cơ bản. Agent này được đưa vào một vấn đề xa lạ, ít nhất là có thể nắm bắt tình hình, thử các chiến lược khác nhau, tiếp tục lặp lại sau khi gặp trở ngại;
- Sau đó, agent này được triển khai vào thế giới thực, bắt đầu làm công việc thực. Nó có thể làm việc liên tục với người dùng trong một tuần, tham gia một dự án không nằm trong phân phối huấn luyện ban đầu;
- Sau khi kết thúc một tuần, người dùng cho nó một "ngón tay cái giơ lên" hoặc "ngón tay cái chỉ xuống", thậm chí viết một đoạn đánh giá công việc. Nếu kết quả là tích cực, mô hình sẽ chưng cất những thứ học được từ nhiệm vụ này trở lại mô hình cơ sở. Quá trình này có thể sử dụng OPSD, có thể sử dụng dreaming, cũng có thể sử dụng một công nghệ mới nào đó hiện chưa xuất hiện.
Một khi con đường này chạy thông, ranh giới năng lực của AI sẽ không còn bị giới hạn bởi những "nhiệm vụ có thể xác minh" ban đầu nữa.
Nó có thể trước tiên thông qua RLVR để học mã code, toán học, nhiệm vụ trang web, gọi công cụ; sau đó thông qua triển khai thực tế để học quản lý tổ chức, quy trình kinh doanh, hợp tác phức tạp; rồi từ những kinh nghiệm đó, tiếp tục mở rộng sang các lĩnh vực liền kề.
Điều này cũng có nghĩa là, nguồn chính cho sự tiến bộ của AI có thể sẽ thay đổi.
Trước đây, một mô hình được huấn luyện xong trước khi phát hành, người dùng chỉ sử dụng nó. Mô hình thế hệ tiếp theo có thể là: trước khi phát hành, trước tiên huấn luyện ra agent cơ sở, sau khi phát hành, tiếp tục học thông qua lượng lớn nhiệm vụ thực tế. Mỗi lần tương tác với người dùng, mỗi lần thực thi dự án thực, mỗi lần thất bại và sửa chữa, đều có thể trở thành nguyên liệu để nâng cấp năng lực cho vòng tiếp theo.
Vì vậy, cái gọi là "phương thức huấn luyện thế hệ tiếp theo" của Dwarkesh, không đơn giản chỉ nói rằng mô hình phải lớn hơn, dữ liệu phải nhiều hơn, RL phải mạnh hơn.
Nó thực sự hướng tới: AI từ huấn luyện trước khi phát hành, tiến tới học hỏi sau khi phát hành; từ dữ liệu của con người, tiến tới kinh nghiệm từ môi trường; từ sự thích ứng tạm thời trong ngữ cảnh, tiến tới năng lực dài hạn trong trọng số.
Dữ liệu huấn luyện AI quan trọng nhất trong tương lai, có thể không còn chỉ là văn bản đã có trên internet, cũng không chỉ là các nhiệm vụ có thể xác minh được xây dựng sẵn trong phòng thí nghiệm, mà là kinh nghiệm mà chính AI tích lũy được khi hoàn thành các nhiệm vụ thực tế trong thế giới thực.
Liên kết tham khảo:
https://x.com/dwarkesh_sp/status/2070551894674555081
Bài viết này đến từ tài khoản WeChat công cộng "机器之心" (ID:almosthuman2014), tác giả: 关注AI训练






