Trọng tâm nghiên cứu về mô hình thế giới trong năm qua ban đầu tập trung vào học biểu diễn và dự đoán tương lai. Mô hình trước tiên hiểu thế giới, sau đó suy diễn trạng thái tương lai bên trong. Hướng đi này đã tạo ra một loạt kết quả đại diện. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2—một bộ mô hình thế giới video do Meta phát hành vào năm 2025) sử dụng hơn 1 triệu giờ video internet để tiền huấn luyện, kết hợp với một lượng nhỏ dữ liệu tương tác robot, cho thấy tiềm năng của mô hình thế giới trong hiểu biết, dự đoán và lập kế hoạch robot zero-shot.
Nhưng mô hình biết dự đoán không có nghĩa là mô hình biết xử lý nhiệm vụ dài. Khi đối mặt với kiểm soát đa giai đoạn, hệ thống thường gặp hai áp lực. Một là lỗi dự đoán sẽ tích lũy liên tục trong quá trình rollout dài (suy diễn nhiều bước liên tiếp), khiến toàn bộ đường đi ngày càng dễ lệch khỏi mục tiêu. Áp lực khác là không gian tìm kiếm hành động sẽ mở rộng nhanh chóng khi horizon (tầm nhìn lập kế hoạch) tăng lên, dẫn đến chi phí lập kế hoạch tiếp tục tăng. HWM không viết lại con đường học tập cơ bản của mô hình thế giới, mà thêm cấu trúc lập kế hoạch phân tầng trên nền tảng mô hình thế giới có điều kiện hành động sẵn có, để hệ thống trước tiên tổ chức đường đi giai đoạn, sau đó xử lý hành động cục bộ.
Về mặt kỹ thuật, V-JEPA 2 (https://ai.meta.com/research/vjepa/) thiên về biểu diễn thế giới và dự đoán cơ bản, HWM thiên về lập kế hoạch dài hạn, WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry, https://arxiv.org/abs/2604.01985) thiên về khả năng nhận dạng và sửa chữa sai lệch dự đoán của chính mô hình. Ba hướng này đang dần hội tụ. Trọng tâm nghiên cứu mô hình thế giới đã chuyển từ việc chỉ đơn thuần dự đoán tương lai sang cách chuyển đổi khả năng dự đoán thành năng lực hệ thống có thể thực thi, sửa chữa và xác minh.
I. Tại Sao Kiểm Soát Dài Hạn Vẫn Là Nút Thắt Của Mô Hình Thế Giới
Khó khăn của kiểm soát dài hạn sẽ dễ nhìn thấy hơn khi đặt vào nhiệm vụ robot. Lấy ví dụ thao tác cánh tay robot, nhặt một cái cốc rồi đặt nó vào ngăn kéo, đây không phải là một hành động đơn lẻ mà là một chuỗi các bước liên tiếp. Hệ thống phải tiếp cận vật thể, điều chỉnh tư thế, hoàn thành việc gắp, di chuyển đến vị trí mục tiêu, rồi xử lý ngăn kéo và đặt. Chuỗi càng dài, hai vấn đề sẽ đồng thời xuất hiện. Một là lỗi dự đoán sẽ tích lũy liên tục dọc theo rollout, hai là không gian tìm kiếm hành động sẽ mở rộng nhanh chóng.
Điều hệ thống thiếu thường không phải là khả năng dự đoán cục bộ, mà là khả năng tổ chức mục tiêu xa thành các đường đi giai đoạn. Nhiều hành động nhìn cục bộ có vẻ như đang lệch khỏi mục tiêu, nhưng thực tế lại là các bước trung gian cần thiết để hoàn thành mục tiêu. Ví dụ, nâng cao cánh tay trước khi gắp, lùi lại một chút và điều chỉnh góc độ trước khi mở ngăn kéo.
Trong các nhiệm vụ mang tính trình diễn, mô hình thế giới đã có thể đưa ra dự đoán mạch lạc. Nhưng khi bước vào kịch bản kiểm soát thực tế, hiệu suất bắt đầu giảm và vấn đề cũng xuất hiện. Áp lực không chỉ đến từ bản thân sự biểu diễn, mà còn từ tầng lập kế hoạch chưa đủ trưởng thành.
II. HWM Tái Cấu Trúc Quy Trình Lập Kế Hoạch Như Thế Nào
HWM chia quá trình lập kế hoạch vốn hoàn thành trong một tầng thành hai tầng. Tầng trên chịu trách nhiệm về hướng đi giai đoạn trên quy mô thời gian dài hơn, tầng dưới chịu trách nhiệm thực thi cục bộ trên quy mô thời gian ngắn hơn. Mô hình không chỉ lập kế hoạch theo một nhịp độ mà lập kế hoạch đồng thời theo hai nhịp độ thời gian khác nhau.
Phương pháp một tầng khi xử lý nhiệm vụ dài thường cần tìm kiếm trực tiếp toàn bộ chuỗi hành động trong không gian hành động cơ sở. Nhiệm vụ càng dài, chi phí tìm kiếm càng cao, lỗi dự đoán cũng càng dễ lan truyền liên tục qua nhiều bước rollout. Sau khi HWM tách quá trình, tầng cao chỉ xử lý việc lựa chọn lộ trình trên quy mô thời gian dài hơn, tầng thấp chỉ xử lý việc hoàn thành đoạn hành động hiện tại, toàn bộ nhiệm vụ dài được chia thành nhiều nhiệm vụ ngắn hơn, độ phức tạp của việc lập kế hoạch từ đó giảm xuống.
Ở đây còn có một thiết kế then chốt, hành động tầng cao không đơn giản là ghi lại chênh lệch giữa hai trạng thái, mà sử dụng một bộ mã hóa để nén một đoạn hành động tầng thấp thành biểu diễn hành động ở tầng cao hơn. Đối với nhiệm vụ dài, điểm mấu chốt không chỉ nằm ở chênh lệch giữa điểm đầu và điểm cuối, mà còn ở cách các bước trung gian được tổ chức. Nếu tầng cao chỉ nhìn vào chênh lệch dịch chuyển, dễ làm mất thông tin đường đi trong chuỗi hành động đó.
HWM thể hiện một cách thức tổ chức nhiệm vụ phân tầng. Khi đối mặt với một công việc đa giai đoạn, hệ thống không còn triển khai tất cả hành động một lần, mà trước tiên hình thành đường đi giai đoạn thô, sau đó thực thi và sửa chữa từng đoạn. Mối quan hệ phân cấp này khi đi vào mô hình thế giới, khả năng dự đoán sẽ bắt đầu chuyển đổi ổn định hơn thành khả năng lập kế hoạch.
III. Từ 0% Đến 70%, Kết Quả Thực Nghiệm Nói Lên Điều Gì
Trong nhiệm vụ gắp và đặt trong thế giới thực được thiết lập trong bài báo, hệ thống chỉ nhận được điều kiện mục tiêu cuối cùng, không cung cấp các mục tiêu trung gian đã được con người chia sẵn. Trong điều kiện như vậy, tỷ lệ thành công của HWM đạt 70%, trong khi tỷ lệ thành công của mô hình thế giới một tầng là 0%. Nhiệm vụ dài vốn gần như không thể hoàn thành, sau khi đưa vào lập kế hoạch phân tầng, đã trở thành kết quá có khả năng đạt được cao.
Bài báo cũng thử nghiệm các nhiệm vụ mô phỏng như thao tác đẩy vật thể và dẫn đường trong mê cung. Kết quả cho thấy, lập kế hoạch phân tầng không chỉ nâng cao tỷ lệ thành công, mà còn giảm chi phí tính toán trong giai đoạn lập kế hoạch. Trong một số môi trường, chi phí tính toán trong giai đoạn lập kế hoạch có thể giảm nhiều nhất đến khoảng một phần tư so với ban đầu, đồng thời duy trì tỷ lệ thành công cao hơn hoặc tương đương.
IV. Từ V-JEPA Đến HWM Rồi Đến WAV
V-JEPA 2 đại diện cho hướng đi biểu diễn thế giới. V-JEPA 2 sử dụng hơn 1 triệu giờ video internet để tiền huấn luyện, sau đó kết hợp với chưa đến 62 giờ video robot để post-training (huấn luyện có mục tiêu sau tiền huấn luyện), thu được latent action-conditioned world model (mô hình thế giới dự đoán trong không gian biểu diễn trừu tượng, kết hợp thông tin hành động). Nó cho thấy mô hình có thể thu được biểu diễn thế giới thông qua quan sát quy mô lớn và chuyển dịch biểu diễn này sang lập kế hoạch robot.
HWM ở bước tiếp theo. Mô hình đã sở hữu khả năng biểu diễn thế giới và dự đoán cơ bản, nhưng vừa bước vào kiểm soát đa giai đoạn, vấn đề tích lũy lỗi và mở rộng không gian tìm kiếm sẽ bùng phát. HWM không thay đổi con đường học biểu diễn cơ bản, mà thêm cấu trúc lập kế hoạch đa thang đo thời gian trên nền tảng mô hình thế giới có điều kiện hành động sẵn có. Vấn đề nó xử lý là làm thế nào mô hình tổ chức mục tiêu xa thành một tập các bước trung gian, rồi thúc đẩy từng đoạn.
WAV tiếp tục đặt trọng tâm vào khả năng xác minh. Mô hình thế giới muốn bước vào các kịch bản tối ưu hóa chính sách và triển khai, không thể chỉ biết dự đoán, mà còn phải có khả năng phát hiện mình dễ bị sai lệch ở哪些 khu vực nào, và dựa vào đó để hiệu chỉnh. Nó quan tâm đến việc mô hình kiểm tra chính mình như thế nào.
V-JEPA thiên về biểu diễn thế giới, HWM thiên về lập kế hoạch nhiệm vụ, WAV thiên về xác minh kết quả. Ba cái tuy điểm quan tâm khác nhau, nhưng đại phương hướng是一致的. Giai đoạn tiếp theo của mô hình thế giới, không chỉ là dự đoán nội bộ, mà là dự đoán, lập kế hoạch, xác minh dần dần kết nối thành một hệ thống năng lực.
V. Từ Dự Đoán Nội Bộ Đến Hệ Thống Có Thể Thực Thi
Nhiều công trình về mô hình thế giới trước đây gần gũi hơn với việc nâng cao tính liên tục của dự đoán trạng thái tương lai, hoặc nâng cao tính ổn định của biểu diễn thế giới nội bộ. Nhưng trọng tâm nghiên cứu hiện tại đã bắt đầu thay đổi, hệ thống vừa phải hình thành phán đoán về môi trường, cũng phải chuyển đổi phán đoán thành hành động, và tiếp tục sửa chữa bước tiếp theo sau khi kết quả xuất hiện. Muốn tiến gần hơn đến triển khai thực tế, cần kiểm soát sự lan truyền lỗi trong nhiệm vụ dài hạn, nén phạm vi tìm kiếm, giảm chi phí suy luận.
Những thay đổi này cũng sẽ ảnh hưởng đến AI agent. Nhiều hệ thống agent đã có thể hoàn thành nhiệm vụ liên kết ngắn, như gọi công cụ, đọc file, thực thi các lệnh gồm若干 bước. Nhưng một khi nhiệm vụ trở thành liên kết dài, đa giai đoạn, cần lập kế hoạch lại giữa chừng, hiệu suất sẽ giảm. Điều này về bản chất không khác gì với khó khăn trong kiểm soát robot, đều là do năng lực tổ chức đường đi cấp cao không đủ, dẫn đến việc thực thi cục bộ và mục tiêu tổng thể bị tách rời.
Tư duy phân tầng mà HWM cung cấp, tầng cao chịu trách nhiệm về đường đi và mục tiêu giai đoạn, tầng thấp chịu trách nhiệm xử lý hành động và phản hồi cục bộ, kết hợp thêm xác minh kết quả, cấu trúc phân tầng như vậy trong tương lai sẽ tiếp tục xuất hiện trong nhiều hệ thống hơn. Trọng tâm của giai đoạn tiếp theo của mô hình thế giới, cũng không chỉ là dự đoán tương lai, mà là tổ chức dự đoán, thực thi và sửa chữa thành một đường đi có thể vận hành.








