Fokus penelitian model dunia dalam setahun terakhir awalnya terkonsentrasi pada pembelajaran representasi dan prediksi masa depan. Model pertama-tama memahami dunia, kemudian memproyeksikan keadaan masa depan secara internal. Jalur ini telah menghasilkan sejumlah karya representatif. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — seperangkat model dunia video yang dirilis Meta pada tahun 2025) menggunakan lebih dari 1 juta jam video internet untuk pelatihan awal, kemudian dikombinasikan dengan sedikit data interaksi robot, menunjukkan potensi model dunia dalam pemahaman, prediksi, dan perencanaan robot zero-shot.
Namun, model bisa memprediksi, tidak berarti model bisa menangani tugas panjang. Menghadapi kontrol multi-tahap, sistem biasanya mengalami dua tekanan. Satu, kesalahan prediksi akan terus menumpuk dalam rollout panjang (proyeksi multi-langkah berurutan), menyebabkan seluruh jalur semakin mudah menyimpang dari target. Dua, ruang pencarian aksi akan meluas dengan cepat seiring pertumbuhan horizon (jarak pandang perencanaan), menyebabkan biaya perencanaan terus naik. HWM tidak menulis ulang jalur pembelajaran dasar model dunia, tetapi menambahkan struktur perencanaan berlapis di atas model dunia bersyarat aksi yang sudah ada, memungkinkan sistem mengorganisir jalur tahapan terlebih dahulu, kemudian memproses aksi lokal.
Secara teknis, V-JEPA 2(https://ai.meta.com/research/vjepa/) lebih condong ke representasi dunia dan prediksi dasar, HWM lebih condong ke perencanaan jangka panjang, WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry,https://arxiv.org/abs/2604.01985) lebih condong ke identifikasi dan koreksi distorsi prediksi diri model oleh model itu sendiri. Tiga jalur ini perlahan mulai menyatu. Fokus penelitian model dunia telah bergeser dari sekadar memprediksi masa depan, menjadi bagaimana mengubah kemampuan prediksi menjadi kemampuan sistem yang dapat dieksekusi, dikoreksi, dan diverifikasi.
I. Mengapa Kontrol Jangka Panjang Masih Menjadi Kendala bagi Model Dunia
Kesulitan kontrol jangka panjang akan lebih mudah dipahami dalam tugas robot. Ambil contoh operasi lengan robot, mengambil sebuah cangkir lalu memasukkannya ke laci, ini bukanlah aksi tunggal, melainkan serangkaian langkah berkelanjutan. Sistem harus mendekati objek, menyesuaikan sikap, menyelesaikan pengambilan, berpindah ke posisi target, lalu menangani laci dan penempatan. Begitu rantainya panjang, dua masalah akan muncul bersamaan. Satu, kesalahan prediksi akan terus menumpuk sepanjang rollout, yang lain, ruang pencarian aksi akan meluas dengan cepat.
Yang sering kali kurang pada sistem, bukanlah kemampuan prediksi lokal, melainkan kemampuan untuk mengorganisir target jauh menjadi jalur tahapan. Banyak aksi dari sudut pandang lokal terlihat menyimpang dari target, tetapi sebenarnya adalah langkah perantara yang diperlukan untuk menyelesaikan target. Misalnya, mengangkat lengan terlebih dahulu sebelum mengambil, mundur sedikit dan menyesuaikan sudut sebelum membuka laci.
Dalam tugas demonstratif, model dunia sudah bisa memberikan prediksi yang koheren. Namun, begitu masuk ke skenario kontrol nyata, kinerja mulai menurun, dan masalah pun muncul. Tekanan tidak hanya berasal dari representasi itu sendiri, tetapi juga dari lapisan perencanaan yang belum cukup matang.
II. Bagaimana HWM Merekonstruksi Proses Perencanaan
HWM membagi proses perencanaan yang awalnya diselesaikan dalam satu lapisan menjadi dua lapisan. Lapisan atas bertanggung jawab atas arah tahapan pada skala waktu yang lebih lama, lapisan bawah bertanggung jawab atas eksekusi lokal pada skala waktu yang lebih pendek. Model tidak merencanakan hanya dengan satu ritme, tetapi merencanakan secara bersamaan dengan dua ritme waktu yang berbeda.
Metode satu lapisan saat menangani tugas panjang, biasanya perlu mencari langsung seluruh rantai aksi dalam ruang aksi dasar. Semakin panjang tugas, biaya pencarian semakin tinggi, dan kesalahan prediksi juga semakin mudah menyebar sepanjang multi-langkah rollout. Setelah HWM memisahkan prosesnya, lapisan tinggi hanya menangani pemilihan rute pada skala waktu yang lebih lama, lapisan rendah hanya menangani penyelesaian aksi segmen saat ini, seluruh tugas panjang dibagi menjadi beberapa tugas yang lebih pendek, kompleksitas perencanaan pun turun.
Ada juga desain kunci di sini, aksi lapisan tinggi bukan hanya sekadar mencatat selisih antara dua keadaan, tetapi menggunakan sebuah encoder untuk mengompresi sejumlah aksi lapisan rendah menjadi representasi aksi yang lebih tinggi. Untuk tugas panjang, kuncinya tidak hanya pada seberapa banyak selisih antara titik awal dan akhir, tetapi lebih pada bagaimana langkah-langkah perantara diorganisir. Jika lapisan tinggi hanya melihat selisih perpindahan, mudah kehilangan informasi jalur dalam rantai aksi ini.
HWM mencerminkan cara organisasi tugas berlapis. Menghadapi pekerjaan multi-tahap, sistem tidak lagi membuka semua aksi sekaligus, tetapi pertama-tama membentuk jalur tahapan yang lebih kasar, kemudian mengeksekusi dan memperbaiki segmen demi segmen. Setelah hubungan hierarkis ini masuk ke dalam model dunia, kemampuan prediksi akan mulai lebih stabil diubah menjadi kemampuan perencanaan.
III. Dari 0% ke 70%, Apa yang Ditunjukkan oleh Hasil Eksperimen
Dalam tugas mengambil dan menempatkan di dunia nyata yang disiapkan dalam makalah, sistem hanya diberikan kondisi target akhir, tanpa menyediakan target perantara yang sudah dipecahkan secara manual. Dalam kondisi ini, tingkat keberhasilan HWM mencapai 70%, sedangkan model dunia satu lapis tingkat keberhasilannya 0%. Tugas panjang yang awalnya hampir tidak dapat diselesaikan, setelah memperkenalkan perencanaan berlapis, menjadi hasil yang kemungkinan besar dapat direalisasikan.
Makalah ini juga menguji tugas operasi mendorong objek dan navigasi labirin dalam simulasi. Hasilnya menunjukkan bahwa perencanaan berlapis tidak hanya meningkatkan tingkat keberhasilan, tetapi juga mengurangi biaya komputasi tahap perencanaan. Di beberapa lingkungan, biaya komputasi tahap perencanaan dapat dikurangi hingga sekitar seperempat dari biaya semula, sambil mempertahankan tingkat keberhasilan yang lebih tinggi atau setara.
IV. Dari V-JEPA ke HWM Lalu ke WAV
V-JEPA 2 mewakili jalur representasi dunia. V-JEPA 2 menggunakan lebih dari 1 juta jam video internet untuk pelatihan awal, kemudian dikombinasikan dengan kurang dari 62 jam video robot untuk post-training (pelatihan tertarget setelah pelatihan awal), mendapatkan latent action-conditioned world model (model dunia yang memprediksi dalam ruang representasi abstrak dengan menggabungkan informasi aksi) yang dapat digunakan untuk memahami, memprediksi, dan merencanakan dunia fisik. Yang ditunjukkannya adalah model dapat memperoleh representasi dunia melalui pengamatan skala besar, dan mentransfer representasi ini ke perencanaan robot.
HWM berada pada langkah selanjutnya. Model sudah memiliki representasi dunia dan kemampuan prediksi dasar, tetapi begitu masuk ke kontrol multi-tahap, masalah penumpukan kesalahan dan perluasan ruang pencarian akan meledak. HWM tidak mengubah jalur pembelajaran representasi dasar, tetapi menambahkan struktur perencanaan multi-skala waktu di atas model dunia bersyarat aksi yang sudah ada. Masalah yang ditanganinya adalah bagaimana model mengorganisir target jauh menjadi sekelompok langkah perantara, kemudian memajukannya segmen demi segmen.
WAV lebih jauh memfokuskan pada kemampuan verifikasi. Model dunia yang ingin masuk ke skenario optimasi kebijakan dan penyebaran, tidak boleh hanya bisa memprediksi, tetapi juga harus bisa menemukan di area mana dirinya mudah terdistorsi, dan melakukan koreksi berdasarkan hal tersebut. Fokusnya adalah bagaimana model memeriksa dirinya sendiri.
V-JEPA condong ke representasi dunia, HWM condong ke perencanaan tugas, WAV condong ke verifikasi hasil. Meskipun ketiganya memiliki fokus yang berbeda, arah besarnya konsisten. Tahap selanjutnya model dunia, tidak hanya sekadar prediksi internal, tetapi prediksi, perencanaan, dan verifikasi perlahan terhubung menjadi satu set kemampuan sistem.
V. Dari Prediksi Internal Menuju Sistem yang Dapat Dieksekusi
Banyak karya model dunia sebelumnya, lebih mendekati peningkatan kelangsungan prediksi keadaan masa depan, atau peningkatan stabilitas representasi dunia internal. Namun, fokus penelitian saat ini telah mulai berubah, sistem harus membentuk penilaian terhadap lingkungan, juga mengubah penilaian menjadi aksi, dan terus memperbaiki langkah selanjutnya setelah hasilnya keluar. Ingin lebih mendekati penyebaran nyata, perlu mengontrol penyebaran kesalahan dalam tugas jangka panjang, mengompres ruang pencarian, dan menurunkan biaya penalaran.
Perubahan semacam ini juga akan mempengaruhi agen AI. Banyak sistem agen sudah bisa menyelesaikan tugas tautan pendek, seperti memanggil alat, membaca file, mengeksekusi beberapa langkah instruksi. Namun, begitu tugas menjadi tautan panjang, multi-tahap, memerlukan perencanaan ulang di tengah jalan, kinerja akan menurun. Ini tidak berbeda esensinya dengan kesulitan dalam kontrol robot, yaitu kemampuan organisasi jalur tingkat tinggi yang tidak memadai, menyebabkan eksekusi lokal dan target keseluruhan terlepas.
Pemikiran berlapis yang disediakan HWM, lapisan tinggi bertanggung jawab atas jalur dan target tahapan, lapisan rendah bertanggung jawab atas aksi lokal dan pemrosesan umpan balik, ditambah verifikasi hasil, struktur berlapis seperti ini akan terus muncul di lebih banyak sistem di masa depan. Tahap selanjutnya model dunia, fokusnya juga tidak hanya memprediksi masa depan, tetapi mengorganisir prediksi, eksekusi, dan koreksi menjadi sebuah jalur yang dapat dijalankan.








