Model Dunia Bergerak dari Prediksi ke Perencanaan, HWM dan Tantangan Kontrol Jangka Panjang

marsbitDipublikasikan tanggal 2026-04-17Terakhir diperbarui pada 2026-04-17

Abstrak

Model dunia, yang awalnya berfokus pada pembelajaran representasi dan prediksi masa depan (seperti V-JEPA 2 Meta), kini beralih ke perencanaan hierarkis untuk mengatasi kendali jangka panjang. Masalah utama dalam tugas multi-tahap, seperti operasi robot, adalah akumulasi kesalahan prediksi dan meluasnya ruang pencarian aksi. HWM (Hierarchical World Model) memperkenalkan struktur perencanaan dua lapis: lapisan atas mengatur jalur tahapan dalam skala waktu yang lebih lama, sementara lapisan bawah menangani eksekusi lokal. Pendekatan ini meningkatkan keberhasilan tugas dari 0% menjadi 70% dalam eksperimen, sekaligus mengurangi biaya komputasi. Bersama dengan V-JEPA (representasi dunia) dan WAV (verifikasi prediksi), HWM menunjukkan pergeseran fokus dari sekadar prediksi internal ke sistem yang dapat menjalankan, merencanakan, dan memverifikasi tindakan secara efektif.

Fokus penelitian model dunia dalam setahun terakhir awalnya terkonsentrasi pada pembelajaran representasi dan prediksi masa depan. Model pertama-tama memahami dunia, kemudian memproyeksikan keadaan masa depan secara internal. Jalur ini telah menghasilkan sejumlah karya representatif. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — seperangkat model dunia video yang dirilis Meta pada tahun 2025) menggunakan lebih dari 1 juta jam video internet untuk pelatihan awal, kemudian dikombinasikan dengan sedikit data interaksi robot, menunjukkan potensi model dunia dalam pemahaman, prediksi, dan perencanaan robot zero-shot.

Namun, model bisa memprediksi, tidak berarti model bisa menangani tugas panjang. Menghadapi kontrol multi-tahap, sistem biasanya mengalami dua tekanan. Satu, kesalahan prediksi akan terus menumpuk dalam rollout panjang (proyeksi multi-langkah berurutan), menyebabkan seluruh jalur semakin mudah menyimpang dari target. Dua, ruang pencarian aksi akan meluas dengan cepat seiring pertumbuhan horizon (jarak pandang perencanaan), menyebabkan biaya perencanaan terus naik. HWM tidak menulis ulang jalur pembelajaran dasar model dunia, tetapi menambahkan struktur perencanaan berlapis di atas model dunia bersyarat aksi yang sudah ada, memungkinkan sistem mengorganisir jalur tahapan terlebih dahulu, kemudian memproses aksi lokal.

Secara teknis, V-JEPA 2(https://ai.meta.com/research/vjepa/) lebih condong ke representasi dunia dan prediksi dasar, HWM lebih condong ke perencanaan jangka panjang, WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry,https://arxiv.org/abs/2604.01985) lebih condong ke identifikasi dan koreksi distorsi prediksi diri model oleh model itu sendiri. Tiga jalur ini perlahan mulai menyatu. Fokus penelitian model dunia telah bergeser dari sekadar memprediksi masa depan, menjadi bagaimana mengubah kemampuan prediksi menjadi kemampuan sistem yang dapat dieksekusi, dikoreksi, dan diverifikasi.

I. Mengapa Kontrol Jangka Panjang Masih Menjadi Kendala bagi Model Dunia

Kesulitan kontrol jangka panjang akan lebih mudah dipahami dalam tugas robot. Ambil contoh operasi lengan robot, mengambil sebuah cangkir lalu memasukkannya ke laci, ini bukanlah aksi tunggal, melainkan serangkaian langkah berkelanjutan. Sistem harus mendekati objek, menyesuaikan sikap, menyelesaikan pengambilan, berpindah ke posisi target, lalu menangani laci dan penempatan. Begitu rantainya panjang, dua masalah akan muncul bersamaan. Satu, kesalahan prediksi akan terus menumpuk sepanjang rollout, yang lain, ruang pencarian aksi akan meluas dengan cepat.

Yang sering kali kurang pada sistem, bukanlah kemampuan prediksi lokal, melainkan kemampuan untuk mengorganisir target jauh menjadi jalur tahapan. Banyak aksi dari sudut pandang lokal terlihat menyimpang dari target, tetapi sebenarnya adalah langkah perantara yang diperlukan untuk menyelesaikan target. Misalnya, mengangkat lengan terlebih dahulu sebelum mengambil, mundur sedikit dan menyesuaikan sudut sebelum membuka laci.

Dalam tugas demonstratif, model dunia sudah bisa memberikan prediksi yang koheren. Namun, begitu masuk ke skenario kontrol nyata, kinerja mulai menurun, dan masalah pun muncul. Tekanan tidak hanya berasal dari representasi itu sendiri, tetapi juga dari lapisan perencanaan yang belum cukup matang.

II. Bagaimana HWM Merekonstruksi Proses Perencanaan

HWM membagi proses perencanaan yang awalnya diselesaikan dalam satu lapisan menjadi dua lapisan. Lapisan atas bertanggung jawab atas arah tahapan pada skala waktu yang lebih lama, lapisan bawah bertanggung jawab atas eksekusi lokal pada skala waktu yang lebih pendek. Model tidak merencanakan hanya dengan satu ritme, tetapi merencanakan secara bersamaan dengan dua ritme waktu yang berbeda.

Metode satu lapisan saat menangani tugas panjang, biasanya perlu mencari langsung seluruh rantai aksi dalam ruang aksi dasar. Semakin panjang tugas, biaya pencarian semakin tinggi, dan kesalahan prediksi juga semakin mudah menyebar sepanjang multi-langkah rollout. Setelah HWM memisahkan prosesnya, lapisan tinggi hanya menangani pemilihan rute pada skala waktu yang lebih lama, lapisan rendah hanya menangani penyelesaian aksi segmen saat ini, seluruh tugas panjang dibagi menjadi beberapa tugas yang lebih pendek, kompleksitas perencanaan pun turun.

Ada juga desain kunci di sini, aksi lapisan tinggi bukan hanya sekadar mencatat selisih antara dua keadaan, tetapi menggunakan sebuah encoder untuk mengompresi sejumlah aksi lapisan rendah menjadi representasi aksi yang lebih tinggi. Untuk tugas panjang, kuncinya tidak hanya pada seberapa banyak selisih antara titik awal dan akhir, tetapi lebih pada bagaimana langkah-langkah perantara diorganisir. Jika lapisan tinggi hanya melihat selisih perpindahan, mudah kehilangan informasi jalur dalam rantai aksi ini.

HWM mencerminkan cara organisasi tugas berlapis. Menghadapi pekerjaan multi-tahap, sistem tidak lagi membuka semua aksi sekaligus, tetapi pertama-tama membentuk jalur tahapan yang lebih kasar, kemudian mengeksekusi dan memperbaiki segmen demi segmen. Setelah hubungan hierarkis ini masuk ke dalam model dunia, kemampuan prediksi akan mulai lebih stabil diubah menjadi kemampuan perencanaan.

III. Dari 0% ke 70%, Apa yang Ditunjukkan oleh Hasil Eksperimen

Dalam tugas mengambil dan menempatkan di dunia nyata yang disiapkan dalam makalah, sistem hanya diberikan kondisi target akhir, tanpa menyediakan target perantara yang sudah dipecahkan secara manual. Dalam kondisi ini, tingkat keberhasilan HWM mencapai 70%, sedangkan model dunia satu lapis tingkat keberhasilannya 0%. Tugas panjang yang awalnya hampir tidak dapat diselesaikan, setelah memperkenalkan perencanaan berlapis, menjadi hasil yang kemungkinan besar dapat direalisasikan.

Makalah ini juga menguji tugas operasi mendorong objek dan navigasi labirin dalam simulasi. Hasilnya menunjukkan bahwa perencanaan berlapis tidak hanya meningkatkan tingkat keberhasilan, tetapi juga mengurangi biaya komputasi tahap perencanaan. Di beberapa lingkungan, biaya komputasi tahap perencanaan dapat dikurangi hingga sekitar seperempat dari biaya semula, sambil mempertahankan tingkat keberhasilan yang lebih tinggi atau setara.

IV. Dari V-JEPA ke HWM Lalu ke WAV

V-JEPA 2 mewakili jalur representasi dunia. V-JEPA 2 menggunakan lebih dari 1 juta jam video internet untuk pelatihan awal, kemudian dikombinasikan dengan kurang dari 62 jam video robot untuk post-training (pelatihan tertarget setelah pelatihan awal), mendapatkan latent action-conditioned world model (model dunia yang memprediksi dalam ruang representasi abstrak dengan menggabungkan informasi aksi) yang dapat digunakan untuk memahami, memprediksi, dan merencanakan dunia fisik. Yang ditunjukkannya adalah model dapat memperoleh representasi dunia melalui pengamatan skala besar, dan mentransfer representasi ini ke perencanaan robot.

HWM berada pada langkah selanjutnya. Model sudah memiliki representasi dunia dan kemampuan prediksi dasar, tetapi begitu masuk ke kontrol multi-tahap, masalah penumpukan kesalahan dan perluasan ruang pencarian akan meledak. HWM tidak mengubah jalur pembelajaran representasi dasar, tetapi menambahkan struktur perencanaan multi-skala waktu di atas model dunia bersyarat aksi yang sudah ada. Masalah yang ditanganinya adalah bagaimana model mengorganisir target jauh menjadi sekelompok langkah perantara, kemudian memajukannya segmen demi segmen.

WAV lebih jauh memfokuskan pada kemampuan verifikasi. Model dunia yang ingin masuk ke skenario optimasi kebijakan dan penyebaran, tidak boleh hanya bisa memprediksi, tetapi juga harus bisa menemukan di area mana dirinya mudah terdistorsi, dan melakukan koreksi berdasarkan hal tersebut. Fokusnya adalah bagaimana model memeriksa dirinya sendiri.

V-JEPA condong ke representasi dunia, HWM condong ke perencanaan tugas, WAV condong ke verifikasi hasil. Meskipun ketiganya memiliki fokus yang berbeda, arah besarnya konsisten. Tahap selanjutnya model dunia, tidak hanya sekadar prediksi internal, tetapi prediksi, perencanaan, dan verifikasi perlahan terhubung menjadi satu set kemampuan sistem.

V. Dari Prediksi Internal Menuju Sistem yang Dapat Dieksekusi

Banyak karya model dunia sebelumnya, lebih mendekati peningkatan kelangsungan prediksi keadaan masa depan, atau peningkatan stabilitas representasi dunia internal. Namun, fokus penelitian saat ini telah mulai berubah, sistem harus membentuk penilaian terhadap lingkungan, juga mengubah penilaian menjadi aksi, dan terus memperbaiki langkah selanjutnya setelah hasilnya keluar. Ingin lebih mendekati penyebaran nyata, perlu mengontrol penyebaran kesalahan dalam tugas jangka panjang, mengompres ruang pencarian, dan menurunkan biaya penalaran.

Perubahan semacam ini juga akan mempengaruhi agen AI. Banyak sistem agen sudah bisa menyelesaikan tugas tautan pendek, seperti memanggil alat, membaca file, mengeksekusi beberapa langkah instruksi. Namun, begitu tugas menjadi tautan panjang, multi-tahap, memerlukan perencanaan ulang di tengah jalan, kinerja akan menurun. Ini tidak berbeda esensinya dengan kesulitan dalam kontrol robot, yaitu kemampuan organisasi jalur tingkat tinggi yang tidak memadai, menyebabkan eksekusi lokal dan target keseluruhan terlepas.

Pemikiran berlapis yang disediakan HWM, lapisan tinggi bertanggung jawab atas jalur dan target tahapan, lapisan rendah bertanggung jawab atas aksi lokal dan pemrosesan umpan balik, ditambah verifikasi hasil, struktur berlapis seperti ini akan terus muncul di lebih banyak sistem di masa depan. Tahap selanjutnya model dunia, fokusnya juga tidak hanya memprediksi masa depan, tetapi mengorganisir prediksi, eksekusi, dan koreksi menjadi sebuah jalur yang dapat dijalankan.

Pertanyaan Terkait

QApa fokus utama penelitian model dunia dalam setahun terakhir, dan apa yang diwakili oleh V-JEPA 2?

AFokus utama penelitian model dunia awalnya terkonsentrasi pada pembelajaran representasi dan prediksi masa depan. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2) mewakili pencapaian dalam hal ini. Ini adalah model dunia video dari Meta yang dilatih sebelumnya dengan lebih dari 1 juta jam video internet, dikombinasikan dengan sedikit data interaksi robot, dan menunjukkan potensi model dunia dalam pemahaman, prediksi, dan perencanaan robot zero-shot.

QApa dua tekanan utama yang dihadapi sistem dalam mengontrol tugas multi-tahap (long-horizon), dan bagaimana HWM mengatasinya?

ADua tekanan utamanya adalah: 1) Kesalahan prediksi terus menumpuk selama rollout yang panjang, menyebabkan jalur menyimpang dari target. 2) Ruang pencarian tindakan berkembang pesat seiring dengan bertambahnya horizon perencanaan, menyebabkan biaya perencanaan meningkat. HWM mengatasinya dengan menambahkan struktur perencanaan berlapis di atas model dunia yang sudah memiliki kondisi tindakan. Sistem pertama-tama mengorganisir jalur tahapan, lalu menangani tindakan lokal.

QApa perbedaan utama antara V-JEPA 2, HWM, dan WAV dalam konteks model dunia?

AV-JEPA 2 lebih condong ke representasi dunia dan prediksi dasar. HWM lebih berfokus pada perencanaan jangka panjang (long-horizon planning). Sementara WAV (World Action Verifier) lebih berfokus pada identifikasi dan koreksi distorsi prediksi model itu sendiri. Meski titik perhatiannya berbeda, ketiganya secara bertahap menyatu.

QDalam eksperimen penempatan dan pengambilan dunia nyata, bagaimana kinerja HWM dibandingkan dengan model dunia satu lapis?

ADalam eksperimen penempatan dan pengambilan dunia nyata dimana sistem hanya diberikan kondisi target akhir tanpa tujuan perantara yang dipecah secara manual, HWM mencapai tingkat keberhasilan 70%, sedangkan model dunia satu lapis memiliki tingkat keberhasilan 0%.

QMenurut artikel, ke arah mana tahap berikutnya dari penelitian model dunia berkembang?

ATahap berikutnya dari penelitian model dunia telah bergeser dari hanya prediksi internal menuju kemampuan sistem yang dapat dieksekusi, dapat dikoreksi, dan dapat diverifikasi. Fokusnya adalah pada mengubah kemampuan prediksi menjadi kemampuan perencanaan, mengontrol propagasi kesalahan dalam tugas jangka panjang, mengkompres ruang pencarian, mengurangi biaya inferensi, dan mengorganisir prediksi, eksekusi, dan koreksi menjadi jalur yang dapat dijalankan.

marsbit5j yang lalu

Trading

Spot

Model Dunia Bergerak dari Prediksi ke Perencanaan, HWM dan Tantangan Kontrol Jangka Panjang

Abstrak

I. Mengapa Kontrol Jangka Panjang Masih Menjadi Kendala bagi Model Dunia

II. Bagaimana HWM Merekonstruksi Proses Perencanaan

III. Dari 0% ke 70%, Apa yang Ditunjukkan oleh Hasil Eksperimen

IV. Dari V-JEPA ke HWM Lalu ke WAV

V. Dari Prediksi Internal Menuju Sistem yang Dapat Dieksekusi

Pertanyaan Terkait

Bacaan Terkait

Michael Saylor: 'Kami Tidak Pernah Mengatakan bahwa Kami Tidak Akan Pernah Menjual Bitcoin'

"Gergaji Musim Panas" Berlanjut: Breakout $67.000 Akan Menjadi Awal Kenaikan Bitcoin

Perhatian Wajib Pekan Depan｜Undang-Undang CLARITY Diperkirakan Akan Masuk ke Pemungutan Suara Senat; SpaceX dan Circle Umumkan Laporan Keuangan (3-9 Agustus)

Saham Jatuh Lebih Parah daripada Kripto, Ke Mana Uangnya Pergi?

Dialog dengan Ray Dalio: Saat Ini Berada dalam Gelembung AI, 1% Portofolio Investasi Adalah Bitcoin

Trading

Kategori Populer

Tag Populer