Model Dunia Bergerak dari Prediksi ke Perencanaan, HWM dan Tantangan Kontrol Jangka Panjang

marsbitDipublikasikan tanggal 2026-04-17Terakhir diperbarui pada 2026-04-17

Abstrak

Model dunia, yang awalnya berfokus pada pembelajaran representasi dan prediksi masa depan (seperti V-JEPA 2 Meta), kini beralih ke perencanaan hierarkis untuk mengatasi kendali jangka panjang. Masalah utama dalam tugas multi-tahap, seperti operasi robot, adalah akumulasi kesalahan prediksi dan meluasnya ruang pencarian aksi. HWM (Hierarchical World Model) memperkenalkan struktur perencanaan dua lapis: lapisan atas mengatur jalur tahapan dalam skala waktu yang lebih lama, sementara lapisan bawah menangani eksekusi lokal. Pendekatan ini meningkatkan keberhasilan tugas dari 0% menjadi 70% dalam eksperimen, sekaligus mengurangi biaya komputasi. Bersama dengan V-JEPA (representasi dunia) dan WAV (verifikasi prediksi), HWM menunjukkan pergeseran fokus dari sekadar prediksi internal ke sistem yang dapat menjalankan, merencanakan, dan memverifikasi tindakan secara efektif.

Fokus penelitian model dunia dalam setahun terakhir awalnya terkonsentrasi pada pembelajaran representasi dan prediksi masa depan. Model pertama-tama memahami dunia, kemudian memproyeksikan keadaan masa depan secara internal. Jalur ini telah menghasilkan sejumlah karya representatif. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — seperangkat model dunia video yang dirilis Meta pada tahun 2025) menggunakan lebih dari 1 juta jam video internet untuk pelatihan awal, kemudian dikombinasikan dengan sedikit data interaksi robot, menunjukkan potensi model dunia dalam pemahaman, prediksi, dan perencanaan robot zero-shot.

Namun, model bisa memprediksi, tidak berarti model bisa menangani tugas panjang. Menghadapi kontrol multi-tahap, sistem biasanya mengalami dua tekanan. Satu, kesalahan prediksi akan terus menumpuk dalam rollout panjang (proyeksi multi-langkah berurutan), menyebabkan seluruh jalur semakin mudah menyimpang dari target. Dua, ruang pencarian aksi akan meluas dengan cepat seiring pertumbuhan horizon (jarak pandang perencanaan), menyebabkan biaya perencanaan terus naik. HWM tidak menulis ulang jalur pembelajaran dasar model dunia, tetapi menambahkan struktur perencanaan berlapis di atas model dunia bersyarat aksi yang sudah ada, memungkinkan sistem mengorganisir jalur tahapan terlebih dahulu, kemudian memproses aksi lokal.

Secara teknis, V-JEPA 2(https://ai.meta.com/research/vjepa/) lebih condong ke representasi dunia dan prediksi dasar, HWM lebih condong ke perencanaan jangka panjang, WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry,https://arxiv.org/abs/2604.01985) lebih condong ke identifikasi dan koreksi distorsi prediksi diri model oleh model itu sendiri. Tiga jalur ini perlahan mulai menyatu. Fokus penelitian model dunia telah bergeser dari sekadar memprediksi masa depan, menjadi bagaimana mengubah kemampuan prediksi menjadi kemampuan sistem yang dapat dieksekusi, dikoreksi, dan diverifikasi.

I. Mengapa Kontrol Jangka Panjang Masih Menjadi Kendala bagi Model Dunia

Kesulitan kontrol jangka panjang akan lebih mudah dipahami dalam tugas robot. Ambil contoh operasi lengan robot, mengambil sebuah cangkir lalu memasukkannya ke laci, ini bukanlah aksi tunggal, melainkan serangkaian langkah berkelanjutan. Sistem harus mendekati objek, menyesuaikan sikap, menyelesaikan pengambilan, berpindah ke posisi target, lalu menangani laci dan penempatan. Begitu rantainya panjang, dua masalah akan muncul bersamaan. Satu, kesalahan prediksi akan terus menumpuk sepanjang rollout, yang lain, ruang pencarian aksi akan meluas dengan cepat.

Yang sering kali kurang pada sistem, bukanlah kemampuan prediksi lokal, melainkan kemampuan untuk mengorganisir target jauh menjadi jalur tahapan. Banyak aksi dari sudut pandang lokal terlihat menyimpang dari target, tetapi sebenarnya adalah langkah perantara yang diperlukan untuk menyelesaikan target. Misalnya, mengangkat lengan terlebih dahulu sebelum mengambil, mundur sedikit dan menyesuaikan sudut sebelum membuka laci.

Dalam tugas demonstratif, model dunia sudah bisa memberikan prediksi yang koheren. Namun, begitu masuk ke skenario kontrol nyata, kinerja mulai menurun, dan masalah pun muncul. Tekanan tidak hanya berasal dari representasi itu sendiri, tetapi juga dari lapisan perencanaan yang belum cukup matang.

II. Bagaimana HWM Merekonstruksi Proses Perencanaan

HWM membagi proses perencanaan yang awalnya diselesaikan dalam satu lapisan menjadi dua lapisan. Lapisan atas bertanggung jawab atas arah tahapan pada skala waktu yang lebih lama, lapisan bawah bertanggung jawab atas eksekusi lokal pada skala waktu yang lebih pendek. Model tidak merencanakan hanya dengan satu ritme, tetapi merencanakan secara bersamaan dengan dua ritme waktu yang berbeda.

Metode satu lapisan saat menangani tugas panjang, biasanya perlu mencari langsung seluruh rantai aksi dalam ruang aksi dasar. Semakin panjang tugas, biaya pencarian semakin tinggi, dan kesalahan prediksi juga semakin mudah menyebar sepanjang multi-langkah rollout. Setelah HWM memisahkan prosesnya, lapisan tinggi hanya menangani pemilihan rute pada skala waktu yang lebih lama, lapisan rendah hanya menangani penyelesaian aksi segmen saat ini, seluruh tugas panjang dibagi menjadi beberapa tugas yang lebih pendek, kompleksitas perencanaan pun turun.

Ada juga desain kunci di sini, aksi lapisan tinggi bukan hanya sekadar mencatat selisih antara dua keadaan, tetapi menggunakan sebuah encoder untuk mengompresi sejumlah aksi lapisan rendah menjadi representasi aksi yang lebih tinggi. Untuk tugas panjang, kuncinya tidak hanya pada seberapa banyak selisih antara titik awal dan akhir, tetapi lebih pada bagaimana langkah-langkah perantara diorganisir. Jika lapisan tinggi hanya melihat selisih perpindahan, mudah kehilangan informasi jalur dalam rantai aksi ini.

HWM mencerminkan cara organisasi tugas berlapis. Menghadapi pekerjaan multi-tahap, sistem tidak lagi membuka semua aksi sekaligus, tetapi pertama-tama membentuk jalur tahapan yang lebih kasar, kemudian mengeksekusi dan memperbaiki segmen demi segmen. Setelah hubungan hierarkis ini masuk ke dalam model dunia, kemampuan prediksi akan mulai lebih stabil diubah menjadi kemampuan perencanaan.

III. Dari 0% ke 70%, Apa yang Ditunjukkan oleh Hasil Eksperimen

Dalam tugas mengambil dan menempatkan di dunia nyata yang disiapkan dalam makalah, sistem hanya diberikan kondisi target akhir, tanpa menyediakan target perantara yang sudah dipecahkan secara manual. Dalam kondisi ini, tingkat keberhasilan HWM mencapai 70%, sedangkan model dunia satu lapis tingkat keberhasilannya 0%. Tugas panjang yang awalnya hampir tidak dapat diselesaikan, setelah memperkenalkan perencanaan berlapis, menjadi hasil yang kemungkinan besar dapat direalisasikan.

Makalah ini juga menguji tugas operasi mendorong objek dan navigasi labirin dalam simulasi. Hasilnya menunjukkan bahwa perencanaan berlapis tidak hanya meningkatkan tingkat keberhasilan, tetapi juga mengurangi biaya komputasi tahap perencanaan. Di beberapa lingkungan, biaya komputasi tahap perencanaan dapat dikurangi hingga sekitar seperempat dari biaya semula, sambil mempertahankan tingkat keberhasilan yang lebih tinggi atau setara.

IV. Dari V-JEPA ke HWM Lalu ke WAV

V-JEPA 2 mewakili jalur representasi dunia. V-JEPA 2 menggunakan lebih dari 1 juta jam video internet untuk pelatihan awal, kemudian dikombinasikan dengan kurang dari 62 jam video robot untuk post-training (pelatihan tertarget setelah pelatihan awal), mendapatkan latent action-conditioned world model (model dunia yang memprediksi dalam ruang representasi abstrak dengan menggabungkan informasi aksi) yang dapat digunakan untuk memahami, memprediksi, dan merencanakan dunia fisik. Yang ditunjukkannya adalah model dapat memperoleh representasi dunia melalui pengamatan skala besar, dan mentransfer representasi ini ke perencanaan robot.

HWM berada pada langkah selanjutnya. Model sudah memiliki representasi dunia dan kemampuan prediksi dasar, tetapi begitu masuk ke kontrol multi-tahap, masalah penumpukan kesalahan dan perluasan ruang pencarian akan meledak. HWM tidak mengubah jalur pembelajaran representasi dasar, tetapi menambahkan struktur perencanaan multi-skala waktu di atas model dunia bersyarat aksi yang sudah ada. Masalah yang ditanganinya adalah bagaimana model mengorganisir target jauh menjadi sekelompok langkah perantara, kemudian memajukannya segmen demi segmen.

WAV lebih jauh memfokuskan pada kemampuan verifikasi. Model dunia yang ingin masuk ke skenario optimasi kebijakan dan penyebaran, tidak boleh hanya bisa memprediksi, tetapi juga harus bisa menemukan di area mana dirinya mudah terdistorsi, dan melakukan koreksi berdasarkan hal tersebut. Fokusnya adalah bagaimana model memeriksa dirinya sendiri.

V-JEPA condong ke representasi dunia, HWM condong ke perencanaan tugas, WAV condong ke verifikasi hasil. Meskipun ketiganya memiliki fokus yang berbeda, arah besarnya konsisten. Tahap selanjutnya model dunia, tidak hanya sekadar prediksi internal, tetapi prediksi, perencanaan, dan verifikasi perlahan terhubung menjadi satu set kemampuan sistem.

V. Dari Prediksi Internal Menuju Sistem yang Dapat Dieksekusi

Banyak karya model dunia sebelumnya, lebih mendekati peningkatan kelangsungan prediksi keadaan masa depan, atau peningkatan stabilitas representasi dunia internal. Namun, fokus penelitian saat ini telah mulai berubah, sistem harus membentuk penilaian terhadap lingkungan, juga mengubah penilaian menjadi aksi, dan terus memperbaiki langkah selanjutnya setelah hasilnya keluar. Ingin lebih mendekati penyebaran nyata, perlu mengontrol penyebaran kesalahan dalam tugas jangka panjang, mengompres ruang pencarian, dan menurunkan biaya penalaran.

Perubahan semacam ini juga akan mempengaruhi agen AI. Banyak sistem agen sudah bisa menyelesaikan tugas tautan pendek, seperti memanggil alat, membaca file, mengeksekusi beberapa langkah instruksi. Namun, begitu tugas menjadi tautan panjang, multi-tahap, memerlukan perencanaan ulang di tengah jalan, kinerja akan menurun. Ini tidak berbeda esensinya dengan kesulitan dalam kontrol robot, yaitu kemampuan organisasi jalur tingkat tinggi yang tidak memadai, menyebabkan eksekusi lokal dan target keseluruhan terlepas.

Pemikiran berlapis yang disediakan HWM, lapisan tinggi bertanggung jawab atas jalur dan target tahapan, lapisan rendah bertanggung jawab atas aksi lokal dan pemrosesan umpan balik, ditambah verifikasi hasil, struktur berlapis seperti ini akan terus muncul di lebih banyak sistem di masa depan. Tahap selanjutnya model dunia, fokusnya juga tidak hanya memprediksi masa depan, tetapi mengorganisir prediksi, eksekusi, dan koreksi menjadi sebuah jalur yang dapat dijalankan.

Pertanyaan Terkait

QApa fokus utama penelitian model dunia dalam setahun terakhir, dan apa yang diwakili oleh V-JEPA 2?

AFokus utama penelitian model dunia awalnya terkonsentrasi pada pembelajaran representasi dan prediksi masa depan. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2) mewakili pencapaian dalam hal ini. Ini adalah model dunia video dari Meta yang dilatih sebelumnya dengan lebih dari 1 juta jam video internet, dikombinasikan dengan sedikit data interaksi robot, dan menunjukkan potensi model dunia dalam pemahaman, prediksi, dan perencanaan robot zero-shot.

QApa dua tekanan utama yang dihadapi sistem dalam mengontrol tugas multi-tahap (long-horizon), dan bagaimana HWM mengatasinya?

ADua tekanan utamanya adalah: 1) Kesalahan prediksi terus menumpuk selama rollout yang panjang, menyebabkan jalur menyimpang dari target. 2) Ruang pencarian tindakan berkembang pesat seiring dengan bertambahnya horizon perencanaan, menyebabkan biaya perencanaan meningkat. HWM mengatasinya dengan menambahkan struktur perencanaan berlapis di atas model dunia yang sudah memiliki kondisi tindakan. Sistem pertama-tama mengorganisir jalur tahapan, lalu menangani tindakan lokal.

QApa perbedaan utama antara V-JEPA 2, HWM, dan WAV dalam konteks model dunia?

AV-JEPA 2 lebih condong ke representasi dunia dan prediksi dasar. HWM lebih berfokus pada perencanaan jangka panjang (long-horizon planning). Sementara WAV (World Action Verifier) lebih berfokus pada identifikasi dan koreksi distorsi prediksi model itu sendiri. Meski titik perhatiannya berbeda, ketiganya secara bertahap menyatu.

QDalam eksperimen penempatan dan pengambilan dunia nyata, bagaimana kinerja HWM dibandingkan dengan model dunia satu lapis?

ADalam eksperimen penempatan dan pengambilan dunia nyata dimana sistem hanya diberikan kondisi target akhir tanpa tujuan perantara yang dipecah secara manual, HWM mencapai tingkat keberhasilan 70%, sedangkan model dunia satu lapis memiliki tingkat keberhasilan 0%.

QMenurut artikel, ke arah mana tahap berikutnya dari penelitian model dunia berkembang?

ATahap berikutnya dari penelitian model dunia telah bergeser dari hanya prediksi internal menuju kemampuan sistem yang dapat dieksekusi, dapat dikoreksi, dan dapat diverifikasi. Fokusnya adalah pada mengubah kemampuan prediksi menjadi kemampuan perencanaan, mengontrol propagasi kesalahan dalam tugas jangka panjang, mengkompres ruang pencarian, mengurangi biaya inferensi, dan mengorganisir prediksi, eksekusi, dan koreksi menjadi jalur yang dapat dijalankan.

Bacaan Terkait

Pendiri Zcash Mengatakan Audit AI Anthropic Tidak Menemukan Bug Serius dalam Protokol

Pendiri Zcash Zooko Wilcox mengumumkan bahwa audit keamanan pada protokol Zcash, yang dilakukan oleh model AI Mythos dari Anthropic atas permintaan Shielded Labs, tidak menemukan bug serius baru. Hasil audit ini memberikan gambaran positif mengenai ketahanan keamanan Zcash, yang merupakan aset kripto berfokus privasi yang menghadapi tekanan regulasi dan pengawasan teknis berkelanjutan. Wilcox menekankan bahwa audit ini adalah bagian dari upaya melindungi pengguna Zcash. Meskipun ulasan berbantuan AI bukan pengganti pekerjaan keamanan manusia, alat semacam itu semakin penting untuk memindai basis kode yang kompleks dan mengidentifikasi potensi kelemahan. Bagi protokol privasi seperti Zcash, standar keamanan harus sangat tinggi karena pengguna mengandalkan kekuatan kriptografi dan kualitas implementasi. Tidak ditemukannya bug serius baru tidak berarti Zcash bebas risiko, tetapi hasil ini dapat mendukung kepercayaan pengguna dan pengembang. Cerita ini juga menggambarkan tren berkembang di ekosistem kripto, di mana model AI mulai diintegrasikan ke dalam pekerjaan audit keamanan infrastruktur, menambah kecepatan dan cakupan analisis, meskipun temuan AI tetap memerlukan interpretasi yang hati-hati oleh pakar manusia. Perkembangan ini mencerminkan pergeseran lebih luas dalam industri kripto, di mana pembaruan infrastruktur, laporan keamanan, dan kualitas protokol menjadi semakin penting dalam percakapan pasar, seiring dengan pergerakan harga jangka pendek.

bitcoinist5j yang lalu

Pendiri Zcash Mengatakan Audit AI Anthropic Tidak Menemukan Bug Serius dalam Protokol

bitcoinist5j yang lalu

Bitcoin Ke $400.000? Analis Gunakan Overlay Emas untuk Menyampaikan Kasus Berani untuk Tahun 2026

Analis Vivek Sen menyatakan bahwa Bitcoin (BTC) berpotensi mencapai $400.000 pada tahun 2026. Klaim ini didasarkan pada analisis overlay grafik, di mana pola pergerakan harga Bitcoin saat ini dibandingkan dengan pola breakout historis emas. Sen berpendapat bahwa jika Bitcoin terus mengikuti struktur serupa dengan emas, target harga tersebut mungkin tercapai. Namun, artikel menekankan bahwa perbandingan visual semata bukanlah model perkiraan yang pasti. Bitcoin dan emas memiliki perbedaan mendasar dalam hal ukuran pasar, likuiditas, volatilitas, dan basis investor. Pasar Bitcoin juga lebih refleksif, dipengaruhi oleh posisi derivatif, aliran dana ETF, dan leverage di ekosistem kripto. Untuk mendukung skenario kenaikan ekstrem tersebut, diperlukan beberapa faktor pendorong utama, seperti: aliran masuk institusional yang berkelanjutan melalui ETF Bitcoin, kondisi makroekonomi yang mendukung aset penyimpan nilai, likuiditas yang membaik, dan lingkungan pasar kripto yang optimis secara keseluruhan. Pada intinya, target $400.000 merupakan skenario optimis yang bersifat spekulatif dan lebih merupakan komentar pasar daripada prediksi harga yang terkonfirmasi. Keberhasilannya sangat bergantung pada apakah tren bullish Bitcoin saat ini dapat dipertahankan dan didukung oleh faktor fundamental dan aliran dana yang nyata. Tanpa konfirmasi tersebut, overlay grafik dengan emas dianggap hanya sebagai analogi yang menarik namun berisiko tinggi.

bitcoinist6j yang lalu

Bitcoin Ke $400.000? Analis Gunakan Overlay Emas untuk Menyampaikan Kasus Berani untuk Tahun 2026

bitcoinist6j yang lalu

Jam Pemotongan Hadiah Bitcoin Menunjukkan Fase Dasar, Tetapi Sinyal Siklus Perlu Kehati-hatian

**Ringkasan Artikel:** Analis Crypto Rover berpendapat bahwa Bitcoin (BTC) sedang berada dalam fase "pembentukan dasar" (*bottoming phase*) berdasarkan siklus *halving*-nya. Ia membagikan bagan yang menunjukkan pola berulang pasca-*halving*, mengklaim bahwa ritme dan struktur pasar saat ini mirip dengan siklus-siklus sebelumnya. Ini mendukung narasi populer di kalangan trader bahwa fase konsolidasi saat ini mungkin akan diikuti oleh fase bullish yang lebih kuat. **Namun, klaim ini perlu disikapi dengan hati-hati.** 1. Sumber (Crypto Rover) dikategorikan sebagai influencer berisiko tinggi yang sering kali terlalu bullish dan promosional. 2. Analisis siklus *halving* menjadi kurang andal seiring matangnya pasar Bitcoin. Pasar kini melibatkan ETF spot, arus derivatif yang lebih besar, dan pengaruh makroekonomi, yang tidak ada di siklus awal. 3. Bagan yang ditampilkan tidak dilengkapi model statistik, konfirmasi *on-chain*, atau level invalidas yang jelas. **Kesimpulan untuk Trader:** Pandangan siklus ini memberikan kerangka waktu naratif bagi para *bull* (pihak yang optimis). Namun, Bitcoin masih perlu membuktikan bahwa pembeli mampu mempertahankan level support kunci dan membentuk *higher low*. Sinyal nyata harus datang dari struktur harga, likuiditas, dan perilaku *on-chain*. Saat ini, argumen "jam *halving*" lebih tepat dianggap sebagai komentar pasar yang menarik, bukan sinyal trading yang terkonfirmasi.

bitcoinist8j yang lalu

Jam Pemotongan Hadiah Bitcoin Menunjukkan Fase Dasar, Tetapi Sinyal Siklus Perlu Kehati-hatian

bitcoinist8j yang lalu

Trading

Spot
Futures
活动图片