Model Dunia Bergerak dari Prediksi ke Perencanaan, HWM dan Tantangan Kontrol Jangka Panjang

marsbitDipublikasikan tanggal 2026-04-17Terakhir diperbarui pada 2026-04-17

Abstrak

Model dunia, yang awalnya berfokus pada pembelajaran representasi dan prediksi masa depan (seperti V-JEPA 2 Meta), kini beralih ke perencanaan hierarkis untuk mengatasi kendali jangka panjang. Masalah utama dalam tugas multi-tahap, seperti operasi robot, adalah akumulasi kesalahan prediksi dan meluasnya ruang pencarian aksi. HWM (Hierarchical World Model) memperkenalkan struktur perencanaan dua lapis: lapisan atas mengatur jalur tahapan dalam skala waktu yang lebih lama, sementara lapisan bawah menangani eksekusi lokal. Pendekatan ini meningkatkan keberhasilan tugas dari 0% menjadi 70% dalam eksperimen, sekaligus mengurangi biaya komputasi. Bersama dengan V-JEPA (representasi dunia) dan WAV (verifikasi prediksi), HWM menunjukkan pergeseran fokus dari sekadar prediksi internal ke sistem yang dapat menjalankan, merencanakan, dan memverifikasi tindakan secara efektif.

Fokus penelitian model dunia dalam setahun terakhir awalnya terkonsentrasi pada pembelajaran representasi dan prediksi masa depan. Model pertama-tama memahami dunia, kemudian memproyeksikan keadaan masa depan secara internal. Jalur ini telah menghasilkan sejumlah karya representatif. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — seperangkat model dunia video yang dirilis Meta pada tahun 2025) menggunakan lebih dari 1 juta jam video internet untuk pelatihan awal, kemudian dikombinasikan dengan sedikit data interaksi robot, menunjukkan potensi model dunia dalam pemahaman, prediksi, dan perencanaan robot zero-shot.

Namun, model bisa memprediksi, tidak berarti model bisa menangani tugas panjang. Menghadapi kontrol multi-tahap, sistem biasanya mengalami dua tekanan. Satu, kesalahan prediksi akan terus menumpuk dalam rollout panjang (proyeksi multi-langkah berurutan), menyebabkan seluruh jalur semakin mudah menyimpang dari target. Dua, ruang pencarian aksi akan meluas dengan cepat seiring pertumbuhan horizon (jarak pandang perencanaan), menyebabkan biaya perencanaan terus naik. HWM tidak menulis ulang jalur pembelajaran dasar model dunia, tetapi menambahkan struktur perencanaan berlapis di atas model dunia bersyarat aksi yang sudah ada, memungkinkan sistem mengorganisir jalur tahapan terlebih dahulu, kemudian memproses aksi lokal.

Secara teknis, V-JEPA 2(https://ai.meta.com/research/vjepa/) lebih condong ke representasi dunia dan prediksi dasar, HWM lebih condong ke perencanaan jangka panjang, WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry,https://arxiv.org/abs/2604.01985) lebih condong ke identifikasi dan koreksi distorsi prediksi diri model oleh model itu sendiri. Tiga jalur ini perlahan mulai menyatu. Fokus penelitian model dunia telah bergeser dari sekadar memprediksi masa depan, menjadi bagaimana mengubah kemampuan prediksi menjadi kemampuan sistem yang dapat dieksekusi, dikoreksi, dan diverifikasi.

I. Mengapa Kontrol Jangka Panjang Masih Menjadi Kendala bagi Model Dunia

Kesulitan kontrol jangka panjang akan lebih mudah dipahami dalam tugas robot. Ambil contoh operasi lengan robot, mengambil sebuah cangkir lalu memasukkannya ke laci, ini bukanlah aksi tunggal, melainkan serangkaian langkah berkelanjutan. Sistem harus mendekati objek, menyesuaikan sikap, menyelesaikan pengambilan, berpindah ke posisi target, lalu menangani laci dan penempatan. Begitu rantainya panjang, dua masalah akan muncul bersamaan. Satu, kesalahan prediksi akan terus menumpuk sepanjang rollout, yang lain, ruang pencarian aksi akan meluas dengan cepat.

Yang sering kali kurang pada sistem, bukanlah kemampuan prediksi lokal, melainkan kemampuan untuk mengorganisir target jauh menjadi jalur tahapan. Banyak aksi dari sudut pandang lokal terlihat menyimpang dari target, tetapi sebenarnya adalah langkah perantara yang diperlukan untuk menyelesaikan target. Misalnya, mengangkat lengan terlebih dahulu sebelum mengambil, mundur sedikit dan menyesuaikan sudut sebelum membuka laci.

Dalam tugas demonstratif, model dunia sudah bisa memberikan prediksi yang koheren. Namun, begitu masuk ke skenario kontrol nyata, kinerja mulai menurun, dan masalah pun muncul. Tekanan tidak hanya berasal dari representasi itu sendiri, tetapi juga dari lapisan perencanaan yang belum cukup matang.

II. Bagaimana HWM Merekonstruksi Proses Perencanaan

HWM membagi proses perencanaan yang awalnya diselesaikan dalam satu lapisan menjadi dua lapisan. Lapisan atas bertanggung jawab atas arah tahapan pada skala waktu yang lebih lama, lapisan bawah bertanggung jawab atas eksekusi lokal pada skala waktu yang lebih pendek. Model tidak merencanakan hanya dengan satu ritme, tetapi merencanakan secara bersamaan dengan dua ritme waktu yang berbeda.

Metode satu lapisan saat menangani tugas panjang, biasanya perlu mencari langsung seluruh rantai aksi dalam ruang aksi dasar. Semakin panjang tugas, biaya pencarian semakin tinggi, dan kesalahan prediksi juga semakin mudah menyebar sepanjang multi-langkah rollout. Setelah HWM memisahkan prosesnya, lapisan tinggi hanya menangani pemilihan rute pada skala waktu yang lebih lama, lapisan rendah hanya menangani penyelesaian aksi segmen saat ini, seluruh tugas panjang dibagi menjadi beberapa tugas yang lebih pendek, kompleksitas perencanaan pun turun.

Ada juga desain kunci di sini, aksi lapisan tinggi bukan hanya sekadar mencatat selisih antara dua keadaan, tetapi menggunakan sebuah encoder untuk mengompresi sejumlah aksi lapisan rendah menjadi representasi aksi yang lebih tinggi. Untuk tugas panjang, kuncinya tidak hanya pada seberapa banyak selisih antara titik awal dan akhir, tetapi lebih pada bagaimana langkah-langkah perantara diorganisir. Jika lapisan tinggi hanya melihat selisih perpindahan, mudah kehilangan informasi jalur dalam rantai aksi ini.

HWM mencerminkan cara organisasi tugas berlapis. Menghadapi pekerjaan multi-tahap, sistem tidak lagi membuka semua aksi sekaligus, tetapi pertama-tama membentuk jalur tahapan yang lebih kasar, kemudian mengeksekusi dan memperbaiki segmen demi segmen. Setelah hubungan hierarkis ini masuk ke dalam model dunia, kemampuan prediksi akan mulai lebih stabil diubah menjadi kemampuan perencanaan.

III. Dari 0% ke 70%, Apa yang Ditunjukkan oleh Hasil Eksperimen

Dalam tugas mengambil dan menempatkan di dunia nyata yang disiapkan dalam makalah, sistem hanya diberikan kondisi target akhir, tanpa menyediakan target perantara yang sudah dipecahkan secara manual. Dalam kondisi ini, tingkat keberhasilan HWM mencapai 70%, sedangkan model dunia satu lapis tingkat keberhasilannya 0%. Tugas panjang yang awalnya hampir tidak dapat diselesaikan, setelah memperkenalkan perencanaan berlapis, menjadi hasil yang kemungkinan besar dapat direalisasikan.

Makalah ini juga menguji tugas operasi mendorong objek dan navigasi labirin dalam simulasi. Hasilnya menunjukkan bahwa perencanaan berlapis tidak hanya meningkatkan tingkat keberhasilan, tetapi juga mengurangi biaya komputasi tahap perencanaan. Di beberapa lingkungan, biaya komputasi tahap perencanaan dapat dikurangi hingga sekitar seperempat dari biaya semula, sambil mempertahankan tingkat keberhasilan yang lebih tinggi atau setara.

IV. Dari V-JEPA ke HWM Lalu ke WAV

V-JEPA 2 mewakili jalur representasi dunia. V-JEPA 2 menggunakan lebih dari 1 juta jam video internet untuk pelatihan awal, kemudian dikombinasikan dengan kurang dari 62 jam video robot untuk post-training (pelatihan tertarget setelah pelatihan awal), mendapatkan latent action-conditioned world model (model dunia yang memprediksi dalam ruang representasi abstrak dengan menggabungkan informasi aksi) yang dapat digunakan untuk memahami, memprediksi, dan merencanakan dunia fisik. Yang ditunjukkannya adalah model dapat memperoleh representasi dunia melalui pengamatan skala besar, dan mentransfer representasi ini ke perencanaan robot.

HWM berada pada langkah selanjutnya. Model sudah memiliki representasi dunia dan kemampuan prediksi dasar, tetapi begitu masuk ke kontrol multi-tahap, masalah penumpukan kesalahan dan perluasan ruang pencarian akan meledak. HWM tidak mengubah jalur pembelajaran representasi dasar, tetapi menambahkan struktur perencanaan multi-skala waktu di atas model dunia bersyarat aksi yang sudah ada. Masalah yang ditanganinya adalah bagaimana model mengorganisir target jauh menjadi sekelompok langkah perantara, kemudian memajukannya segmen demi segmen.

WAV lebih jauh memfokuskan pada kemampuan verifikasi. Model dunia yang ingin masuk ke skenario optimasi kebijakan dan penyebaran, tidak boleh hanya bisa memprediksi, tetapi juga harus bisa menemukan di area mana dirinya mudah terdistorsi, dan melakukan koreksi berdasarkan hal tersebut. Fokusnya adalah bagaimana model memeriksa dirinya sendiri.

V-JEPA condong ke representasi dunia, HWM condong ke perencanaan tugas, WAV condong ke verifikasi hasil. Meskipun ketiganya memiliki fokus yang berbeda, arah besarnya konsisten. Tahap selanjutnya model dunia, tidak hanya sekadar prediksi internal, tetapi prediksi, perencanaan, dan verifikasi perlahan terhubung menjadi satu set kemampuan sistem.

V. Dari Prediksi Internal Menuju Sistem yang Dapat Dieksekusi

Banyak karya model dunia sebelumnya, lebih mendekati peningkatan kelangsungan prediksi keadaan masa depan, atau peningkatan stabilitas representasi dunia internal. Namun, fokus penelitian saat ini telah mulai berubah, sistem harus membentuk penilaian terhadap lingkungan, juga mengubah penilaian menjadi aksi, dan terus memperbaiki langkah selanjutnya setelah hasilnya keluar. Ingin lebih mendekati penyebaran nyata, perlu mengontrol penyebaran kesalahan dalam tugas jangka panjang, mengompres ruang pencarian, dan menurunkan biaya penalaran.

Perubahan semacam ini juga akan mempengaruhi agen AI. Banyak sistem agen sudah bisa menyelesaikan tugas tautan pendek, seperti memanggil alat, membaca file, mengeksekusi beberapa langkah instruksi. Namun, begitu tugas menjadi tautan panjang, multi-tahap, memerlukan perencanaan ulang di tengah jalan, kinerja akan menurun. Ini tidak berbeda esensinya dengan kesulitan dalam kontrol robot, yaitu kemampuan organisasi jalur tingkat tinggi yang tidak memadai, menyebabkan eksekusi lokal dan target keseluruhan terlepas.

Pemikiran berlapis yang disediakan HWM, lapisan tinggi bertanggung jawab atas jalur dan target tahapan, lapisan rendah bertanggung jawab atas aksi lokal dan pemrosesan umpan balik, ditambah verifikasi hasil, struktur berlapis seperti ini akan terus muncul di lebih banyak sistem di masa depan. Tahap selanjutnya model dunia, fokusnya juga tidak hanya memprediksi masa depan, tetapi mengorganisir prediksi, eksekusi, dan koreksi menjadi sebuah jalur yang dapat dijalankan.

Pertanyaan Terkait

QApa fokus utama penelitian model dunia dalam setahun terakhir, dan apa yang diwakili oleh V-JEPA 2?

AFokus utama penelitian model dunia awalnya terkonsentrasi pada pembelajaran representasi dan prediksi masa depan. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2) mewakili pencapaian dalam hal ini. Ini adalah model dunia video dari Meta yang dilatih sebelumnya dengan lebih dari 1 juta jam video internet, dikombinasikan dengan sedikit data interaksi robot, dan menunjukkan potensi model dunia dalam pemahaman, prediksi, dan perencanaan robot zero-shot.

QApa dua tekanan utama yang dihadapi sistem dalam mengontrol tugas multi-tahap (long-horizon), dan bagaimana HWM mengatasinya?

ADua tekanan utamanya adalah: 1) Kesalahan prediksi terus menumpuk selama rollout yang panjang, menyebabkan jalur menyimpang dari target. 2) Ruang pencarian tindakan berkembang pesat seiring dengan bertambahnya horizon perencanaan, menyebabkan biaya perencanaan meningkat. HWM mengatasinya dengan menambahkan struktur perencanaan berlapis di atas model dunia yang sudah memiliki kondisi tindakan. Sistem pertama-tama mengorganisir jalur tahapan, lalu menangani tindakan lokal.

QApa perbedaan utama antara V-JEPA 2, HWM, dan WAV dalam konteks model dunia?

AV-JEPA 2 lebih condong ke representasi dunia dan prediksi dasar. HWM lebih berfokus pada perencanaan jangka panjang (long-horizon planning). Sementara WAV (World Action Verifier) lebih berfokus pada identifikasi dan koreksi distorsi prediksi model itu sendiri. Meski titik perhatiannya berbeda, ketiganya secara bertahap menyatu.

QDalam eksperimen penempatan dan pengambilan dunia nyata, bagaimana kinerja HWM dibandingkan dengan model dunia satu lapis?

ADalam eksperimen penempatan dan pengambilan dunia nyata dimana sistem hanya diberikan kondisi target akhir tanpa tujuan perantara yang dipecah secara manual, HWM mencapai tingkat keberhasilan 70%, sedangkan model dunia satu lapis memiliki tingkat keberhasilan 0%.

QMenurut artikel, ke arah mana tahap berikutnya dari penelitian model dunia berkembang?

ATahap berikutnya dari penelitian model dunia telah bergeser dari hanya prediksi internal menuju kemampuan sistem yang dapat dieksekusi, dapat dikoreksi, dan dapat diverifikasi. Fokusnya adalah pada mengubah kemampuan prediksi menjadi kemampuan perencanaan, mengontrol propagasi kesalahan dalam tugas jangka panjang, mengkompres ruang pencarian, mengurangi biaya inferensi, dan mengorganisir prediksi, eksekusi, dan koreksi menjadi jalur yang dapat dijalankan.

Bacaan Terkait

Uji Coba Hy3 preview Tencent Hunyuan: AI Tencent Akhirnya Bisa Diandalkan?

Ringkasan: Tencent merilis model bahasa AI terbaru mereka, Hunyuan Hy3 Preview, yang diklaim sebagai model paling cerdas mereka hingga saat ini. Model ini menggunakan arsitektur hybrid expert dengan 295B parameter total dan mendukung konteks hingga 256K. Kemampuannya diuji dalam empat area utama: 1. **Penalaran:** Kuat dalam logika deduktif kompleks, tetapi kurang konsisten dalam mengidentifikasi jebakan atau teka-teki. 2. **Pembelajaran Kontekstual & Kepatuhan Instruksi:** Sangat baik dalam mengekstrak informasi dari teks berantakan dan mengikuti aturan bahasa baru. 3. **Kode & Agen:** Mampu menghasilkan kode dasar (seperti game snake) dan menggunakan alat, tetapi memiliki keterbatasan dalam menyelesaikan tugas analisis data yang kompleks secara menyeluruh. 4. **Percakapan Alami:** Meningkat pesat. Percakapan terasa lebih alami dan kurang kaku, sementara tulisan kreatifnya lancar dan mampu meniru gaya penulisan tertentu dengan baik. Kesimpulannya, Hy3 Preview adalah model yang solid dan praktis tanpa kelemahan mencolok, menandakan kemajuan signifikan bagi Tencent di bidang AI. Meski mungkin bukan yang terhebat di semua bidang, model ini merupakan langkah penting untuk mengejar ketertinggalan dan menyediakan model AI yang dapat digunakan di seluruh ekosistem produk Tencent.

marsbit2j yang lalu

Uji Coba Hy3 preview Tencent Hunyuan: AI Tencent Akhirnya Bisa Diandalkan?

marsbit2j yang lalu

Di Balik Kehebohan DeepSeek V4: Silicon Valley 'Membangun Tembok', China 'Membuka Jalan'

DeepSeek V4, model AI canggih China, meluncur pada 24 April dan langsung memuncaki peringkat model open-source Hugging Face. Dua inovasi utamanya adalah: konteks ultra-panjang hingga jutaan token dengan efisiensi cache KV hanya 10% dari V3.2, serta adaptasi optimal dengan chip domestik seperti Ascend dan Cambricon melalui kolaborasi erat dengan Huawei. Bersamaan dengan itu, Kimi K2.6 juga dirilis sebagai model open-source andalan China. Berbeda dengan persaingan sengit model closed-source AS (seperti OpenAI, Anthropic, dan Google) yang saling serang dan berfokus pada perlindungan kepentingan komersial, model China justru berkolaborasi melalui open-source. DeepSeek dan MoonShot (pembuat Kimi) saling berbagi inovasi seperti arsitektur MLA dan optimizer Muon, menciptakan evolusi bersama yang memperkuat ekosistem. Meski pendapatan model China masih di bawah raksasa AS, efisiensi pelatihan mereka sangat tinggi (hanya sebagian kecil biaya OpenAI) dan penggunaan token global melalui open-source telah melampaui AS. Laporan memprediksi pertumbuhan eksponensial permintaan AI di China, menunjukkan bahwa pendekatan kolaboratif open-source tidak hanya mengurangi biaya tetapi juga membangun fondasi kuat menuju AGI yang berkelanjutan dan mandiri, didukung oleh integrasi erat dengan chip domestik.

marsbit2j yang lalu

Di Balik Kehebohan DeepSeek V4: Silicon Valley 'Membangun Tembok', China 'Membuka Jalan'

marsbit2j yang lalu

OpenClaw dan Hermes, Mana yang Lebih Cocok untuk Anda?

Ringkasan: Pada awal 2026, dua proyek AI Agent paling populer, OpenClaw dan Hermes Agent, bersaing ketat. OpenClaw, dengan filosofi "kontrol dan kustomisasi tinggi", menawarkan ekosistem skill yang luas (44.000+ skill di ClawHub), fleksibilitas model (dukung banyak penyedia model), dan integrasi multi-platform. Namun, ia memerlukan konfigurasi manual yang kompleks dan biaya token yang relatif tinggi. Sebaliknya, Hermes Agent berfilosofi "otomatis dan efisien". Ia menawarkan kemampuan pembelajaran mandiri (secara otomatis meningkatkan alur kerja pengguna), biaya token yang jauh lebih rendah (hingga 90%), dan penggunaan yang mudah (40+ alat built-in). Namun, integrasi channel dan fitur multi-agentnya masih terbatas. Pilihan tergantung pada kebutuhan: OpenClaw cocok untuk pengguna yang ingin kontrol penuh dan tidak masalah dengan konfigurasi rumit. Hermes lebih cocok untuk pengguna yang mengutamakan kemudahan, biaya rendah, dan kemampuan belajar otomatis. Seperti analogi Ferrari vs Honda, keduanya ditujukan untuk jenis pengguna yang berbeda.

marsbit2j yang lalu

OpenClaw dan Hermes, Mana yang Lebih Cocok untuk Anda?

marsbit2j yang lalu

Keterbatasan Komputasi, Apa yang Membuat DeepSeek-V4 Berani Open Source?

DeepSeek meluncurkan model bahasa besar (LLM) terbaru mereka, DeepSeek-V4, dalam versi pratinjau yang juga bersifat open source. Model ini menawarkan kemampuan konteks ultra-panjang hingga 1 juta token, yang sebelumnya hanya tersedia di layanan berbayar perusahaan teknologi besar. Namun, DeepSeek secara terbuka mengakui keterbatasan throughput layanan Pro-nya karena kendala komputasi high-end. V4-Pro, dengan 1.6T parameter total namun hanya mengaktifkan 49B parameter selama inferensi, menunjukkan kinerja kuat dalam tugas-tugas seperti pemrograman dan penalaran. Ini dicapai melalui optimasi arsitektur yang mendalam, termasuk mekanisme perhatian yang disempurnakan dan teknik sparse attention. Sementara itu, versi Flash, dengan 284B parameter total dan hanya 13B parameter yang diaktifkan, dirancang untuk efisiensi. Ini memungkinkan operasi pada perangkat keras komputasi yang lebih terjangkau dan membuka peluang untuk adopsi yang lebih luas oleh pengembang dan bisnis skala menengah. DeepSeek juga berfokus pada adaptasi dengan chip komputasi domestik Tiongkok, seperti Ascend dari Huawei dan Cambricon, meskipun tantangan dalam kinerja dan pasokan perangkat keras tetap ada. Peluncuran ini juga dilihat sebagai respons strategis terhadap persaingan pasar yang ketat dan pergantian personel inti, menunjukkan ketahanan perusahaan dalam melanjutkan inovasi teknis.

marsbit9j yang lalu

Keterbatasan Komputasi, Apa yang Membuat DeepSeek-V4 Berani Open Source?

marsbit9j yang lalu

Jutawan Memecoin Antre untuk Makan Siang Eksklusif Trump

Seorang investor crypto hanya membayar $500 untuk mendapatkan tempat di acara makan siang eksklusif Donald Trump di Mar-a-Lago, mencerminkan penurunan popularitasnya di komunitas crypto. Token TRUMP resmi telah anjlok lebih dari 93% dari rekor tertingginya, diperdagangkan sekitar $2.56. Sekitar 297 pemegang token teratas diundang, termasuk tokoh-tokoh crypto ternama seperti CEO Tether Paolo Ardoino. Namun, Justin Sun, pemegang token TRUMP terbanyak dengan 2.4 miliar poin, tidak dikonfirmasi hadir setelah menggugat platform crypto yang didirikan putra-Trump. Kelompok pengawas etik mengkritik acara ini, menuduh Trump menawarkan akses kepresidenan melalui produk finansial yang menguntungkannya secara pribadi, dengan aliran dana yang sulit dilacak.

bitcoinist12j yang lalu

Jutawan Memecoin Antre untuk Makan Siang Eksklusif Trump

bitcoinist12j yang lalu

Trading

Spot

Futures

Model Dunia Bergerak dari Prediksi ke Perencanaan, HWM dan Tantangan Kontrol Jangka Panjang

Abstrak

I. Mengapa Kontrol Jangka Panjang Masih Menjadi Kendala bagi Model Dunia

II. Bagaimana HWM Merekonstruksi Proses Perencanaan

III. Dari 0% ke 70%, Apa yang Ditunjukkan oleh Hasil Eksperimen

IV. Dari V-JEPA ke HWM Lalu ke WAV

V. Dari Prediksi Internal Menuju Sistem yang Dapat Dieksekusi

Pertanyaan Terkait

Bacaan Terkait

Uji Coba Hy3 preview Tencent Hunyuan: AI Tencent Akhirnya Bisa Diandalkan?

Di Balik Kehebohan DeepSeek V4: Silicon Valley 'Membangun Tembok', China 'Membuka Jalan'

OpenClaw dan Hermes, Mana yang Lebih Cocok untuk Anda?

Keterbatasan Komputasi, Apa yang Membuat DeepSeek-V4 Berani Open Source?

Jutawan Memecoin Antre untuk Makan Siang Eksklusif Trump

Trading

Kategori Populer

Tag Populer