Model dunia adalah konsep yang paling panas di kalangan AI saat ini, namun juga paling membingungkan bagi orang awam. Ada yang mengatakan itu adalah kemampuan AI untuk bermimpi, ada yang mengatakan itu adalah simulator untuk mengemudi mandiri, dan ada pula yang mengatakan itu adalah otak robot.
Li Fei-Fei, Yann LeCun, OpenAI, Google DeepMind, NVIDIA, bahkan perusahaan domestik seperti Alibaba, Tencent, Huawei, dan produsen mobil, masing-masing memiliki definisi sendiri.
Artikel ini mencoba menjelaskan dengan bahasa yang sederhana:
Apa masalah yang ingin diselesaikan oleh model dunia; mengapa para akademisi dan perusahaan besar ini terobsesi dengannya; dan mengapa konsep ini, bahkan ketika namanya belum diseragamkan, telah menjadi medan pertempuran industri yang penting.
I. Memahami dalam Satu Kalimat: Membuat AI 'Bermain Perang' di Dalam 'Otak' untuk Memprakirakan Dunia
Bayangkan Anda berdiri di persimpangan jalan, bersiap menyeberang.
Mata Anda melihat lampu hijau, kendaraan, pejalan kaki; otak Anda dalam sepersekian detik membangun sebuah skenario mini: Jika saya berjalan sekarang, apakah mobil itu akan mempercepat? Apakah pengendara sepeda itu akan tiba-tiba berbelok?
Anda belum benar-benar melangkah, tetapi terlebih dahulu melewati beberapa kemungkinan di dalam pikiran.
Psikolog menyebut kemampuan ini sebagai 'model mental', sementara peneliti AI menyebutnya 'model dunia'.
Dengan kata lain, model dunia adalah sebuah 'papan catur di dalam otak' di dalam mesin.
Ini bukan sekadar mengenali apa yang ada dalam gambar, tetapi mampu memprediksi apa yang akan terjadi selanjutnya, dan mengulang percobaan kesalahan berulang kali tanpa benar-benar bertindak.
Bagi mobil otonom, ini dapat menghasilkan ujian virtual dengan hujan deras, salju lebat, dan rintangan bentuk aneh; bagi robot, ini memungkinkan robot humanoid jatuh sepuluh ribu kali di dunia simulasi sebelum keluar; bagi perusahaan game dan film, ini mungkin adalah alam semesta paralel yang dapat dieksplorasi tanpa batas.
Pada tahun 2026, frekuensi kata 'model dunia' muncul dalam laporan teknologi telah melampaui kejelasan definisinya.
Alibaba membuat Qwen-AgentWorld, HappyOyster, Qwen-RobotWorld, masing-masing menunjuk ke dunia bahasa, dunia virtual, dan dunia fisik; Tencent's HY-World 2.0 menekankan dunia 3D yang dapat diedit; Nio, Xpeng, Li Auto lebih suka mengatakan 'model dunia mengemudi' atau 'model perilaku dunia'; Huawei dan Baidu bahkan jarang menggunakan istilah ini secara terpisah dalam materi publik.
Kekacauan penamaan membuat konsep ini terlihat seperti keranjang, segala hal bisa dimasukkan ke dalamnya.
Namun, di balik semua sebutan, ada inti yang sama:
Membuat mesin membangun lingkungan yang dapat diturunkan dan ditinjau ulang di dalam sebelum benar-benar bertindak. Lingkungan ini bisa berupa piksel, struktur tiga dimensi, parameter fisika, atau juga keadaan abstrak. Tujuannya adalah mengurangi ketergantungan tak terbatas pada data nyata, mengompres dunia nyata menjadi mesin data yang dapat dihasilkan tanpa batas, membuat kesalahan tanpa batas, dan mengulang tanpa batas.
Ketidakseragaman nama justru menunjukkan bahwa model dunia sedang berada pada tahap awal transisi dari konsep akademik ke infrastruktur industri.
II. Sumber Pemikiran: Seorang Psikolog Perang Dunia II dan Beberapa Perintis AI
2.1 Kenneth Craik: Orang Pertama yang Mengatakan 'Model Kecil di Dalam Otak'
Pemikiran model dunia lebih awal setengah abad dari pembelajaran mendalam. Pada tahun 1943, psikolog Skotlandia Kenneth Craik dalam bukunya 'The Nature of Explanation' mengemukakan bahwa otak manusia membangun 'model skala kecil' dari realitas, digunakan untuk memprediksi dan memahami peristiwa eksternal.
Craik saat itu baru berusia 31 tahun, seorang sarjana di laboratorium psikologi Universitas Cambridge, dan selama Perang Dunia II ia juga terlibat dalam penelitian psikologi terapan di Inggris.
Bukunya diterbitkan dua tahun kemudian, dan ia meninggal karena kecelakaan sepeda pada usia 33 tahun.
Namun, ide ini tetap dipertahankan: manusia tidak perlu menyalin dunia secara lengkap, cukup dengan model internal yang cukup baik, mereka dapat melakukan prakiraan sebelum bertindak.
Pandangan ini hampir sama dengan inti model dunia AI saat ini. Mesin juga tidak perlu mengingat setiap detail dunia, tetapi belajar aturan dunia, dan memperkirakan masa depan saat diperlukan.
Setelah Craik, pada tahun 1980-an, psikolog Inggris Philip Johnson-Laird lebih lanjut mensistematisasikan pemikiran ini, membuktikan bahwa banyak penalaran manusia sebenarnya memanipulasi 'model mental' di dalam otak. Ia mengajar di Princeton dan Cambridge untuk waktu yang lama, dan merupakan tokoh penting dalam bidang ilmu kognitif.
2.2 Marvin Minsky: Orang yang Ingin Mesin Memiliki Kerangka Pengetahuan Umum
Bidang kecerdasan buatan juga memiliki respons yang serupa. Pada tahun 1960-an, Marvin Minsky di MIT mengusulkan 'teori kerangka'.
Dia adalah pendiri bersama laboratorium AI MIT, penerima Penghargaan Turing tahun 1969, dan sering dianggap sebagai salah satu pendiri disiplin kecerdasan buatan.
Teori kerangka mencoba menangkap pengetahuan umum manusia tentang dunia dengan kerangka pengetahuan terstruktur:
Masuk ke dalam ruangan harus mencari gagang pintu terlebih dahulu, restoran biasanya memiliki meja dan kursi, objek akan jatuh karena gravitasi.
Apa yang ingin dilakukan Minsky adalah hal yang masih belum diselesaikan oleh model dunia saat ini—memberikan mesin sebuah basis pengetahuan umum dunia yang terstruktur dan dapat diturunkan.
2.3 David Ha dan Jürgen Schmidhuber: Membawa Kembali Model Dunia ke Arus Utama Pembelajaran Mendalam
Bidang pembelajaran penguatan mendekati tujuan yang sama dari jalan lain.
Pada tahun 2018, makalah David Ha dan Jürgen Schmidhuber yang diterbitkan di NeurIPS 'Recurrent World Models Facilitate Policy Evolution' membawa kembali istilah 'model dunia' ke arus utama pembelajaran mendalam.
David Ha saat itu bekerja di Google Brain, kemudian menjadi peneliti independen. Gaya kerjanya cenderung teknis, mahir membuat demo yang menakjubkan dengan arsitektur sederhana.
Jürgen Schmidhuber adalah pendiri bersama laboratorium AI Swiss IDSIA, salah satu penemu jaringan LSTM, dan dikenal di bidang AI karena berani berbicara dan memiliki pandangan independen. Kadang-kadang ia disebut 'bapak AI modern', meskipun gelar ini kontroversial, tetapi pengaruh akademisnya tidak diragukan lagi.
Arsitektur mereka sederhana:
Menggunakan VAE untuk mengompres gambar berdimensi tinggi menjadi vektor potensial berdimensi rendah, menggunakan RNN untuk mempelajari perubahan vektor ini seiring waktu, dan kemudian menggunakan pengontrol sederhana untuk melatih kebijakan dalam 'imajinasi'.
Agen terlebih dahulu bermimpi dalam model dunia yang dipelajari, kemudian mentransfer kebijakan kembali ke lingkungan nyata.
Makalah ini terpilih sebagai laporan lisan di NeurIPS, langsung menginspirasi seri Dreamer berikutnya, dan juga mengubah 'model dunia' dari konsep psikologis menjadi tujuan teknis dalam pembelajaran mendalam.
III. Model Dunia dalam Pandangan Akademisi
3.1 Yann LeCun: Jangan Hanya Bisa Menghasilkan Video, Harus Memahami Fisika
Yann LeCun adalah orang Prancis, profesor di Universitas New York, ilmuwan AI utama Meta.
Dia adalah salah satu penemu jaringan saraf konvolusional CNN, menerima Penghargaan Turing tahun 2018 bersama dengan mentor doktoral Li Fei-Fei, Geoffrey Hinton, dan Yoshua Bengio, ketiganya dijuluki 'tiga raksasa pembelajaran mendalam'.
LeCun selalu mengkritik jalur model bahasa besar saat ini, dia berpendapat bahwa hanya memprediksi kata berikutnya tidak dapat menghasilkan kecerdasan sejati.
Pada tahun 2022, dalam artikelnya yang berjudul 'A Path Towards Autonomous Machine Intelligence', dia mengusulkan bahwa kecerdasan sejati membutuhkan model dunia yang dapat dikonfigurasi dan diprediksi.
Tujuannya bukan untuk menghasilkan teks atau gambar, tetapi untuk memahami hukum dunia fisik, dan memprediksi konsekuensi tindakan. Dia bahkan mengkritik terus menumpuk model bahasa besar sebagai 'omong kosong', berpendapat bahwa inti kecerdasan adalah mempelajari struktur fisik dunia nyata.
JEPA adalah pembawa teknis dari jalur ini. JEPA adalah singkatan dari Joint Embedding Predictive Architecture.
Berbeda dengan memprediksi frame berikutnya di ruang piksel, JEPA mensimulasikan perubahan keadaan dunia di ruang representasi abstrak.
Sebagai perbandingan: model generasi video sedang menggambar gambar berikutnya, sedangkan JEPA sedang 'merasakan' apa yang akan terjadi selanjutnya di dalam hati.
I-JEPA tahun 2023, V-JEPA tahun 2024, LeJEPA tahun 2025, LeWorldModel tahun 2026, membentuk sebuah sistem yang terus berkembang.
LeCun juga memperkenalkan konsep 'sistem 1 / sistem 2': sistem 1 adalah respons cepat yang intuitif, sistem 2 adalah menggunakan model dunia untuk penalaran dan perencanaan yang bijaksana.
Bahkan pekerjaan teori terbaru membuktikan bahwa, dalam kondisi tertentu, representasi yang dipelajari oleh JEPA dapat membangun hubungan linear dengan variabel fisik nyata, yaitu model mempelajari struktur fisik dalam arti matematis, bukan hanya penyandian yang berguna.
3.2 Li Fei-Fei: Menggunakan Siklus 'Aksi—Observasi' untuk Mengklasifikasikan Model Dunia
Li Fei-Fei adalah profesor ilmu komputer di Universitas Stanford, pencipta utama dataset ImageNet. ImageNet pada tahun 2012 memicu revolusi pembelajaran mendalam, dan dia juga disebut 'ibu baptis AI'.
Dia pernah menjadi ilmuwan AI utama Google Cloud, mendirikan World Labs pada tahun 2023, fokus pada kecerdasan spasial dan model dunia 3D. Pada tahun 2024, dia menerima banyak penghargaan karena mendorong demokratisasi AI dan aplikasi di bidang kesehatan, dan merupakan salah satu ilmuwan Tionghoa paling berpengaruh di bidang AI saat ini.
Pada Juni 2026, Li Fei-Fei dan tim World Labs menerbitkan artikel yang banyak diterbitkan ulang, mencoba membangun taksonomi untuk konsep model dunia yang kacau.
Dia mengutip POMDP dalam pembelajaran penguatan, yaitu 'proses keputusan Markov yang sebagian dapat diamati'.
Konsep ini terdengar rumit, tetapi sebenarnya menggambarkan sebuah siklus yang sederhana: agen mengambil tindakan, tindakan mengubah keadaan dunia, agen mendapatkan observasi, dan kemudian berdasarkan observasi mengambil langkah berikutnya.
Dia menunjukkan bahwa semua sistem yang disebut model dunia, pada dasarnya adalah proyeksi siklus ini ke arah yang berbeda, setiap jenis hanya menghasilkan fragmen dari siklus.
Berdasarkan ini, dia membagi model dunia menjadi tiga kategori.
Kategori pertama adalah penyaji, menghasilkan observasi, yaitu piksel untuk dilihat manusia, perwakilan tipikal adalah model generasi video dan Google Genie 3, target pengoptimalan adalah kesetiaan visual.
Kategori kedua adalah simulator, menghasilkan keadaan, yaitu representasi dunia yang setia pada tingkat geometri, fisika, dan dinamika, perwakilan tipikal adalah NVIDIA Omniverse dan Marble dari World Labs, target pengoptimalan adalah akurasi struktur.
Kategori ketiga adalah perencana, menghasilkan tindakan, yaitu menjawab 'apa yang harus dilakukan selanjutnya' setelah diberikan observasi dan tujuan, perwakilan tipikal adalah VLA dan World Action Models.
Li Fei-Fei berpendapat bahwa tiga kemampuan ini tergantung pada pengetahuan yang sama di lapisan dasar, dan tren akhir adalah menuju model dunia yang terpadu.
3.3 FIB-Lab Tsinghua: Model Dunia Hanya Dua Jenis, Memahami Dunia atau Memprediksi Masa Depan
FIB-Lab Universitas Tsinghua adalah sebuah tim yang telah lama mempelajari kecerdasan buatan umum, kecerdasan terwujud, dan pembelajaran robot. FIB biasanya dipahami sebagai laboratorium terkait 'kecerdasan dan otak masa depan', berada di bawah Institut Penelitian Industri Cerdas Universitas Tsinghua.
Tim ini telah menerbitkan banyak tinjauan dan makalah di bidang model dunia dan robotika, dan merupakan salah satu kekuatan penelitian penting dalam arah ini di dalam negeri.
Pada tahun 2026, mereka merilis tinjauan 'Understanding World or Predicting Future: A Comprehensive Survey of World Models', membagi bidang ini dengan cara lain.
Mereka membagi fungsi inti model dunia menjadi dua kategori besar: memahami dunia dan memprediksi masa depan.
Memahami dunia menekankan pembangunan representasi implisit lingkungan eksternal, untuk mendukung pengambilan keputusan, perwakilan adalah seri Dreamer dan pengetahuan dunia berbasis model bahasa besar.
Memprediksi masa depan menekankan generasi eksplisit keadaan masa depan, tipikal adalah Sora, Genie 3, Cosmos, dan model generasi video atau lingkungan 3D lainnya.
Klasifikasi ini lebih dekat dengan praktik teknik: yang pertama melayani pembelajaran penguatan dan pengambilan keputusan, yang kedua melayani generasi dan simulasi.
3.4 OpenWorldLib Peking: Membuat Kotak Peralatan Standar untuk Model Dunia
Pada April 2026, Universitas Peking bersama dengan institusi seperti Kuaishou merilis OpenWorldLib. Universitas Peking adalah pusat penelitian dasar kecerdasan buatan dalam negeri, memiliki laboratorium kunci Kementerian Pendidikan untuk Persepsi Mesin dan Kecerdasan; Kuaishou adalah raksasa video pendek dalam negeri, dalam beberapa tahun terakhir banyak berinvestasi dalam model besar dan generasi multimodal.
Keduanya bersama-sama merilis OpenWorldLib, menunjukkan bahwa dunia akademik dan industri mulai menyadari bahwa model dunia membutuhkan standar yang seragam dan komponen yang dapat digunakan kembali.
OpenWorldLib pertama kali mencoba memberikan definisi standar untuk model dunia: sebuah model atau kerangka kerja dengan persepsi sebagai inti, memiliki kemampuan interaksi dan memori jangka panjang, digunakan untuk memahami dan memprediksi dunia yang kompleks.
Mereka mengkritik bahwa menyamakan model dunia dengan 'memprediksi frame berikutnya' terlalu sempit, berpendapat bahwa model dunia sejati harus mencerminkan pemahaman sejati terhadap hukum fisika.
OpenWorldLib membagi model dunia menjadi lima modul inti: operator, sintesis, penalaran, representasi, memori, kemudian dikoordinasikan oleh modul pipa.
Kerangka kerja ini lebih seperti kotak peralatan, tujuannya adalah agar tim penelitian yang berbeda dapat menggabungkan modul seperti menyusun Lego.
IV. Model Dunia dalam Pandangan Perusahaan Besar
4.1 OpenAI: Sora adalah 'Simulator Dunia'
OpenAI adalah salah satu perusahaan AI paling berpengaruh di dunia saat ini. Dikenal dengan seri model bahasa besar GPT dan ChatGPT, setelah merilis Sora pada tahun 2024, sekali lagi menarik perhatian global terhadap generasi video dan simulasi dunia.
Pada Februari 2024, OpenAI merilis laporan teknis Sora, dengan judul 'Video Generation Models as World Simulators', langsung memposisikan model generasi video sebagai simulator dunia. Sora tidak bergantung pada pemodelan 3D eksplisit atau mesin fisika, tetapi melatih model generasi pada data video skala besar, memungkinkannya muncul secara spontan dengan kemampuan konsistensi 3D, konsistensi jangka panjang, keberlanjutan objek, interaksi dunia sederhana, dll.
OpenAI berpendapat bahwa ekspansi skala besar model generasi video adalah jalan yang sangat menjanjikan untuk membangun simulator umum dunia fisik.
Namun, keterbatasan Sora juga jelas: tidak dapat secara akurat mensimulasikan proses fisik dasar seperti kaca pecah, dalam sampel waktu lama akan muncul inkonsistensi, objek mungkin muncul tanpa kendali. Jadi, ini lebih merupakan deklarasi arah, bukan definisi matang.
4.2 Google DeepMind: Genie 3 adalah Model Dunia Umum yang Dapat Berinteraksi Secara Real-Time
Google DeepMind dibentuk oleh Google setelah mengakuisisi perusahaan AI Inggris DeepMind pada tahun 2014, Demis Hassabis adalah pendiri bersama dan CEO.
DeepMind telah mengembangkan sistem bersejarah seperti AlphaGo, AlphaFold, dan merupakan salah satu garis depan penelitian AI global. Demis Hassabis sendiri adalah ilmuwan komputer, ahli saraf, dan juga desainer game, lama memperhatikan kecerdasan buatan umum.
Pada Agustus 2025, Google DeepMind merilis Genie 3, definisi resminya adalah 'model dunia pertama yang real-time, dapat berinteraksi, dan realistis'.
Dapat menghasilkan lingkungan 3D yang dapat dieksplorasi berdasarkan deskripsi teks sederhana, frame rate mencapai 20-24 fps, mendukung kontrol karakter, peristiwa dunia yang dapat dipicu, dan memori interaksi hingga satu menit. Genie 3 menggunakan cara autoregresif untuk menghasilkan frame demi frame, berdasarkan data Google Maps Street View untuk mengikat dunia nyata, diposisikan sebagai tonggak kunci menuju AGI.
4.3 NVIDIA: Cosmos adalah 'Model Dasar Dunia' untuk AI Fisik
NVIDIA didirikan oleh Jensen Huang, Chris Malachowsky, dan Curtis Priem pada tahun 1993, Jensen Huang lama menjabat sebagai CEO. Perusahaan awalnya memulai dengan chip grafis GPU, selama sepuluh tahun terakhir karena kebutuhan ledakan daya komputasi untuk pelatihan AI, menjadi penyedia inti infrastruktur AI global.
Jensen Huang dalam beberapa tahun terakhir sering mengemukakan penilaian seperti 'AI fisik' dan 'gelombang berikutnya AI adalah robotika', NVIDIA juga terus meluncurkan platform perangkat keras dan lunak untuk robotika, mengemudi mandiri, dan simulasi.
Pada Januari 2025, NVIDIA merilis Cosmos, diposisikan sebagai 'platform model dasar dunia'. Ini bukan model tunggal, tetapi serangkaian model video yang sadar fisik yang dapat memprediksi dan menghasilkan keadaan masa depan lingkungan virtual, dibagi menjadi tiga tingkatan: Nano, Super, Ultra, dilatih berdasarkan 20 juta jam data dunia nyata.
Ambisi Cosmos adalah menjadi infrastruktur dasar untuk AI fisik, melayani skenario seperti robotika, mengemudi mandiri, simulasi industri, dll.
NVIDIA juga membuka sumbernya, memungkinkan penggunaan komersial.
4.4 Perusahaan Besar Domestik: Tidak Disebut Model Dunia, Tetapi Juga Membuat Model Dunia
Perusahaan domestik jarang memberikan definisi filosofis dalam materi publik, tetapi langsung jatuh ke produk dan skenario.
Tiga produk Alibaba masing-masing mencakup simulasi dunia bahasa, generasi dunia virtual, dan dunia fisik robot;
HY-World 2.0 Tencent fokus pada dunia 3D yang dapat diedit; model dunia Seed ByteDance menargetkan mencapai tingkat SOTA Genie 3 pada akhir tahun;
Versi mengemudi cerdas model besar PanGu Huawei menekankan pembelajaran hukum fisika dan simulasi siklus tertutup; Apollo ADFM Baidu menggabungkan kemampuan model dunia ke dalam model besar mengemudi mandiri; OneVL Xiaomi mencoba menyatukan VLA dengan model dunia.
Di antara produsen mobil, NWM Nio, model dunia rekonstruksi ditambah generasi Li Auto, X-World Xpeng, WAM Geely, penelitian awal BYD, VLA ditambah model dunia Great Wall, penggunaan intinya adalah pelatihan mengemudi cerdas ujung-ke-ujung dan generasi skenario panjang.
V. Tiga Jalur Teknologi: Melukis, Menghitung Mental, Menyusun Balok
Dari sudut pandang teknik, model dunia saat ini kira-kira memiliki tiga jalur teknologi utama, dapat dipahami dengan tiga perumpamaan.
Jalur pertama adalah 'melukis', yaitu model video generatif. Sora, Genie 3, Cosmos, Kling, Pika semuanya termasuk dalam kategori ini. Kemampuan inti adalah menghasilkan frame masa depan di ruang piksel, keunggulannya adalah realisme visual kuat, ambang data rendah, orang awam sekaligus dapat memahami. Kelemahannya adalah konsistensi fisik lemah, jika dilihat lama-lama akan ditemukan objek berubah bentuk, gravitasi gagal, garis waktu kacau.
Jalur kedua adalah 'menghitung mental', diwakili oleh JEPA LeCun dan model dunia RNN Ha & Schmidhuber. Inti pemikiran adalah tidak memprediksi piksel, tetapi memprediksi representasi abstrak. Keunggulannya adalah efisiensi tinggi, pembelajaran struktur fisik lebih stabil, kelemahannya adalah ruang representasi kurang dapat diinterpretasikan, siklus implementasi teknik panjang. Ini lebih seperti intuisi atlet manusia: tidak perlu benar-benar memutar film tindakan frame demi frame di otak, juga dapat memperkirakan titik jatuh bola dengan perasaan tubuh.
Jalur ketiga adalah 'menyusun balok', diwakili oleh NVIDIA Omniverse, World Labs Marble, Tencent HY-World. Inti pemikiran adalah langsung menghasilkan lingkungan tiga dimensi dengan atribut geometri, fisika, dan dinamika. Keunggulannya adalah tepat dapat dikontrol, dapat diedit, dapat diverifikasi, kelemahannya adalah data langka, biaya komputasi tinggi, kemampuan generalisasi terbatas. Ini lebih seperti perangkat lunak CAD insinyur, dapat diukur dengan tepat, disesuaikan berulang kali, tetapi masih jauh dari dunia alami.
Saat ini, ketiga jalur masing-masing memiliki wilayah, tetapi batasnya semakin kabur. Model generasi video mulai menambahkan kendala fisik, simulator 3D mulai memperkenalkan kemampuan generatif, arsitektur JEPA mulai menyatu dengan VLA menjadi WAM. Model dunia terpadu yang diprediksi Li Fei-Fei adalah hasil peleburan ketiganya.
VI. World Action Model: Dari 'Melihat Dunia' hingga 'Melakukan Tindakan'
Pada Mei 2026, tim OpenMOSS Fudan bersama dengan beberapa institusi merilis tinjauan WAM, secara resmi mengusulkan paradigma World Action Models.
OpenMOSS Fudan adalah salah satu tim yang paling awal mendorong ekosistem sumber terbuka model besar di dalam negeri, seri model Mooss memiliki popularitas yang cukup tinggi di komunitas bahasa Tionghoa.
Definisi inti WAM adalah: prediksi keadaan masa depan dan generasi tindakan harus dipelajari bersama dalam kebijakan yang sama, bukan melatih VLA terlebih dahulu kemudian menempelkan model dunia sebagai bantuan.
Membandingkan dengan cara yang mudah dipahami: VLA adalah 'melihat gambar, mendengar perintah, kemudian melakukan tindakan'; model dunia adalah 'mengetahui keadaan saat ini dan tindakan, dapat membayangkan frame berikutnya'; WAM adalah 'melihat gambar, mendengar perintah, sekaligus membayangkan frame berikutnya dan melakukan tindakan'.
Ketiga hal ini digabungkan, barulah kemampuan 'kesatuan pengetahuan dan tindakan' yang benar-benar dibutuhkan robot.
WAM dibagi menjadi dua arsitektur: Cascaded dan Joint.
Cascaded menghasilkan frame masa depan terlebih dahulu kemudian mendekode tindakan, secara teknis mudah dibangun tetapi latensi tinggi, kesalahan mudah ditransmisikan. Joint menggunakan model tunggal untuk menghasilkan masa depan dan tindakan sekaligus, secara teori lebih tangguh tetapi desain tujuan pelatihan kompleks.
Jim Fan dari NVIDIA bahkan menyatakan di konferensi AI Ascent Sequoia tahun 2026 'VLA sudah mati, model aksi dunia adalah masa depan'. Jim Fan adalah ilmuwan riset senior NVIDIA, kepala tim GEAR, bidang penelitian mencakup robotika, simulasi, dan kecerdasan terwujud.
Meskipun pernyataan ini sangat kontroversial, tetapi cukup menunjukkan popularitas arah ini.
VII. Kerangka Industri: Struktur Tiga Lapisan Sudah Terbentuk
Rantai industri model dunia sedang bergerak dari makalah dan demo menuju infrastruktur berlapis. Dapat dibayangkan seperti membangun rumah: ada yang menambang dan melebur baja, ada yang memproduksi papan pracetak, ada yang membangun rumah, pusat perbelanjaan, dan pabrik di atasnya.
Hulu adalah lapisan dukungan dasar, termasuk pengumpulan data presisi tinggi, layanan daya komputasi, dan perangkat keras sensor.
Pengumpulan data melibatkan peta presisi tinggi, pemindaian spasial, pengumpulan video, operasi jarak jauh, dll; layanan daya komputasi berpusat pada GPU dan server cloud; perangkat keras sensor termasuk LiDAR, kamera, IMU, dll. NVIDIA dengan GPU menduduki posisi tersembunyi di lapisan ini, hampir semua pelatihan model dunia tidak dapat dipisahkan dari dukungan daya komputasinya.
Biaya adalah titik sakit inti di lapisan ini: melatih model dunia dengan miliaran parameter membutuhkan ribuan GPU, biaya pelatihan tunggal dapat mencapai jutaan dolar AS.
Tengah adalah lapisan platform teknologi, dibagi menjadi platform umum dan platform vertikal.
Platform umum menyediakan kemampuan umum lintas industri, perwakilannya adalah NVIDIA Omniverse, SenseTime Wukong, Huawei PanGu, seri Tongyi Alibaba. Platform vertikal fokus pada industri tertentu, seperti model dunia mengemudi mandiri, model dunia konstruksi, model dunia kecerdasan terwujud. Perusahaan platform sedang mendominasi melalui integrasi ekosistem, diperkirakan pada tahun 2030 mungkin menduduki lebih dari 50% pangsa pasar rantai industri.
Hilir adalah lapisan aplikasi skenario, mencakup mengemudi mandiri, kecerdasan terwujud, konstruksi cerdas, hiburan game, layanan spasial, simulasi medis, prediksi iklim, dll.
Mobil, elektronik, medis dianggap memberikan lebih dari 60% pendapatan industri saat ini. Mengemudi mandiri adalah skenario dengan kematangan aplikasi tertinggi, hampir semua produsen mobil utama telah memasukkan model dunia ke dalam inti proses penelitian dan pengembangan; kecerdasan terwujud adalah arah baru yang paling diunggulkan, proporsi penggunaan model dunia untuk membantu pelatihan robot industri telah melebihi 60%.
VIII. Mengapa Ketidakseragaman Konsep Justru Baik
Kekacauan konsep model dunia sering membuat pihak luar merasa ini adalah tren yang digembar-gemborkan.
Namun, dari perspektif sejarah industri, ketidakseragaman konsep sering kali adalah kondisi normal awal revolusi teknologi.
Awal komputasi awan ada perdebatan IaaS, PaaS, SaaS, awal data besar ada perdebatan Hadoop, NoSQL, gudang data, awal kecerdasan buatan bahkan ada perdebatan simbolisme, koneksionisme, behaviorisme. Perbedaan penamaan mencerminkan proses kelompok yang berbeda memasuki masalah besar yang sama dari sudut yang berbeda.
Perbedaan model dunia saat ini, pada dasarnya adalah perdebatan tentang bentuk apa seharusnya 'dunia' dikompresi.
Orang yang membuat generasi video menganggap dunia adalah urutan piksel; orang yang membuat mesin 3D menganggap dunia adalah geometri dan fisika; orang yang membuat mengemudi mandiri menganggap dunia adalah aturan lalu lintas dan perilaku mengemudi; orang yang membuat robot menganggap dunia adalah konsekuensi tindakan.
Setiap cara kompresi sesuai dengan data, daya komputasi, dan skenario aplikasi yang berbeda. Pada awal industri, perbedaan ini diperlukan, memungkinkan jalur yang berbeda mencoba secara paralel.
Tapi di balik perbedaan, tujuan sudah menyatu.
Baik JEPA LeCun, siklus tertutup POMDP Li Fei-Fei, generasi video Sora, interaksi 3D Genie 3, atau berbagai produk perusahaan besar domestik, semuanya menunjuk ke kemampuan yang sama: memberikan mesin sebuah dunia internal yang dapat diturunkan, ditinjau ulang, digeneralisasi, sehingga bertindak lebih aman, lebih efisien, lebih umum di dunia nyata.
Model bahasa telah memberikan mesin kemampuan berbicara tentang dunia, model dunia mencoba memberikan mesin kemampuan memahami, membayangkan, bernalar, dan berinteraksi dengan dunia.
Konsep akan diseragamkan, tetapi itu akan terjadi setelah pola ditetapkan. Sebelum itu, kekacauan penamaan justru merupakan tanda model dunia memasuki medan perang utama.
Artikel ini berasal dari akun WeChat 'IT桔子' (ID:itjuzi521), penulis: Judy






