Penulis: Li Feifei
Kompilasi: Jiayang
"Model dunia" mungkin adalah konsep terpanas dan paling membingungkan di bidang AI sejak tahun 2025. Ketika Sora diluncurkan, OpenAI menyebutnya sebagai simulator dunia; Genie yang memungkinkan Anda berjalan-jalan di gambar yang dihasilkan, juga disebut model dunia; perusahaan robotik mengatakan mereka sedang membangun model dunia, NVIDIA mengatakan Omniverse adalah infrastruktur untuk model dunia, bahkan game engine pun ditarik ke dalam narasi ini. Semua orang menggunakan istilah yang sama, tetapi masing-masing membicarakan hal yang sama sekali berbeda.
Hari ini, Li Feifei menerbitkan sebuah artikel baru di Substack pribadinya, yang berupaya memperjelas konsep ini. Dia pertama-tama kembali ke diagram paling klasik dari buku teks pembelajaran penguatan (loop tertutup POMDP: agen → aksi → status → observasi → agen), lalu menunjukkan: hal-hal yang sekarang disebut "model dunia" sebenarnya adalah tiga proyeksi berbeda dari loop tertutup ini. Yang menghasilkan piksel (observasi) adalah renderer, yang menghasilkan status adalah simulator, dan yang menghasilkan aksi adalah perencana. Kriterianya sangat sederhana, yaitu melihat bagian mana dari loop tertutup yang dihasilkan.

(Sumber: MIT Technology Review)
Dia menilai, di antara ketiganya, renderer adalah yang paling matang secara komersial tetapi memiliki batas (tampilan bagus tidak sama dengan kebenaran fisik), perencana adalah yang paling menarik tetapi paling jauh dari penerapan nyata (jurang antara demonstrasi lab dan kenyataan yang dapat digunakan masih sangat besar), sedangkan simulator adalah poros kunci yang sangat diremehkan. Karena simulator bekerja pada tingkat geometri, fisika, dan dinamika, ia dapat memproyeksikan ke atas menjadi piksel untuk konsumsi manusia, dan juga dapat menurunkan konsekuensi aksi untuk digunakan robot. Menguasai simulasi berarti sekaligus memiliki dasar untuk rendering dan perencanaan; sebaliknya tidak.
Artikel ini tentu juga merupakan deklarasi produk World Labs. Marble mereka sudah dapat menghasilkan Gaussian splats dan collision mesh secara bersamaan, berusaha menyatukan renderer dan simulator ke dalam satu model. Visi akhir yang digambarkan di akhir artikel adalah model dasar dunia yang terpadu, yang dapat dengan bebas beralih antara rendering, simulasi, dan perencanaan sesuai kebutuhan hilir. Apakah visi ini dapat diwujudkan adalah cerita lain, tetapi sebagai kerangka analisis, pembagian tiga fungsi (renderer/simulator/perencana) mungkin memang membantu menembus sebagian kebisingan konsep "model dunia" saat ini.
Terjemahan lengkapnya adalah sebagai berikut.
"Dunia adalah totalitas fakta, bukan benda." — Wittgenstein, Tractatus Logico-Philosophicus, 1921
Dunia tidak terbuat dari kata-kata.
Dalam artikel sebelumnya, kami mengusulkan bahwa kecerdasan spasial adalah perbatasan AI berikutnya, dan model dunia adalah jalur menujunya. Di sini, tim World Labs dan saya ingin menggali lebih dalam: di antara banyak hal yang saat ini diberi label "model dunia", modul fungsional mana yang benar-benar membentuk kemampuan ini? Dan untuk apa masing-masing digunakan?
Model bahasa memberi mesin penguasaan yang kuat atas konsep, kosakata, dan penalaran, tetapi dunia fisik, baik virtual maupun nyata, berjalan pada dasar yang sama sekali berbeda. Model bahasa mempelajari struktur statistik teks, model dunia mempelajari struktur statistik ruang dan waktu: bagaimana cahaya jatuh di permukaan, bagaimana sebuah taman terlihat dari sudut yang belum pernah diambil kamera, bagaimana benda merespons gaya dan mengikuti hukum fisika.
Ini membuat "model dunia" menjadi istilah terpenting dan sekaligus paling disalahgunakan di bidang AI saat ini. Visi komputer, robotika, pembelajaran penguatan, dan AI generatif semuanya mengklaim sedang membangun model dunia, tetapi masing-masing merujuk pada hal yang sangat berbeda. Model video yang menghasilkan api yang indah tetapi secara fisik tidak mungkin, model bahasa yang secara improvisasi menghasilkan game yang dapat dimainkan, mesin fisika yang mensimulasikan proses pembakaran dengan setia—semua disebut dengan nama yang sama.
Orang Yunani kuno tidak pernah bisa sepakat tentang apa dunia terbuat dari, apakah api, air, atau atom yang tidak terbagi, karena "dunia" bukanlah satu hal yang tunggal. Itu selalu merupakan kata pengganti yang digunakan seorang pemikir untuk menalar suatu totalitas. AI mewarisi masalah yang sama, dan itu kebetulan terjadi pada saat bidang ini paling membutuhkan ketepatan.
Loop Tertutup di Balik Taksonomi
Untuk mengurai kebingungan ini, kita bisa mulai dari diagram yang lebih tua dari semua teknologi di atas. Semua buku teks pembelajaran penguatan, termasuk Sutton dan Barto yang klasik, selama beberapa dekade menggunakan varian dari diagram yang sama untuk menggambarkan bagaimana agen berinteraksi dengan dunia. Diagram ini secara formal disebut proses keputusan Markov dengan pengamatan parsial (POMDP), dan istilah "model dunia" awalnya didefinisikan dalam tradisi ini.
Sebuah agen (bisa manusia, robot, atau sistem perangkat lunak) melakukan aksi. Aksi ini mengubah status dunia. Namun agen tidak pernah bisa melihat status itu sendiri secara langsung, yang diterimanya adalah observasi: foton yang jatuh di retina, pembacaan sensor, piksel dalam bingkai video. Observasi baru memandu aksi baru, dan siklusnya berulang.
Kata "status" perlu dilihat lebih dalam, karena maknanya bergeser di bidang yang berbeda. Ini bukan tentang status ahli kimia, bukan perbedaan antara padat, cair, dan gas. Ini adalah status fisikawan dan ahli robotika: deskripsi lengkap dari segala sesuatu yang terjadi di dunia pada suatu saat, termasuk setiap benda, setiap posisi, setiap kecepatan, setiap atribut. Status adalah realitas dasar dunia, pada prinsipnya lengkap, tetapi tidak dapat diamati secara langsung oleh agen apa pun di dalamnya. Observasi adalah pandangan lokal agen terhadap realitas ini. Aksi adalah tanggapan agen berdasarkan hal itu.
Loop tertutup ini (agen → aksi → status → observasi → agen) adalah struktur yang memberi istilah "model dunia" makna teknisnya. Frasa ini sendiri lebih tua, dapat ditelusuri kembali ke usulan Kenneth Craik pada tahun 1943 bahwa pikiran bernalar dengan menjalankan "model skala kecil" dari realitas, dan pada akhir 1980-an dan awal 1990-an, konsep ini diperkenalkan ke bidang jaringan saraf. Loop tertutup ini juga menjelaskan apa yang dimaksud orang ketika menggunakan istilah ini hari ini. Hal-hal yang sekarang disebut model dunia sebenarnya adalah proyeksi berbeda dari loop tertutup yang sama, masing-masing menghasilkan bagian berbeda dari loop tersebut.
Tiga Fungsi Model Dunia
Model dunia pertama adalah renderer. Renderer menghasilkan observasi, khususnya piksel untuk mata manusia, dan metrik kualitas terpentingnya adalah kesetiaan visual. Model video yang mengubah petunjuk teks menjadi rekaman udara tingkat film adalah renderer; sistem interaktif seperti Genie 3 Google atau RTFM World Labs sendiri juga renderer, yang menghasilkan gambar secara real-time berdasarkan input pengguna. Model seperti ini tidak memiliki pemahaman eksplisit tentang struktur tiga dimensi. Ia menghasilkan apa yang akan dilihat pemirsa, bukan bagaimana sebenarnya benda itu. Bangunan dalam rekaman udara mungkin terlihat sempurna dari udara, tetapi cobalah menavigasi kota di bawahnya, mereka akan runtuh.
Yang kedua adalah simulator. Simulator menghasilkan status: representasi dunia yang setia secara geometri, fisik, atau kinematika, tempat manusia dan program komputer dapat berhitung dan berinteraksi. Kontrak renderer bersifat visual murni, sedangkan kontrak simulator bersifat struktural, mengharuskan geometri dapat diuji, fisika mengikuti hukum Newton, dan dinamika berperilaku sesuai harapan hukum fisika. Simulator melayani dua jenis pengguna sekaligus. Profesional seperti arsitek, desainer, pembuat film, pengembang game membutuhkan akurasi melampaui kredibilitas visual. Program komputer seperti agen pembelajaran penguatan, pengontrol robot, kendaraan otonom menggunakan simulator sebagai arena pelatihan, berinteraksi dengan dunia secara besar-besaran, menguji skenario yang berbahaya, mahal, atau bahkan mustahil dilakukan dalam kenyataan.
Yang ketiga adalah perencana. Perencana menghasilkan aksi. Diberikan sebuah observasi dan sebuah tujuan, perencana menjawab pertanyaan: apa yang harus dilakukan agen selanjutnya. Dalam banyak hal, perencana adalah kebalikan dari renderer. Renderer mengambil aksi sebagai input, menghasilkan observasi; perencana mengambil observasi sebagai input, menghasilkan aksi, sehingga menutup loop persepsi-aksi. Model visual-bahasa-aksi (VLA), sistem berbasis model, dan gelombang baru model aksi dunia (World Action Models), semuanya adalah upaya berbeda dari perencana: membuat sistem dapat memutuskan apa yang harus dilakukan robot di dunia yang tidak terstruktur.
Ketiga kategori di atas mencakup sebagian besar pekerjaan yang benar-benar diimplementasikan saat ini, dan perbedaan di antara mereka berguna dalam praktik. Namun ketiga kategori ini tidak secara fundamental terpisah satu sama lain. Mereka berbagi pengetahuan dasar yang sama tentang bagaimana dunia bekerja: geometri, fisika, dinamika. Model yang dapat merender cangkir dari sudut mana pun, pada prinsipnya juga harus dapat mensimulasikan apa yang terjadi jika cangkir didorong, dan merencanakan tangan untuk mengambilnya. Semakin banyak penelitian yang paling menarik, sengaja mengaburkan batas antara ketiganya.

Gambar | Tiga Jenis Model Dunia (Sumber: Substack)
Mengapa Simulator Adalah Poros Kunci
Di antara ketiga kategori, simulator menerima perhatian publik paling sedikit, tetapi justru yang paling penting. Artikel ini ingin memperbaiki asimetri ini.
Renderer saat ini paling matang secara komersial. Banyak produk gambar atau teks-ke-video berkembang pesat di pasar konsumen dan perusahaan. Model Nano Banana Google membawa kemampuan pembuatan gambar tingkat renderer ke tangan ratusan juta pengguna. Teknologinya nyata, pasarnya juga nyata. Namun target optimalisasi renderer adalah kredibilitas visual, bukan akurasi fisik, dan batas ini penting. Output mereka indah, tetapi Anda tidak dapat menggunakannya untuk mendesain bangunan atau melatih robot.
Perencana adalah yang paling menarik dan paling tidak matang, terkait erat dengan bidang pembelajaran robotika yang berkembang cepat. Selama dua tahun terakhir, bidang ini menghasilkan banyak demonstrasi robot yang terkesan dalam video, tetapi kita harus jujur tentang apa sebenarnya yang ditunjukkan demonstrasi ini. Hampir semua demonstrasi terbatas pada lingkungan laboratorium yang sangat terkendali, dengan jenis benda terbatas, dan durasi tugas pendek. Tidak ada yang telah diuji dengan kompleksitas, keragaman, dan durasi berkelanjutan yang diperlukan oleh penerapan dunia nyata. Jurang antara video demonstrasi yang hebat dan robot yang dapat bekerja andal di dapur, gudang, atau ruang operasi masih sangat besar.
Meski begitu, ukuran taruhan komersial masih besar. Gelombang pendatang baru dengan pendanaan besar sedang berlomba-lomba meluncurkan sistem perencanaan umum, sementara pemain infrastruktur besar memasang kemampuan perencanaan di atas tumpukan simulasi yang lebih luas.
Simulasi adalah jembatan yang menghubungkan keduanya. Jika bahasa adalah abstraksi dunia, piksel adalah proyeksi dunia, maka geometri, fisika, dan dinamika adalah dunia itu sendiri. Simulator harus bekerja pada tingkat ini: itu adalah kerangka struktural, di mana representasi visual (untuk digunakan renderer) dan konsekuensi aksi (untuk digunakan perencana) dapat diturunkan.
Model yang menguasai simulasi dapat memproyeksikan pemahamannya menjadi piksel untuk konsumsi manusia, dan juga menjadi prediksi aksi untuk digunakan agen berwujud. Model yang hanya menguasai rendering atau hanya perencanaan tidak dapat melakukan keduanya. Ruang komersial di sini sangat luas. Hanya Omniverse NVIDIA saja, yang ukuran pasar targetnya diperkirakan perusahaan tersebut melebihi triliunan dolar, mencakup pabrik, gudang, rantai pasokan, dan kembaran digital. Pelatihan robot, pengujian kendaraan otonom, visualisasi arsitektur, desain teknik, penemuan obat, semuanya bergantung pada beberapa bentuk simulasi.
Masalah terbuka paling sulit di bidang ini juga terkonsentrasi di sini. Data 3D dengan anotasi geometri eksplisit, atribut material, dan fisika jauh lebih langka beberapa tingkat daripada video internet yang digunakan untuk melatih renderer. Kesenjangan simulasi-ke-nyata (perbedaan perilaku objek dalam simulasi dengan perilaku di dunia nyata) masih ada. Simulator generatif memperkenalkan risiko baru di atas itu: geometri yang dihasilkan AI mungkin terlihat benar, tetapi sebenarnya mengandung masalah seperti perpotongan diri atau skala yang salah, menyebabkan simulasi fisik menghasilkan hasil yang tidak masuk akal. Biaya komputasi untuk simulasi multi-fisika skala besar (benda tegar, benda yang dapat berubah bentuk, fluida, kain, semuanya berinteraksi bersamaan) masih beberapa tingkat lebih tinggi daripada simulasi domain tunggal.
Di World Labs, Marble adalah langkah pertama kami dalam arah ini. Ia menerima input multimodal (teks, gambar, video, atau sketsa spasial), menghasilkan lingkungan 3D yang dapat dieksplorasi, sekaligus menghasilkan Gaussian splats untuk eksplorasi visual dan collision mesh untuk dioperasikan oleh mesin fisika. Namun Marble hanyalah bab pertama dari garis panjang. Saat batas antara rendering, simulasi, dan perencanaan mulai kabur, seluruh bidang sedang menulis cerita ini.
Batas Mulai Kabur, dan Apa yang Akan Terjadi Selanjutnya
Tren terpenting di bidang ini saat ini adalah ketiga kategori mulai menyatu. Konsensus di baliknya adalah: pengetahuan yang dibutuhkan untuk merender dunia, mensimulasikannya, dan bertindak di dalamnya sebagian besar adalah sama. Mengikuti contoh sebelumnya, model yang benar-benar memahami bagaimana cangkir diletakkan di atas meja (bentuk geometrinya, atribut materialnya, responsnya terhadap gaya, dll.) seharusnya dapat merender cangkir itu dari sudut mana pun, mensimulasikan apa yang terjadi jika cangkir didorong, dan merencanakan tangan untuk mengambilnya. Ketiga kategori adalah tiga proyeksi dari pemahaman dasar yang sama.
Misalnya, baru-baru ini sudah ada sedikit namun terus bertambahnya pekerjaan dari berbagai laboratorium robotika yang menunjukkan kemungkinan yang setidaknya secara konseptual layak: sebuah renderer video yang telah dilatih sebelumnya dapat berfungsi sebagai jaringan tulang punggung untuk prediksi dunia gabungan dan prediksi aksi, memungkinkan satu model sekaligus membayangkan "apa yang akan terjadi" dan "apa yang harus dilakukan", sehingga menjembatani renderer dan perencana. Marble dari World Labs sudah dapat menghasilkan Gaussian splats dan collision mesh dari satu model, menghilangkan batas antara renderer dan simulator. Setiap lapisan beralih dari output pasif ke sistem interaktif: renderer menjadi responsif terhadap kondisi aksi, dunia yang dihasilkan simulator menjadi lebih terkontrol dan dapat diedit, perencana mulai melakukan penalaran yang bijaksana daripada sekadar bereaksi.
Titik akhir logisnya adalah model dunia yang terpadu: sebuah model dasar yang dapat merender tampilan yang fotorealistik, menghasilkan struktur yang akurat secara fisik, merencanakan urutan aksi, dan beralih di antara modalitas output yang berbeda sesuai kebutuhan pengguna hilir. Kita masih akan menghadapi serangkaian tantangan yang berat. Lanskap datanya sangat tidak seimbang, renderer memiliki video internet yang melimpah, sementara simulator dan perencana menghadapi kelangkaan parah data aset 3D dan demonstrasi robot. Optimalisasi untuk keindahan visual dapat mengorbankan ketepatan yang dibutuhkan oleh robotika atau simulasi berkualitas tinggi. Merekatkan ketegangan ini dalam satu arsitektur tunggal adalah masalah terbuka inti dari penelitian model dunia saat ini, dan juga yang sedang diupayakan World Labs dalam mengembangkan Marble secara berkelanjutan.

(Sumber: Substack)
Tetapi arah besar sudah jelas. Dari akhir 1980-an hingga sekarang, bidang ini selalu bertaruh pada hal yang sama: selama model dunia cukup kaya, segala sesuatu yang dibutuhkan agen untuk melihat dunia, membangun dunia, dan bertindak di dalamnya ada di dalamnya. Taruhan ini sekarang sedang mendorong penelitian satu generasi. Dan yang benar-benar memberinya bobot adalah fusi yang sudah terjadi: tiga garis (rendering, simulasi, perencanaan), masing-masing sudah mendukung industri miliaran dolar, mereka awalnya adalah arah penelitian independen, sekarang mulai menyatu. Ketika batas hilang, konvergensi ketiganya akan mendefinisikan ulang hal yang lebih besar: hubungan antara kecerdasan mesin dan dunia fisik yang dihuninya, yaitu arah jangka panjang kecerdasan spasial.
Bahasa memberi mesin cara untuk berbicara tentang dunia ini. Model dunia adalah cara mesin akhirnya memahami, membayangkan, menalar, dan berinteraksi dengannya.
Referensi:1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models





