3 Juni 2026, Tim World Labs bersama Profesor Fei-Fei Li dari Universitas Stanford menerbitkan sebuah artikel analisis konsep dengan judul yang lugas hampir tanpa hiasan: "Taksonomi Fungsional Model Dunia". Kalimat pertama artikel langsung menyingkap sebuah kesepakatan diam-diam di industri: "Model dunia adalah salah satu istilah terpenting, namun juga paling disalahgunakan di bidang kecerdasan artifisial saat ini."
Latar belakang pernyataan ini tentu tidak asing bagi siapa saja yang mengikuti industri AI.
Pada Februari 2024, OpenAI merilis model pembangkit video Sora, dan judul laporan teknisnya tertulis jelas: "Model Pembangkit Video Sebagai Simulator Dunia". Jim Fan, Direktur Robotika NVIDIA, saat itu meninggalkan komentar di LinkedIn yang kemudian kerap dikutip: Sora pada dasarnya adalah "model dunia yang hanya mengizinkan 'tidak beroperasi' (no-op) sebagai satu-satunya aksi". Di sisi lain, menurut laporan publik, tim AI Tesla berkali-kali menyebut komponen prediksi internal di sistem Full Self-Driving mereka sebagai "model dunia" atau "simulator dunia" di berbagai kesempatan publik. Mesin game, alat pembangkit 3D, model kecerdasan berwujud, berbagai produk dan teknologi dimasukkan ke dalam keranjang yang sama, ditempeli label yang sama.
Apa kesamaan antara sebuah pembangkit video, sebuah jaringan prediksi mengemudi otonom, sebuah model kontrol robot, dan sebuah mesin fisika? Hampir tidak ada. Tapi semuanya disebut model dunia.
Kekacauan konseptual yang berlangsung lebih dari dua tahun ini akhirnya ada yang berusaha merapikan secara sistematis. Kali ini, tim Fei-Fei Li tidak merilis model baru, tidak mengumumkan benchmark baru, tidak mendemonstrasikan fungsi produk apa pun. Mereka melakukan hal yang lebih mendasar: kembali ke sumber teoretis Proses Keputusan Markov yang Teramati Sebagian, dan mereduksi semua sistem yang disebut "model dunia" di pasaran menjadi tiga proyeksi fungsi yang berbeda dari satu siklus kognitif yang sama.
Tiga proyeksi tersebut adalah: renderer, simulator, perencana (planner). Dalam kerangka klasifikasi World Labs, Sora dan model pembangkit video sejenisnya termasuk dalam kategori renderer.
Mengapa Satu Istilah Bisa Memuat Banyak Makna yang Saling Bertentangan
Untuk memahami akar kekacauan ini, perlu ditanyakan pertanyaan yang lebih mendasar: Ketika sebuah perusahaan mengatakan "kami sedang membuat model dunia", apa sebenarnya yang mereka maksud?
Bagi OpenAI, tujuan Sora adalah "memahami dan merepresentasikan dunia fisik dalam video". Dari laporan teknisnya, Sora dapat menghasilkan gambar yang sesuai dengan pengetahuan umum visual dengan mempelajari pola statistik dari data video dalam jumlah besar. Gelas yang jatuh akan pecah, pesawat kertas yang dilepas akan terbang, kaki manusia bergantian melangkah saat berjalan. Gambar-gambar ini terlihat "memahami fisika".
Bagi Tesla, "model dunia" adalah jaringan saraf dalam sistem FSD yang memprediksi lintasan gerak peserta jalan dalam beberapa detik ke depan. Ia perlu menghasilkan posisi 3D, kecepatan, orientasi yang tepat untuk modul perencanaan rute menghitung keputusan mengemudi yang aman. Model ini tidak perlu menghasilkan piksel; yang dihasilkannya adalah vektor dan distribusi probabilitas.
Bagi perusahaan robotika, "model dunia" adalah mekanisme simulasi internal yang memungkinkan lengan robot memprediksi "jika saya mendorong gelas ini 5 cm ke kiri, apakah ia akan jatuh?". Ia perlu memahami atribut objek, mekanika kontak, dan stabilitas, dan menghasilkan penilaian kelayakan tindakan.
Tujuan ketiga jenis perusahaan ini sepenuhnya berbeda. Perusahaan pembangkit video peduli dengan kesetiaan piksel, perusahaan mobil otonom peduli dengan akurasi prediksi keadaan fisik, perusahaan robotika peduli dengan kemampuan menurunkan konsekuensi tindakan. Mereka semua membuat "model dunia", tapi hal yang mereka lakukan bukanlah hal yang sama.
World Labs dalam artikelnya langsung menunjuk inti masalah: Sistem-sistem ini disebut dengan nama yang sama karena memang membawa satu sisi tertentu dari "memahami dunia". Namun masing-masing hanya menyelesaikan satu mata rantai dalam siklus kognitif yang utuh, tetapi dikemas oleh bahasa pemasaran, pemberitaan media, dan narasi modal sebagai model dunia yang utuh.
Pendorong lain kekacauan konseptual adalah ketegangan dari istilah itu sendiri. Istilah "model dunia" membawa sifat narasi agung, terdengar lebih memiliki ruang imajinasi dibanding "model pembangkit video" atau "model prediksi video", lebih mampu menopai valuasi tinggi dan kisah pendanaan. Ketika kemampuan teknologi tidak dapat memenuhi harapan publik, konsep menjadi alat propaganda menjadi suatu keniscayaan.
Kembali ke Era 1960-an, Seperti Apa "Model Dunia" yang Utuh Seharusnya
Kerangka klasifikasi World Labs dibangun di atas dasar teori yang tampak kuno: Proses Keputusan Markov yang Teramati Sebagian (Partially Observable Markov Decision Process - POMDP).
Kerangka ini menggambarkan siklus utuh interaksi agen cerdas dengan lingkungan. Agen berada dalam suatu keadaan lingkungan, ia melakukan suatu tindakan, tindakan mengubah keadaan lingkungan, agen memperoleh pengamatan sebagian melalui sensor, pengamatan memicu pembaruan keadaan internal, kognisi yang diperbarui menggerakkan tindakan berikutnya. Terus berulang.
Dalam kerangka ini, fungsi utuh "model dunia" harus mencakup tiga mata rantai: menghasilkan pengamatan dari keadaan (piksel, titik awan yang dilihat mata manusia atau dikumpulkan sensor), mendorong keadaan berikutnya dari tindakan dan keadaan saat ini (memprediksi perubahan fisik), menghasilkan tindakan dari pengamatan dan tujuan (perencanaan keputusan).
Model bahasa mempelajari pola statistik urutan teks, model dunia mempelajari karakteristik statistik ruang dan waktu. Bagaimana cahaya memantul di permukaan material berbeda, bagaimana objek bergerak di bawah pengaruh gravitasi, bagaimana energi ditransfer setelah tabrakan benda kaku, inilah pola yang perlu ditangkap oleh model dunia.
Tim World Labs dalam artikelnya mencatat bahwa semua sistem yang saat ini disebut "model dunia" di pasaran, sebenarnya hanyalah proyeksi dari satu mata rantai fungsional dalam siklus utuh di atas. Beberapa sistem hanya melakukan rendering "dari keadaan ke pengamatan", beberapa hanya melakukan dorongan keadaan "dari tindakan ke keadaan berikutnya", beberapa hanya melakukan perencanaan "dari pengamatan ke tindakan". Masing-masing mengambil sepotong busur dari lingkaran, tetapi ditempeli label yang mewakili lingkaran utuh.
Nilai kerangka analisis ini adalah, ia menyediakan sistem koordinat perbandingan yang melampaui retorika pemasaran. Tak peduli bagaimana sebuah perusahaan mengemas produknya, cukup letakkan kembali ke dalam siklus POMDP, lihat apa inputnya, outputnya, mata rantai apa yang hilang, maka batas kemampuannya akan terpapar jelas.
Batas Kemampuan Tiga Proyeksi: Renderer, Simulator, Perencana
Dalam taksonomi World Labs, kategori pertama didefinisikan sebagai "renderer". Tujuannya inti adalah menghasilkan output piksel setia tinggi yang ditujukan untuk persepsi visual manusia. Inputnya adalah representasi suatu keadaan lingkungan (bisa deskripsi teks, parameter adegan 3D, atau penyandian implisit), outputnya adalah gambar berurutan frame demi frame.
Arah optimalisasi renderer adalah realisme visual, bukan akurasi fisik. Artikel World Labs dengan jelas menyatakan, bangunan yang dihasilkan renderer mungkin "terlihat goyah", karena ia tidak benar-benar menghitung persamaan mekanika struktur; percikan cairan yang dihasilkannya mungkin terlihat nyata, tetapi volume cairan, laju alir, dan gaya benturan mungkin sama sekali tidak sesuai dengan besaran fisik nyata. Jadi model semacam ini tidak dapat digunakan untuk desain arsitektur, pelatihan robot, atau tugas yang membutuhkan simulasi fisik yang tepat.
Genie 3 milik Google, berbagai model teks-ke-video, dan hampir semua alat pembangkit video AI termasuk dalam kategori ini. Tentu saja, Sora juga di dalamnya.
Kategori kedua adalah "simulator". Tujuannya inti bukanlah menghasilkan gambar untuk dilihat manusia, melainkan menghasilkan keadaan berikutnya yang tepat yang dapat digunakan untuk komputasi selanjutnya. Inputnya adalah keadaan lingkungan saat ini dan gaya luar (atau tindakan), outputnya adalah keadaan berikutnya yang setia pada hukum dunia nyata secara fisik dan geometris. Keadaan yang dihasilkan simulator dapat digunakan untuk analisis tegangan, perhitungan konsumsi energi, deteksi tabrakan, atau juga dapat menjadi input renderer untuk menghasilkan gambar visualisasi, namun nilai intinya terletak pada kemampuan komputasi keadaan itu sendiri.
NVIDIA Omniverse adalah perwakilan khas dari sistem semacam ini. Ia bukan model asli AI, melainkan platform kembaran digital yang menggabungkan mesin fisika tradisional dengan komputasi terakselerasi AI. World Labs dalam artikelnya menilai, simulator adalah jembatan yang menghubungkan rendering dan perencanaan, tetapi kelangkaan data anotasi fisik 3D berkualitas tinggi adalah hambatan utama. Menurut perkiraan World Labs dalam artikelnya, data untuk melatih model semacam ini, jauh lebih sedikit beberapa orde magnitudo dibanding data video yang dapat diperoleh di internet.
Kategori ketiga adalah "perencana" (planner). Inputnya adalah data pengamatan (gambar kamera, titik awan lidar, pembacaan sensor sentuh, dll) dan instruksi tujuan, outputnya adalah tindakan apa yang harus dieksekusi selanjutnya. Model VLA (Vision-Language-Action) dan World Action Models termasuk dalam kategori ini.
Perbedaan di antara ketiga klasifikasi ini bukanlah perbedaan kecil dalam rute teknologi, melainkan divergensi fungsional yang mendasar. Renderer menghasilkan piksel untuk dilihat manusia, simulator menghasilkan keadaan untuk dihitung mesin, perencana menghasilkan tindakan untuk dijalankan aktuator. Sebuah sistem dapat memiliki berbagai kemampuan sekaligus, tetapi ketika sebagian besar sistem yang disebut "model dunia" pada dasarnya hanya melakukan rendering, menyamakan "rendering" dengan "memahami dunia" adalah ketidakcocokan kognitif yang serius.
Perdebatan Selama Dua Tahun: Apakah Sora Benar-benar Model Dunia
Pada Februari 2024, OpenAI merilis Sora, dan judul laporan teknisnya langsung mencantumkan "model pembangkit video sebagai simulator dunia". Pemilihan kata ini segera memicu perdebatan sengit di kalangan akademisi dan komunitas pengembang.
Pendukung berpendapat, video yang dihasilkan Sora menunjukkan konsistensi ruang 3D, persistensi objek, dan pemahaman intuitif tertentu tentang interaksi fisik. Roti burger yang digigit meninggalkan bekas gigi, anjing berlari di salju menyemburkan serpihan salju, detail-detail ini sepertinya menunjukkan model mempelajari beberapa hukum fisika.
Inti argumen penentang berasal dari definisi klasik model dunia di bidang pembelajaran penguatan: sebuah model dunia harus mampu memprediksi transisi keadaan berdasarkan tindakan. Artinya, diberikan keadaan saat ini dan sebuah input tindakan, model seharusnya menghasilkan keadaan berikutnya setelah tindakan. Sora tidak dapat melakukan ini. Pengguna tidak dapat memberi tahu Sora "dorong gelas itu dari kiri", lalu mengamati apakah gelas akan jatuh, ke arah mana, dan kemana serpihannya terbang.
Komentar Jim Fan dengan tepat menangkap kontradiksi ini: "Sora pada dasarnya adalah model dunia, hanya saja ia hanya mengizinkan 'tidak beroperasi' (no-op) sebagai satu-satunya tindakan." Maksud kalimat ini adalah, Sora memang memprediksi perubahan lingkungan seiring waktu, namun proses perubahan ini tidak dapat diintervensi oleh eksternal apa pun, hanya dapat berkembang mengikuti rantai sebab-akibat yang melekat pada data video. Ia tidak melakukan deduksi interaktif, melainkan melanjutkan urutan pengamatan pasif.
Di forum r/MachineLearning di Reddit, banyak peneliti pembelajaran penguatan mengungkapkan kritik yang lebih tajam: Sistem yang tidak dapat memprediksi transisi keadaan berdasarkan tindakan, tidak boleh disebut model dunia, hanya bisa disebut model prediksi video.
Kerangka klasifikasi World Labs memberikan jawaban yang bersifat kesimpulan pada perdebatan ini. Dalam siklus POMDP, tindakan adalah input kunci yang menggerakkan transisi keadaan, sistem yang kehilangan input ini hanyalah proyeksi dari mata rantai "pembangkitan pengamatan" dalam siklus kognitif utuh. Sora termasuk renderer, bukan model dunia yang utuh, apalagi simulator dunia.
Tetapi ini tidak berarti Sora tidak memiliki nilai. Renderer memecahkan masalah yang berbeda: bagaimana menghasilkan gambar yang sesuai dengan ekspektasi visual manusia. Masalah ini sendiri sangat sulit, dan juga memiliki nilai komersial yang besar. Masalahnya adalah, mengemas kemampuan rendering sebagai kemampuan "memahami dunia", akan menyesatkan pengambil keputusan teknologi dan investor, membuat orang salah sangka bahwa model-model ini telah memiliki kemampuan deduksi fisik atau interaksi berwujud.
Nilai Industri dari Klarifikasi Konsep
Memperjelas batasan definisi "model dunia" bukanlah soal meributkan kata-kata secara akademis. Ini secara langsung mempengaruhi pemilihan teknologi, penilaian investasi, dan tingkat pemahaman publik tentang kemampuan AI.
Bagi sebuah perusahaan manufaktur yang sedang mengevaluasi apakah akan menggunakan "model dunia" tertentu untuk pelatihan robotika, memahami dengan jelas apakah model tersebut sebenarnya renderer, simulator, atau perencana, adalah prasyarat yang diperlukan untuk menghindari kesalahan uji coba bernilai jutaan dolar. Sebuah model yang hanya dapat menghasilkan gambar video, betapapun realistisnya gambar itu, tidak dapat menggantikan perhitungan tepat tentang gaya pada objek, lintasan gerak, dan konsekuensi tabrakan.
Bagi lembaga investasi, membedakan tiga jenis proyeksi berarti dapat mengidentifikasi posisi tumpukan teknologi proyek secara lebih akurat. Sebuah perusahaan rintisan yang menyebut diri "model dunia", jika produknya pada dasarnya adalah renderer, pesaingnya adalah perusahaan pembangkit video, bukan platform kembaran digital atau model kontrol robotika. Ini secara langsung menentukan cara memperkirakan ukuran pasar dan pemilihan perusahaan pembanding.
Bagi kalangan akademisi, klasifikasi yang jelas adalah prasyarat untuk membangun benchmark yang dapat dibandingkan. Jika istilah "model dunia" terus digeneralisasi, peneliti akan sulit mendefinisikan apa yang dianggap peningkatan, apa yang dianggap terobosan, dan tinjauan sejawat akan dibangun di atas dasar ambiguitas.
World Labs dalam artikelnya juga mencatat, klarifikasi konsep bukan untuk menciptakan pertentangan. Arah perkembangan di masa depan akan berupa fusi dari ketiga proyeksi. Sebuah model yang benar-benar memahami sifat fisik sebuah gelas, seharusnya dapat merender penampilan visualnya secara bersamaan, mensimulasikan proses fisik saat didorong jatuh, dan merencanakan bagaimana tangan robot menggenggamnya dengan stabil. Namun sebelum teknologi berkembang sampai ke tahap itu, mengenali batas masing-masing lebih bermakna secara realistis daripada membayangkan fusi.
Menurut perkiraan World Labs dalam artikelnya, simulator dan teknologi kembaran digital yang diwakili oleh NVIDIA Omniverse, membidik pasar potensial melebihi triliunan dolar di bidang-bidang seperti pabrik, gudang, rantai pasokan. Angka ini berasal dari penilaian produsen itu sendiri, kapan pasar benar-benar dapat mencapai skala ini, bergantung pada apakah simulator dapat menembus hambatan kelangkaan data fisik 3D berkualitas tinggi.
Bagi industri AI pada tahap saat ini, mungkin kognisi terpentingnya sederhana: dapat menghasilkan video realistis, tidak sama dengan memahami dunia fisik; dapat disebut model dunia, tidak sama dengan benar-benar mensimulasikan dunia. Menembus bahasa pemasaran, meneliti apa sebenarnya input yang diterima sebuah sistem dalam siklus POMDP, output apa yang dihasilkan, mata rantai mana yang hilang, adalah cara penilaian yang paling jujur terhadap batas kemampuan teknologi.







