"Dunia adalah segala yang terjadi."
Pada tahun 1921, Ludwig Wittgenstein menuliskan kalimat terkenal ini dalam "Tractatus Logico-Philosophicus". Satu abad kemudian, kalimat ini dikutip oleh salah satu pemimpin AI, Li Feifei, sebagai pembuka blog teknis terbarunya.
Dalam peta pembelajaran mendalam, orang-orang selama tiga tahun terakhir telah terbiasa dengan serangan AI yang mereduksi bahasa, dimulai dari ChatGPT yang memberikan kemampuan ekspresi, pemrograman, dan penalaran yang jauh melampaui manusia.
Namun, di balik keajaiban digital ini, ada area buta yang sering diabaikan: mesin dapat membicarakan dunia, tetapi tidak tahu apa-apa tentang esensi fisik dunia. Blog yang dirilis Li Feifei ini bagai penyejuk yang menenangkan.
Di era di mana AI generatif telah menjadi alat yang sangat penting secara global, definisi "model dunia" di dalam industri semakin kacau. Baik itu pembuatan video maupun kecerdasan berwujud, berbagai perusahaan sedang berebut hak penafsiran konsep ini.
Setelah Li Feifei mempublikasikan blog ini, banyak orang beranggapan dia mencoba merebut kembali hak mendefinisikan "model dunia". Namun sebaliknya, saya pikir, apa yang sebenarnya ingin dilakukan Li Feifei adalah menggunakannya untuk menyampaikan sebuah manifesto kepada semua orang: dunia tidak dibangun dari bahasa, melainkan dari ruang fisik dan hukum waktu yang ketat.
Agar mesin benar-benar dapat memasuki dunia fisik manusia, mereka harus keluar dari zona nyaman statistik teks dan beralih memahami pembiasan cahaya, inersia benda, dan logika tumbukan. Ini bukan hanya pergeseran paradigma teknis, tetapi juga jalan yang harus ditempuh AI menuju kecerdasan berwujud.
01
Orang Membutuhkan Sebuah Taksonomi
Harus diakui, dalam kamus AI, "model dunia" telah menjadi kata ganti serba bisa; sepertinya proyek apa pun yang melibatkan pembuatan gambar dan simulasi lingkungan dapat dikaitkan dengannya. Ketidakjelasan ini justru berasal dari kebutuhan multidimensi orang terhadap definisi "dunia".
Saat suatu teknologi baru mulai berkembang, tentu belum ada undang-undang seragam yang membatasinya dalam batas yang jelas. Kekacauan definisi "model dunia" ini juga tidak langka dalam sejarah. Ketika para filsuf Yunani kuno memperdebatkan apakah esensi dunia adalah air, api, atau atom yang tidak dapat dibagi, mereka sebenarnya sedang mencari dasar penalaran mereka sendiri.
Bidang AI sekarang menghadapi masalah yang sama: ketika model pembuat video menghasilkan efek yang sangat realistis secara visual tetapi sepenuhnya tidak mungkin menurut hukum fisika, bagaimana orang harus mendefinisikannya? Dalam blognya, Li Feifei menyebutkan dasar definisi yang kuno namun kokoh: Proses Keputusan Markov yang Teramati Sebagian (POMDP).
Ini juga merupakan aksioma inti dari mekanisme pembelajaran penguatan, yang mengungkapkan siklus abadi interaksi antara agen cerdas dan dunia fisik: Agen mengambil tindakan (Action), menyebabkan keadaan dunia (State) berubah. Namun, agen tidak memiliki sudut pandang sempurna, ia hanya dapat membangun persepsi lokal tentang realitas melalui pengamatan (Observation).
Model dunia pada dasarnya adalah model abstrak tentang dunia yang dibangun oleh mesin di "otaknya" untuk bertahan dalam siklus ini. Jika salah satu mata rantai dalam siklus ini tidak didefinisikan dengan jelas, maka yang disebut model dunia hanyalah tumpukan piksel yang buta.
02
Tiga Pilar Membangun Kecerdasan
Siklus ini terdengar sederhana, fungsi setiap mata rantainya mudah dipahami. Namun, jika dianalisis dengan cermat, di dalamnya ada banyak detail yang definisinya tidak jelas. Untuk menjelaskan kekacauan ini, Li Feifei memecah model dunia menjadi tiga komponen inti, yang sekaligus merupakan klasifikasi teknis dan tiga pilar menuju kecerdasan berwujud bagi AI.
1. Renderer
Logika inti renderer adalah kelayakan visual. Outputnya adalah piksel, bertujuan membuat gambar terlihat alami, koheren, dan estetis di mata manusia.
Ini juga bidang yang paling matang secara komersial saat ini. Seperti model pembuat video Sora dari OpenAI dan Seedance 2.0 dari ByteDance, model pembuat gambar GPT-image-2 dari OpenAI dan Nano Banana 2 dari Google, pada dasarnya adalah mesin probabilitas visual paling canggih saat ini. Dengan mempelajari ratusan juta gambar dan video dari internet, mereka akhirnya menguasai pola distribusi cahaya dan bentuk.
Meski tampak indah, Li Feifei menunjukkan bahwa ini ada konsekuensinya. Model-model top ini mungkin dapat menghasilkan bangunan megah, tetapi jika mencoba berinteraksi dalam struktur fisik yang dihasilkannya, bangunan itu kemungkinan besar akan runtuh seketika karena kurangnya struktur penopang. Dengan kata lain, mereka tidak memahami apa itu "penopang"; yang mereka hasilkan hanyalah apa yang "terlihat" oleh penonton, bukan bagaimana dunia "ada".
2. Simulator
Apa yang dikejar simulator justru adalah kesetiaan struktur yang kurang pada renderer. Ia sama sekali tidak peduli apakah video itu bagus dilihat, satu-satunya yang diperhatikan adalah apakah dunia mengikuti hukum fisika. Ketika simulator mengeluarkan cangkir yang sangat biasa sekalipun, ia harus mencakup distribusi massa cangkir, koefisien gesekan material, respons gravitasi, serta batas fisik saat terjadi tumbukan.
Dengan adanya simulator, konten dalam video baru dapat dikatakan memiliki keaslian. Namun, simulator tidak hanya sangat diremehkan dalam gelombang AI saat ini, tetapi juga sering diabaikan.
Dari contoh cangkir di atas, kehadiran simulator mengubah "membahas seni" menjadi "mempelajari fisika". Untuk membangun simulator yang benar-benar mematuhi hukum fisika, dibutuhkan sumber daya komputasi dan biaya anotasi yang sulit dibayangkan. Namun bagi robot, estetika visual hampir merupakan atribut yang tidak berguna; presisi fisik-lah yang menentukan segalanya.
Jika simulator tidak cukup akurat, robot yang dilatih di dalamnya tidak akan pernah bisa memasuki dunia nyata. Tantangan Sim-to-Real memang ada. Tindakan tes yang lolos 100% di laboratorium, di dunia nyata, gesekan kecil saja dapat melumpuhkan robot sepenuhnya. Inilah yang sering kita sebut "Paradoks Moravec".
3. Planner (Perencana)
Planner bertanggung jawab atas keluaran tindakan. Sebagai titik penghubung persepsi dan umpan balik, ia perlu memecahkan masalah inti yang tidak pernah memiliki jawaban standar: "Apa yang harus dilakukan selanjutnya?". Dalam kerangka kerja Li Feifei, ini juga merupakan mata rantai terakhir dari keseluruhan siklus "persepsi-aksi", sekaligus bidang yang paling menantang di garis depan.
Saat ini, semua model Visi-Bahasa-Aksi (VLA) sedang mencoba membuat sistem mengambil keputusan di dunia kompleks yang tidak terstruktur. Planner tidak hanya memprediksi masa depan, tetapi juga memilih satu jalur dari berbagai kemungkinan yang paling dapat mencapai tujuan. Ini adalah kunci bagi mesin untuk berevolusi dari "pengamat" menjadi "pelaku".
03
Hubungan Senilai Ratusan Miliar Dolar
Dalam tiga klasifikasi yang diberikan Li Feifei, model untuk renderer dan planner sudah cukup umum; simulator yang tersisa, tentu saja, menjadi bagian yang paling sulit diwujudkan. Li Feifei juga memberikan penilaian yang sangat mendalam: simulator adalah penghubung antara rendering dan perencanaan, sekaligus inti dari seluruh sistem.
Yang paling unggul di bidang simulator ini bukan OpenAI, Anthropic, atau Google, melainkan NVIDIA milik Jensen Huang.
Omniverse NVIDIA mengklaim dapat menopang mimpi kembar digital triliunan, karena ia menguasai esensi simulator. Di platform NVIDIA, operasi pabrik, rantai pasok, dan gudang telah menjadi citra digital yang lengkap. Bagi dunia industri, ini bukan lagi demo presentasi visual, melainkan infrastruktur inti produktivitas.
Ini bukanlah berlebihan, melainkan peluang pasar triliunan yang ada di depan mata semua orang.
Dari visualisasi virtual teknik sipil, simulasi dinamika molekul di industri farmasi, hingga pengujian skenario mobil otonom. Industri-industri ini tidak kekurangan model pembuat gambar atau video yang hidup, melainkan simulator dengan kesetiaan sangat tinggi. Boleh dikatakan, menguasai kemampuan simulasi dunia fisik sama dengan menguasai tiket prioritas masuk industrialisasi AI.
Tapi kesulitan di dunia nyata membuat bidang ini hampir tidak memiliki optimis teknologi. Li Feifei juga mengakui, kesenjangan besar selalu ada.
Pertama adalah masalah data kecerdasan berwujud yang telah kita sebutkan berulang kali sebelumnya. Data video di internet tidak terhitung jumlahnya, namun data 3D dengan struktur geometris yang jelas, atribut material, dan anotasi umpan balik fisik sangat langka.
Kedua, penerapan AI generatif selalu disertai risiko tersembunyi. Model geometri yang dihasilkan AI paling-paling hanya dapat mencapai kesempurnaan visual, namun seringkali tidak masuk akal secara struktur fisik, seperti cangkir yang menembus meja, atau objek yang bertabrakan kehilangan rasa volume. Dalam bahasa manusia, dua kata singkat "tembus model" dapat menggambarkan fenomena aneh ini, namun dalam aplikasi industri nyata, ini berarti bencana.
04
Menuju Model Dunia yang Terpadu
Meski penuh kesulitan, Li Feifei tetap memberikan prediksi positif tentang tren industri: batas antara rendering, simulasi, dan perencanaan semakin kabur.
Ini bukanlah visi indah, melainkan kenyataan yang sudah terjadi. Tim World Labs Li Feifei setelah melakukan eksplorasi, berpendapat bahwa manusia sedang menuju model dasar yang terpadu. Dalam arsitektur ini, imajinasi dan logika dapat menyatu.
Model masa depan bukan lagi penambahan dan perpaduan fungsi tunggal, melainkan dasar jaringan saraf yang terpadu. Ia dapat merender adegan realistis melalui Gaussian splatting sambil menghasilkan secara real-time mesh tabrakan yang dibutuhkan mesin fisika. Singkatnya, model dasar terpadu akan memungkinkan peralihan mulus antara mode visual yang dibutuhkan manusia dan mode keadaan yang dibutuhkan mesin fisika.
Dari sudut pandang lain, model tradisional bersifat statis, sedangkan model dunia masa depan akan memiliki interaktivitas yang lebih kuat. Renderer tidak lagi menjadi generator video pasif, dan perlahan mulai menerima instruksi tindakan; simulator menjadi lebih mudah diedit dan dikendalikan; planner juga mampu berpikir logis, menyesuaikan strategi secara otomatis berdasarkan perubahan lingkungan.
05
Garis Lengkung Panjang Kecerdasan Spasial
Terakhir, kembali ke tingkat makro, mengapa semua ini tentang "model dunia" penting?
Menurut Li Feifei, penelitian AI manusia selama beberapa dekade terakhir selalu mencari kunci yang dapat membuat mesin masuk ke dunia fisik. Kini, kita telah memiliki model bahasa yang pandai menangani logika, berikutnya dibutuhkan model yang menangani ruang. Inti dari kecerdasan spasial terletak pada bagaimana mesin berinteraksi dengan dunia fisik tempatnya berada.
Pertempuran ini bukan tentang siapa yang memiliki lebih banyak daya komputasi, melainkan siapa yang dapat mendefinisikan standar digital dunia fisik.
Model dunia sama sekali bukan sekadar optimasi algoritma sederhana, melainkan sebuah pencapaian besar evolusi AI.
"Bahasa memberikan mesin kemampuan untuk membicarakan dunia ini, sedangkan model dunia adalah cara mesin akhirnya memahami, membayangkan, bernalar, dan berinteraksi dengan dunia fisik."
Setiap orang di era ini sedang beralih dari tahap membicarakan dunia, menuju era baru yang benar-benar memahami dan merekonstruksi dunia.
Meski demikian, model dunia hanyalah sebuah titik tengah di jalan menuju AGI, dan AI yang diciptakan manusia masih jauh dari "model dunia" yang sesungguhnya. Di sini, pandangan agak ekstrem dari tokoh pemimpin model dunia lainnya, Yann LeCun, layak dibagikan:
Dengan optimis, setidaknya dibutuhkan lima hingga sepuluh tahun lagi, kecerdasan mesin baru dapat mendekati kecerdasan seekor anjing.
Artikel ini berasal dari akun WeChat "Guiji Xingmang", penulis: Si Qi







