Konsep Model Dunia untuk Pemula: Sebuah Kisah dari Psikologi hingga Medan Utama AI
**Ringkasan Konsep Model Dunia: Dari Psikologi ke Medan Utama AI**
Model Dunia adalah konsep yang sangat hangat di dunia AI namun sering membingungkan banyak orang. Pada dasarnya, model dunia bertujuan memberi mesin "papan pasir mental" untuk mensimulasikan dan memprediksi kejadian di dunia nyata sebelum bertindak. Kemampuan ini, yang dalam psikologi disebut "model mental", memungkinkan AI berlatih dan bereksperimen secara virtual, mengurangi ketergantungan pada data dunia nyata yang mahal dan terbatas.
Konsep ini berakar dari ide psikolog Kenneth Craik (1943) tentang bagaimana otak membangun model internal untuk memprediksi peristiwa. Di AI, pionir seperti Marvin Minsky dengan "Teori Kerangka" dan peneliti seperti David Ha serta Jürgen Schmidhuber (2018) menghidupkan kembali konsep ini dalam pembelajaran mendalam.
Para ahli memiliki pandangan berbeda:
* **Yann LeCun** (Meta) mengkritik LLM dan mengadvokasi model prediktif seperti JEPA yang memahami struktur fisika dunia, bukan hanya menghasilkan konten.
* **Fei-Fei Li** (Stanford/World Labs) mengklasifikasikan model dunia menjadi tiga jenis berdasarkan siklus "aksi-observasi": **Perender** (menghasilkan piksel/visual), **Simulator** (menghasilkan status dunia dengan akurasi struktural/fisik), dan **Perencana** (menghasilkan aksi).
* **Tim FIB-Lab Tsinghua** membaginya menjadi dua fungsi inti: **Memahami Dunia** (mendukung pengambilan keputusan) dan **Memprediksi Masa Depan** (menghasilkan status/video masa depan).
Perusahaan teknologi besar juga mendefinisikannya sesuai kebutuhan:
* **OpenAI** menyebut **Sora** sebagai "simulator dunia" berbasis video.
* **Google DeepMind** membangun **Genie 3** sebagai model dunia 3D interaktif waktu-nyata.
* **NVIDIA** mengembangkan **Cosmos** sebagai platform "model fondasi dunia" untuk AI fisik.
* **Perusahaan China** seperti Alibaba, Tencent, Huawei, dan pembuat mobil (NIO, XPeng, Li Auto) mengembangkan solusi serupa untuk simulasi mengemudi, robotika, dan dunia virtual, meski sering menggunakan nama berbeda.
Secara teknis, ada tiga jalur pendekatan utama:
1. **"Melukis" (Generatif)**: Model pembuat video seperti Sora. Keunggulan visual, tetapi konsistensi fisika lemah.
2. **"Kalkulasi Mental" (Prediktif Abstrak)**: Seperti JEPA LeCun. Memprediksi representasi abstrak, efisien dan lebih stabil mempelajari fisika, tetapi kurang terinterpretasi.
3. **"Menyusun Balok" (Simulasi 3D Eksplisit)**: Seperti NVIDIA Omniverse. Menghasilkan lingkungan 3D dengan properti geometri dan fisika. Tepat dan dapat dikontrol, tetapi memerlukan data khusus dan mahal.
Perkembangan terkini bergerak menuju **Model Aksi Dunia (WAM)** yang menggabungkan prediksi keadaan masa depan dan pembuatan aksi dalam satu model, mencapai "pengetahuan dan tindakan yang selaras" untuk robotika.
Industri model dunia mulai terbentuk dalam tiga lapisan:
* **Lapisan Dasar**: Data, daya komputasi (didominasi GPU NVIDIA), dan sensor.
* **Lapisan Platform Teknis**: Platform serbaguna (Omniverse, Pangu) dan platform vertikal (untuk mobil otonom, konstruksi).
* **Lapisan Aplikasi**: Mobil otonom (paling matang), robotika, game, konstruksi cerdas, layanan spasial, simulasi medis.
Kekacauan dalam penamaan dan definisi sebenarnya adalah tanda awal revolusi teknologi, mirip dengan fase awal komputasi awan atau AI. Semua pendekatan, meski berbeda, mengarah pada tujuan yang sama: memberdayakan mesin dengan model internal dunia yang dapat disimulasikan untuk bertindak lebih aman, efisien, dan cerdas di dunia nyata. Konsep akan menyatu ketika teknologinya matang. Saat ini, ketidakseragaman justru menandakan bahwa model dunia telah memasuki medan pertempuran utama pengembangan AI.
marsbit23m yang lalu