# Artikel Terkait Kecerdasan Spasial

Pusat Berita HTX menyediakan artikel terbaru dan analisis mendalam mengenai "Kecerdasan Spasial", mencakup tren pasar, pembaruan proyek, perkembangan teknologi, dan kebijakan regulasi di industri kripto.

Artikel Terbaru Li Feifei: Saat Video Generation, Robot, dan NVIDIA Mengaku Sebagai Model Dunia, Kita Membutuhkan Taksonomi

Artikel ini membahas konsep "world model" (model dunia) dalam kecerdasan buatan (AI) yang saat ini banyak digunakan dengan makna berbeda-beda. Fei-Fei Li mengusulkan taksonomi fungsional untuk mengklarifikasi kekacauan ini. Berdasarkan siklus interaksi agen-dunia dalam POMDP (Partially Observable Markov Decision Process), ia mengategorikan model dunia menjadi tiga jenis berdasarkan outputnya: 1. **Renderer (Perender):** Menghasilkan **observasi**, khususnya piksel yang ditujukan untuk mata manusia. Contohnya adalah model video seperti Sora atau sistem interaktif seperti Genie yang menghasilkan gambar berdasarkan input. Fokus utamanya adalah kesetiaan visual, bukan akurasi fisik. 2. **Simulator (Simulator):** Menghasilkan **state (keadaan)**, yaitu representasi dunia yang akurat secara geometri, fisika, dan dinamika. Simulator berfungsi sebagai landasan struktural untuk perhitungan, digunakan oleh profesional (arsitek, desainer) dan program komputer (robot, kendaraan otonom) untuk pelatihan dan pengujian. Contohnya adalah platform seperti NVIDIA Omniverse. 3. **Planner (Perencana):** Menghasilkan **tindakan**. Model ini menentukan langkah selanjutnya yang harus diambil sebuah agen berdasarkan observasi dan tujuan. Ini menutup lingkaran persepsi-aksi. Contohnya adalah model visi-bahasa-aksi (VLA) dan model aksi dunia (World Action Models). Artikel menyoroti bahwa **simulator adalah kunci penghubung** yang paling penting namun kurang mendapat perhatian publik. Simulator bekerja pada tingkat geometri dan fisika yang mendasarinya, sehingga pemahamannya dapat diproyeksikan ke dalam piksel (untuk renderer) atau prediksi konsekuensi tindakan (untuk planner). Tren terpenting saat ini adalah peleburan batas antara ketiga kategori ini, didorong oleh kesadaran bahwa pengetahuan dasar tentang dunia yang dibutuhkan adalah sama. Tujuan akhirnya adalah model dunia terpadu yang dapat beralih di antara rendering, simulasi, dan perencanaan sesuai kebutuhan. Perkembangan ini mendorong kemajuan menuju kecerdasan spasial, di mana mesin tidak hanya memahami bahasa tentang dunia, tetapi juga dapat memahami, membayangkan, bernalar, dan berinteraksi dengan dunia fisik itu sendiri.

marsbit7j yang lalu

Artikel Terbaru Li Feifei: Saat Video Generation, Robot, dan NVIDIA Mengaku Sebagai Model Dunia, Kita Membutuhkan Taksonomi

marsbit7j yang lalu

Artikel Terbaru Li Fei-Fei: Saat Video Generation, Robot, dan NVIDIA Semua Menyebut Dirinya Model Dunia, Kita Membutuhkan Klasifikasi

Dalam artikel terbarunya, Fei-Fei Li mengklarifikasi konsep "model dunia" yang saat ini banyak digunakan namun seringkali ambigu dalam bidang AI. Beliau mengusulkan klasifikasi fungsional menjadi tiga kategori berdasarkan kerangka POMDP (Partial Observable Markov Decision Process): **Renderer** (output: observasi/pixel visual, contoh: model video seperti Sora), **Simulator** (output: status geometris dan fisik yang akurat, contoh: engine fisika untuk pelatihan robot), dan **Perencana (Planner)** (output: tindakan, contoh: model yang memandu robot). Di antara ketiganya, simulator dinilai sebagai penghubung kunci yang kurang mendapat perhatian, karena bekerja pada level struktur dunia yang sebenarnya dan dapat mendukung baik renderer maupun perencana. Artikel ini juga menyoroti tren konvergensi ketiga kategori menuju **model dunia terpadu**, yang mampu beralih antar fungsi sesuai kebutuhan, sebagai langkah penting menuju kecerdasan spasial. Li menekankan bahwa model dunia adalah jalur bagi mesin untuk tidak hanya membicarakan, tetapi juga memahami, membayangkan, dan berinteraksi dengan dunia fisik.

链捕手7j yang lalu

Artikel Terbaru Li Fei-Fei: Saat Video Generation, Robot, dan NVIDIA Semua Menyebut Dirinya Model Dunia, Kita Membutuhkan Klasifikasi

链捕手7j yang lalu

Manifesto Model Dunia Li Feifei

"Model Dunia" telah menjadi istilah yang sering digunakan namun kabur dalam AI. Dalam blog terbarunya, Li Fei-Fei menekankan bahwa mesin saat ini pandai berbicara tentang dunia melalui bahasa, tetapi tidak memahami esensi fisiknya. Untuk mencapai kecerdasan berwujud, AI harus beralih dari statistik teks ke pemahaman hukum fisika, ruang, dan waktu. Ia memecah konsep model dunia menjadi tiga pilar inti: 1. **Renderer:** Menghasilkan gambar/video yang terlihat realistis secara visual (seperti Sora), tetapi seringkali tidak masuk akal secara fisik. 2. **Simulator:** Memprioritaskan kesetiaan pada hukum fisika (seperti massa, tabrakan), yang penting untuk robotika dan industri. NVIDIA Omniverse adalah contoh utama. Ini adalah penghubung penting tetapi menantang karena membutuhkan data 3D yang tepat. 3. **Perencana (Planner):** Bertanggung jawab untuk membuat keputusan dan tindakan dalam lingkungan yang kompleks. Tantangan utama termasuk kurangnya data fisik yang tepat dan risiko "kesalahan" dalam simulasi. Namun, batas antara rendering, simulasi, dan perencanaan mulai kabur. Masa depan menuju model dasar yang terpadu yang dapat menyatukan realisme visual dan simulasi fisika yang dapat berinteraksi. Pada akhirnya, ini bukan hanya tentang algoritma, tetapi tentang mendefinisikan standar digital untuk dunia fisik. "Model dunia adalah cara mesin akhirnya memahami, membayangkan, bernalar, dan berinteraksi dengan dunia fisik," tulis Li Fei-Fei. Meskipun jalan menuju model dunia yang sejati masih panjang, ini adalah langkah penting menuju AGI.

marsbit06/09 00:40

marsbit06/09 00:40

Dari Meja Makan Siang Hingga Alam Semesta Tanpa Batas, Li Fei-fei Bertaruh pada Dimensi Berikutnya AI

**Judul: Dari Meja Makan hingga Alam Semesta Tak Terbatas, Li Fei-Fei Bertaruh pada Dimensi Baru AI** Dalam beberapa wawancara kunci, profesor Stanford dan pendiri World Labs, Li Fei-Fei, menekankan bahwa Kecerdasan Spasial (Spatial Intelligence) adalah batas berikutnya untuk AI. Ia berpendapat bahwa kecerdasan bahasa, yang dominan saat ini, pada dasarnya adalah cara yang "mengalami kehilangan informasi" untuk memahami dunia. Untuk benar-benar "mengerti" dan berinteraksi dengan dunia fisik 3D/4D, AI memerlukan model dunia yang mampu memahami, bernalar, dan bernavigasi dalam ruang. Li Fei-Fei menggambarkan model ini dengan alegori gua Plato: model bahasa dan video saat ini hanyalah bayangan 2D di dinding, sementara kecerdasan spasial bertujuan untuk menciptakan dan bernalar tentang dunia 3D nyata di belakang bayangan tersebut. Produk pertama World Labs, Marble, adalah model yang menerima teks, gambar, atau video dan menghasilkan dunia 3D yang dapat dinavigasi dan berinteraksi, berbeda dari model pembuat video seperti Sora. Meskipun skalanya jauh lebih kecil dari model bahasa besar seperti GPT-5, Marble telah menunjukkan aplikasi praktis dalam pengembangan game, produksi film virtual (mempercepat proses hingga 40 kali), pelatihan robotika, desain interior, dan bahkan terapi untuk kondisi seperti OCD dan fobia ketinggian. Li Fei-Fei melihat potensi besar untuk menciptakan "alam semesta tak terbatas" secara digital, membuka kemungkinan baru untuk kreativitas, sosialisasi, dan lebih banyak lagi. Ia menekankan bahwa perjalanan ini akan memakan waktu, mengingat kompleksitas data 3D dan arsitektur model, tetapi akan sangat mendasar. Di tengah diskusi tentang AI, ia menyerukan pendekatan yang bertanggung jawab, menghindari utopianisme atau narasi kiamat. Visinya adalah AI yang pada akhirnya membuat peradaban lebih baik, memperkuat martabat, otonomi, dan kesejahteraan manusia. Perjalanan AI menuju kecerdasan spasial, menurutnya, adalah upaya untuk mempercepat kembali evolusi yang membutuhkan 540 juta tahun bagi kehidupan di Bumi.

marsbit05/27 00:17

Dari Meja Makan Siang Hingga Alam Semesta Tanpa Batas, Li Fei-fei Bertaruh pada Dimensi Berikutnya AI

marsbit05/27 00:17

Memahami Physical AI Huang Renxian: Mengapa Peluang Crypto Juga Tersembunyi di 'Sudut-Sudut Tersembunyi'?

Baca Huang Renxun (Jensen Huang) tentang Physical AI: Peluang Crypto Tersembunyi di "Sudut Tersembunyi"? Dalam Forum Davos, CEO NVIDIA Jensen Huang menyatakan bahwa fokus AI beralih dari pelatihan ke inferensi dan "Physical AI" – AI yang berinteraksi dengan dunia fisik. Ini menandai akhir era hanya mengandalkan kekuatan komputasi mentah dan awal kompetisi berbasis aplikasi. Physical AI adalah tahap berikutnya dari Generative AI, di mana AI tidak hanya menghasilkan teks/gambar tetapi juga bertindak di dunia nyata. Tantangan utamanya meliputi: 1. **Kecerdasan Spasial:** AI perlu memahami lingkungan 3D, bukan hanya mengenali objek. 2. **Latar Pelatihan Virtual:** Mensimulasikan dunia fisik (seperti Omniverse) untuk melatih robot tanpa biaya kerusakan hardware yang besar. 3. **Kulit Elektronik:** Sensor untuk mengumpulkan data "sentuhan" (suhu, tekanan), yang merupakan aset data baru. Peluang untuk Crypto (Web3) hadir dalam menutupi celah yang tidak dapat dijangkau oleh raksasa AI sentralistik (Web2): 1. **DePIN:** Jaringan perangkat terdesentralisasi dapat mengumpulkan data dari sudut-sudut terpencil yang tidak terjangkau mobil pemetaan, dengan insentif token. 2. **Jaringan Komputasi Terdistribusi:** Memanfaatkan hardware yang menganggur untuk menyediakan daya komputasi tepi (edge computing) dan rendering yang dibutuhkan untuk simulasi dan inferensi real-time Physical AI. 3. **Data dan Kepemilikan:** Model tokenomics dapat memungkinkan berbagi data pribadi (seperti data sensorik/sentuhan) dengan memberi insentif dan memberikan hak kepemilikan serta pembagian keuntungan kepada kontributor. Kesimpulannya, Physical AI bukan hanya babak baru untuk AI Web2, tetapi juga peluang besar bagi ekosistem Crypto (Web3) seperti DePIN, komputasi terdesentralisasi, dan ekonomi data terdesentralisasi untuk berkontribusi.

marsbit01/23 00:38

Memahami Physical AI Huang Renxian: Mengapa Peluang Crypto Juga Tersembunyi di 'Sudut-Sudut Tersembunyi'?