5 Juta Tahun, inilah usia bahasa manusia dalam sejarah evolusi. 540 Juta Tahun, ini adalah titik awal ledakan kehidupan Kambrium yang dipicu oleh persepsi visual dan spasial.
Pada tahun 2025 dan 2026, ketika hampir semua laboratorium papan atas di Silicon Valley sibuk dengan model bahasa, Profesor Stanford dan pendiri World Labs, Li Fei-fei, berulang kali melontarkan pertanyaan yang memaksa industri untuk melihat ke atas: Jika AI hanya bisa berbicara dan melihat gambar, ia tidak akan pernah benar-benar "memahami" dunia ini.
Dalam tiga wawancara kunci, termasuk Podcast a16z pada Juni 2025, KTT AI Cisco (Cisco AI Summit) pada Februari 2026, serta dialog mendalam Podcast Lenny yang dirilis pada 22 Mei 2026 dengan durasi 1 jam 19 menit, dia secara sistematis menguraikan sebuah penilaian yang sedang dipercepat pembuktiannya: Kecerdasan Spasial (Spatial Intelligence), adalah garis depan berikutnya AI.
Di antaranya, ungkapan "menciptakan alam semesta tak terbatas" dan "hidup di multiverse" dalam dialog a16z, serta pandangan seperti "model dunia adalah garis depan berikutnya" dan "AGI lebih mirip istilah pemasaran" dalam Podcast Lenny, baru-baru ini kembali banyak dibagikan ulang di platform X.
"Kita Kekurangan Model Dunia"
Menurut kenangan mitra a16z, Martin Casado, dalam sebuah acara makan siang di Silicon Valley, seisi meja para praktisi AI dengan antusias membicarakan model bahasa besar (LLM). Li Fei-fei duduk di ujung meja yang lain, tiba-tiba menoleh kepadanya dan bertanya:
"Kamu tahu apa yang kita kurang? Kita kekurangan model dunia."
Casado adalah investor awal World Labs dan juga teman lama Li Fei-fei sejak masa Stanford. Dia mengenang momen itu dengan berkata, "Semuanya cocok". Saat itu dia baru saja secara independen menyimpulkan hal serupa dari banyak investasi di bidang citra: Bahasa bukanlah titik akhir cerita.
Tapi pemikiran Li Fei-fei tentang masalah ini jauh lebih lama daripada kebanyakan orang.
Pada April 2024, dia menyampaikan pidato 15 menit di konferensi TED, menggunakan teori evolusi sebagai pembuka: Kemunculan trilobita 540 juta tahun yang lalu, pertama kalinya membuat kehidupan "melihat" dunia. Kelahiran penglihatan memicu perlombaan evolusi kecerdasan, sistem saraf mulai berkembang, hewan menjadi aktif, dan kecerdasan mulai bertunas. Sedangkan bahasa, hanyalah produk yang sangat baru dalam perlombaan panjang ini.
Penilaian ini diperkuat berulang kali dalam tiga wawancara. Di KTT AI Cisco, ungkapannya lebih langsung:
"Sejarah bahasa mungkin hanya sekitar 500.000 tahun. Tapi 1,5 miliar tahun yang lalu, hewan sudah mulai merasakan cahaya dan menyentuh lingkungan. Kemampuan untuk memahami, bernalar, berinteraksi, dan bernavigasi dalam dunia fisik 3D dan 4D yang nyata adalah fundamental, sama pentingnya dengan kecerdasan bahasa."
Li Fei-fei tidak menyangkal nilai kecerdasan bahasa. Argumen intinya adalah: Bahasa pada dasarnya adalah cara mengkodekan dunia yang "mengalami kehilangan informasi".
Dalam wawancara a16z, Casado melakukan eksperimen pikiran: Tutup mata Anda, gambarkan sebuah ruangan dengan kata-kata, lalu minta Anda menyelesaikan sebuah tugas, kemungkinan sukses Anda sangat rendah. Karena deskripsi bahasa terhadap realitas selalu kasar. Buka penutup mata, otak Anda langsung merekonstruksi ruang 3D, dan Anda dapat mengoperasi, menyentuh, bergerak.
Li Fei-fei menambahkan contoh yang lebih ekstrem, yaitu salah satu penalaran spasial paling terkenal dalam sejarah sains: Foto difraksi sinar-X DNA yang diambil Rosalind Franklin adalah gambar dua dimensi datar, strukturnya terlihat seperti salib dengan difraksi. Tapi Watson dan Crick melalui gambar dua dimensi itu, dalam ruang tiga dimensi menyimpulkan struktur heliks ganda DNA. "Struktur itu tidak mungkin dua dimensi. Anda tidak bisa menggunakan pemikiran dua dimensi untuk menyimpulkan struktur itu."
"Jika Anda mengamati kecerdasan manusia, banyak yang melampaui cakupan bahasa. Bahasa adalah cara menangkap dunia dengan kehilangan informasi. 'Bahasa' generatif murni tidak ada di alam; kita melihat sekeliling, tidak ada kalimat atau kata yang siap pakai, sementara seluruh dunia fisik, persepsi, dan visual benar-benar ada."
Ini adalah perspektif yang mudah diabaikan: Sebagian besar kemampuan model besar saat ini, dibangun di atas format kompresi informasi yang secara alami lossy. Dan dalam Podcast Lenny, dia menggunakan tes yang lebih sehari-hari untuk menyibak ilusi ini:
"Hari ini, Anda ambil sebuah model, minta menjalankan video yang berisi beberapa ruang kantor, lalu minta model menghitung jumlah kursi. Ini adalah hal yang bisa dilakukan anak balita, tapi kecerdasan buatan tidak bisa."
Apalagi menyimpulkan hukum fisika dari gerak benda langit: "Mari berikan semua data pada kecerdasan buatan, termasuk data instrumen modern yang tidak dimiliki Newton, dan minta ia membuat seperangkat persamaan hukum gerak benda dari abad ke-17. Kecerdasan buatan hari ini tidak bisa."
Marble: Beberapa Orde Lebih Kecil dari GPT-5
Yang mendorong penilaian ini menjadi produk adalah model generasi pertama World Labs, Marble, yang dirilis akhir 2024.
Li Fei-fei di KTT AI Cisco menguraikan secara rinci posisi teknologi Marble: Menerima input teks, gambar, video, atau 3D sederhana, menghasilkan "dunia 3D yang sepenuhnya dapat dinavigasi, dapat diinteraksi, dan memiliki konsistensi permanen". Dia secara khusus menekankan, ini berbeda secara mendasar dengan model generasi video seperti Sora, lingkungan yang dihasilkan Marble memiliki struktur geometris, bukan animasi piksel yang "terlihat seperti" video.
Dalam Podcast Lenny, dia menggunakan alegori gua Plato untuk memberikan penjelasan yang lebih dalam: Tawanan diikat di kursi, hanya bisa melihat bayangan dua dimensi yang diproyeksikan di dinding, tapi drama sebenarnya berlangsung di ruang tiga dimensi di belakangnya. Model video adalah bayangan-bayangan itu, sedangkan yang ingin dilakukan kecerdasan spasial adalah menciptakan dan menalar dunia nyata di balik bayangan itu.
Satu perbandingan: Daya komputasi pelatihan GPT-5 kira-kira sekitar orde 10 pangkat 26 FLOPS, sedangkan Marble dalam skala beberapa orde lebih kecil. Alasannya ada dua lapis: Kesulitan akuisisi data sangat berbeda (data fisik 3D berkualitas tinggi sangat langka), dan bidang ini masih berada pada tahap awal "kurva naik Scaling Law".
Dalam Podcast Lenny, dia lebih lanjut menjelaskan mengapa pembelajaran robot tidak dapat dengan mudah meniru "pelajaran pahit" model bahasa. Ada sebuah pendapat terkenal di bidang AI: Model sederhana dengan data besar pada akhirnya akan mengungguli model kompleks. Tapi "model bahasa memiliki pengaturan sempurna: data pelatihan adalah kata, output juga kata-kata." Sedangkan dalam teknologi robotik, "Anda ingin mendapatkan tindakan, tetapi data pelatihan kurang akan tindakan di dunia 3D." Ketidaksesuaian mendasar antara tujuan pelatihan dan bentuk data inilah inti kesulitan pembelajaran robotik.
World Labs mengambil strategi data campuran: teks, gambar, dan video skala internet, ditambah data simulasi, ditambah data yang dikumpulkan dari dunia nyata. Li Fei-fei mengakui, "Kami masih dalam tahap eksplorasi yang relatif awal mengenai arsitektur model," tapi dia memperkirakan "beberapa tahun ke depan akan sangat menarik".
Tepat setelah itu, World Labs pada Februari 2026 menyelesaikan pendanaan 10 miliar dolar AS, dengan partisipasi Nvidia, AMD, a16z, valuasi melonjak dari 10 miliar dolar AS setahun sebelumnya menjadi sekitar 50 miliar dolar AS. Pada bulan April, tim mengopen-sourcer mesin render 3D Gaussian Splatting Spark 2.0, yang dapat mencapai rendering real-time skenario 3D ratusan juta di sisi web, beralih dari produk tertutup ke strategi ganda "produk + ekosistem open source", ambang teknologi kecerdasan spasial sedang dengan cepat diturunkan.
Dalam Podcast Lenny, Li Fei-fei juga jarang mengungkapkan kesulitan berwirausaha: "Jika saya bisa membisikkan satu kalimat pada diri saya 18 bulan lalu: 'Intensitas persaingan di bidang ini, baik secara teknologi maupun talenta, jauh melampaui bayanganmu.'"
Alam Semesta Tak Terbatas dan Multiverse
Apa yang benar-benar membuat wawancara a16z itu berulang kali viral di X, adalah ungkapan Li Fei-fei tentang "alam semesta tak terbatas":
"Dalam seluruh sejarah peradaban manusia, kita semua hidup bersama dalam satu dunia 3D. Hanya segelintir orang yang pernah pergi ke bulan, tapi jumlahnya sangat sedikit. Dan teknologi ini membuat dunia virtual digital menjadi sangat menarik. Tiba-tiba, kita sebenarnya dapat menciptakan alam semesta tak terbatas, beberapa dibuat untuk robot, beberapa untuk kreativitas, beberapa untuk sosial, beberapa untuk perjalanan, beberapa untuk bercerita. Tiba-tiba, kita mampu hidup dalam multiverse, ruang imajinasi menjadi tak terbatas."
Casado memberikan penjelasan yang lebih konkret dari sisi teknologi: Melalui foto dua dimensi, model dapat menghasilkan representasi 3D 360 derajat lengkap termasuk bagian belakang meja. Anda dapat mengoperasikan, mengukur, menumpuk, apa pun yang dapat dilakukan dalam ruang dapat diwujudkan.
Ini bukan fiksi ilmiah. Dalam dua wawancara, Li Fei-fei mencantumkan aplikasi Marble yang sudah diimplementasikan:
• Pengembang game menggunakan versi awal untuk mengembangkan game
• Tim produksi virtual yang bekerja sama dengan Sony memperpendek siklus produksi film hingga 40 kali
• Nvidia dan berbagai laboratorium akademik menggunakan Marble untuk melatih robot
• Arsitek dan desainer menggunakannya untuk desain interior
• Peneliti klinis mengkustomisasi lingkungan pemicu imersif yang dipersonalisasi untuk pasien gangguan obsesif-kompulsif (OCD) dan fobia ketinggian
• Ada yang menggunakannya untuk menghasilkan ruang latihan yoga yang dipersonalisasi
Aplikasi terakhir ini sangat mengejutkan. Li Fei-fei menyebutkan di puncak, pasien OCD dipicu oleh adegan yang sangat spesifik, "misalnya, saya secara pribadi terganggu oleh tumpukan pakaian kotor, tetapi pemicu setiap orang berbeda-beda". Dalam Podcast Lenny dia menambahkan, setelah rilis, seorang teman meneleponnya tengah malam untuk bertanya apakah Marble dapat digunakan untuk mengobati fobia ketinggian. Biaya pembangunan lingkungan fisik sangat tinggi, sedangkan Marble hanya perlu memasukkan kata kunci, dan dalam beberapa menit dapat menghasilkan berbagai lingkungan.
Alegori gua Plato kebetulan juga merupakan pintu masuk terbaik untuk memahami perbedaan antara 2D dan 3D.
Li Fei-fei menggunakan alegori ini untuk menjelaskan: Tawanan yang diikat di kursi, hanya bisa melihat bayangan dua dimensi yang diproyeksikan di dinding. Model bahasa dan model video saat ini, pada dasarnya adalah bayangan-bayangan itu, menebak tiga dimensi dari dua dimensi. Ambisi kecerdasan spasial adalah menciptakan, menalar, dan berinteraksi dengan dunia nyata di balik bayangan itu.
Dalam jalur teknologi, dia menggunakan perbandingan ringkas untuk menggambarkan batasannya:
"Mobil dapat dipandang sebagai robot berbentuk balok yang bergerak di bidang dua dimensi, tujuannya adalah jangan menyentuh apa pun. Sedangkan robot adalah entitas tiga dimensi, beroperasi di dunia tiga dimensi, tujuan robot universal adalah harus menyentuh objek tanpa merusaknya. Ini adalah masalah dimensi yang lebih tinggi."
Dia juga memberikan skala waktu dari pengalaman pribadi: Pada tahun 2006, dia berpartisipasi menciptakan mobil self-driving pertama yang melaju 138 mil di gurun, saat itu memprediksi 20 tahun kemudian akan ada mobil self-driving. Hingga tahun 2025, Waymo baru mulai beroperasi besar-besaran di jalan-jalan kota.
"Melihat Bintang Utara tidak berarti perjalanan akan singkat."
Casado dalam dialog a16z menambahkan pengamatan yang lebih intuitif secara komersial: Hanya satu jalur, yaitu mobil self-driving, industri telah menginvestasikan sekitar 1000 miliar dolar AS, 20 tahun baru sampai hari ini. "Rute kami semula adalah menyelesaikan masalah navigasi dunia terlebih dahulu, tetapi hasilnya sangat sulit."
Li Fei-fei bahkan dalam wawancara a16z membagikan pengalaman pribadi untuk memperkuat argumen: Sekitar lima tahun yang lalu, dia kehilangan penglihatan stereoskopis selama beberapa bulan karena cedera kornea. "Meskipun saya sangat sadar betapa besar mobil saya, dan kira-kira tahu seberapa besar mobil tetangga yang diparkir, dan saya telah mengemudi di jalan ini bertahun-tahun, tapi saya tidak bisa menilai jarak antara mobil saya dan mobil yang diparkir di pinggir jalan dengan baik. Saya hanya bisa mengemudi dengan kecepatan sepuluh mil per jam agar tidak menyentuh mobil lain."
Seorang ilmuwan yang seumur hidup meneliti kecerdasan visual, menggunakan kesulitan pribadinya sendiri setelah kehilangan persepsi kedalaman, menjawab pertanyaan "mengapa 3D tidak tergantikan".
Pedang Bermata Dua Teknologi dan Pengukur Peradaban
Antara optimisme teknologi dan teori kiamat, Li Fei-fei memilih posisi yang lebih terkendali dan lebih operasional. Dia dengan jelas mengungkapkan kekhawatirannya terhadap diskusi polarisasi di KTT AI Cisco:
"Diskusi di internet seringkali hitam-putih: entah utopianisme teknologi sepenuhnya, mengabaikan fakta bahwa teknologi adalah pedang bermata dua; atau nada kiamat, seolah-olah manusia setiap saat menghadapi krisis eksistensi. Untuk sebuah teknologi yang begitu dalam bagi peradaban manusia, cara diskusi seperti ini tidak bertanggung jawab."
Dia tidak berhenti pada tingkat kritik, melainkan memberikan titik jangkar nilai yang dapat diukur: Listrik.
"Jika mundur seratus tahun lebih, bayangkan bagaimana orang saat itu mendefinisikan kesuksesan listrik. Saya harap visi saat itu adalah: sekolah terang benderang, rumah hangat, mesin diberdayakan untuk industrialisasi, yang pada gilirannya memperpanjang umur manusia, membuat lebih banyak anak mendapat pendidikan."
Kemudian menggeser jangkar ini ke AI: "Definisi sukses seharusnya adalah peradaban menjadi lebih baik, dan peradaban terdiri dari setiap individu yang mengejar kebahagiaan, kemakmuran, dan memiliki martabat. Inilah definisi sukses AI dan setiap teknologi."
Di akhir Podcast Lenny, dia menempatkan kepedulian ini pada orang yang spesifik. Dia mengatakan dirinya setiap kali ke suatu tempat selalu ditanya pertanyaan yang sama: Jika saya adalah petani, perawat, musisi, akankah AI menggantikan saya? Jawabannya: "Pada akhirnya, AI adalah tentang manusia. Teknologi apa pun tidak boleh merampas martabat manusia. Martabat dan otonomi manusia seharusnya menjadi inti dari pengembangan, penyebaran, dan tata kelola setiap teknologi."
Melihat kembali ketiga wawancara, sebuah garis yang jelas muncul.
Pemikiran Li Fei-fei tentang kecerdasan spasial bukanlah pemberontakan terhadap gelombang model besar, melainkan ekstensi di atasnya. Dia lebih awal daripada kebanyakan orang melihat batas model bahasa, format kompresi informasi yang lossy pada akhirnya memiliki keterbatasan. Dan masalah yang ingin diselesaikan oleh kecerdasan spasial adalah: Membuat AI berkembang dari "berbicara tentang dunia" menjadi "memahami dunia", dan akhirnya menjadi "bertindak di dalam dunia".
Tim World Labs sekitar 30 orang, telah mengumpulkan pendanaan lebih dari 10 miliar dolar AS. Marble adalah produk generasi pertama, skalanya jauh tidak sebanding dengan model bahasa papan atas. Kelangkaan data 3D dan keadaan awal arsitektur model, menentukan bahwa ini bukanlah jalur yang dapat dicapai dalam semalam. Tapi Li Fei-fei dalam Podcast Lenny mengatakan kalimat lain, mungkin adalah penjelasan terbaik untuk kesabaran ini:
"Otak kita hanya mengonsumsi sekitar 20 watt, lebih redup dari bola lampu mana pun di ruangan ini, namun dapat melakukan begitu banyak hal. Semakin lama saya bekerja di bidang AI, semakin saya menghargai manusia."
Evolusi selama 540 juta tahun, baru membuat kehidupan berbasis karbon memperoleh kecerdasan spasial 20 watt ini. Evolusi AI ini, sedang dikompresi untuk diselesaikan dalam beberapa tahun.
Li Fei-fei dalam tiga wawancara tidak memberikan jadwal waktu. Dia hanya berulang kali kembali pada penilaian yang diambil dari teori evolusi: Persepsi mendahului bahasa, ruang mendahului simbol. Apa yang sedang terjadi di Silicon Valley, laboratorium Stanford, dan kantor World Labs, bukanlah sebuah iterasi teknologi, melainkan akselerasi reka ulang teori evolusi. (Artikel ini pertama kali diterbitkan di Titanium Media APP, penulis | Berita Teknologi Silicon Valley, editor | Zhao Hongyu)
Lampiran: Alamat rekaman teks tiga wawancara di atas [Pangkalan Pengetahuan ima] Wawancara Li Fei-fei https://ima.qq.com/wiki/?shareId=3f1d4b4c0d6cb2aeca250e2c5d068390e2d45895816ad607309820e25cb2e9c5








