Oleh | New Mou, Penulis | Lu Yao
Belakangan ini ada sebuah istilah yang sangat populer di kalangan industri, namanya "AI Fisika".
Istilah ini sebenarnya sudah disebutkan lebih dari sepuluh kali oleh Jensen Huang dalam pidatonya di pameran CES Las Vegas awal tahun lalu, namun baru tahun ini "Physical AI" benar-benar mengalami ledakan.
Lalu, apa sebenarnya "AI Fisika" itu?
Beberapa hari yang lalu saya melihat video robot menyiram bunga. Robot itu berjalan ke keran air, memutarnya, mengisi kendi dengan air, lalu berbalik ke pot bunga, menyesuaikan sudutnya, dan menyiram air secara merata. Mulut kendi tidak menabrak tepi pot, dan airnya tidak tumpah.
Untuk membuat sebuah mesin memahami "mengangkut segelas air", ia harus tahu bahwa gelas itu berbentuk silinder, harus menghitung seberapa kuat mencengkeram agar tidak terlepas atau pecah, harus memahami bahwa air adalah cairan dan jika diguncang akan tumpah, serta harus menyesuaikan sudut lengannya secara real-time saat berjalan untuk mengimbangi gerakan tubuh.
Hal-hal ini, anak manusia berusia tiga tahun bisa melakukannya dengan naluri. Namun bagi AI, ini adalah sebuah lompatan besar. Sepuluh tahun terakhir, AI belajar melihat, mendengar, berbicara, dan menggambar, tetapi tetap terkurung di dalam layar. Yang ingin dilakukan AI Fisika adalah memasukkan otak pintar ini ke dalam tubuh yang bisa berlari, melompat, menggenggam, dan melepaskan di dunia nyata.
Intinya, AI Fisika adalah tentang membuat AI memahami dan berinteraksi dengan dunia fisik. Ia tidak lagi hanya memproses teks dan gambar, tetapi harus melakukan tindakan yang tepat di lingkungan di mana gravitasi, gesekan, dan inersia berlaku.
Sebuah fakta yang jarang dibahas di dalam negeri adalah bahwa penyebutan "Physical AI" ini tidak berasal dari departemen PR raksasa chip manapun. Konsep ini pertama kali muncul dalam sebuah makalah tahun 2020 yang diterbitkan di *Nature Machine Intelligence*. Makalah tersebut untuk pertama kalinya secara sistematis mendefinisikan Physical AI:
Sebuah sistem entitas yang mampu menjalankan tugas-tugas yang biasanya dikaitkan dengan organisme cerdas, intinya adalah mengintegrasikan secara mendalam hukum-hukum fisika ke dalam sistem kecerdasan buatan, sehingga mesin tidak lagi "buta fisika", dan mampu menyelesaikan loop tertutup dari persepsi hingga tindakan.
Dari suara tembakan pertama di kalangan akademis tahun 2020, hingga diambil alih sepenuhnya oleh industri tahun 2026, ada jarak enam tahun penuh. Dalam enam tahun ini, biaya sensor menurun beberapa tingkat, kekuatan komputasi AI edge computing berkembang dari teori menuju rekayasa, dan keandalan serta kemampuan produksi massal tubuh robot juga diam-diam mencapai titik kritis — inilah pendorong tersembunyi yang membawa AI Fisika dari makalah menuju lini produksi.
Dari Demonstrasi ke Bekerja
Jika model bahasa besar tahun 2023 membuat AI belajar mengobrol, maka kata kunci AI Fisika tahun 2026 hanya satu: bekerja.
Perubahannya terlihat jelas.
Pada waktu yang sama tahun lalu, cara perusahaan robot untuk pamer masih dengan membuat video Demo, mengatur skenario, berlatih berulang kali, satu pengambilan gambar langsung. Bagus dilihat, tapi Anda tidak tahu berapa kali pengambilannya.
Tahun ini, permainannya sama sekali berbeda. Tahun ini, Zhiyuan Robot melakukan satu hal di sebuah lini produksi 3C di Nanchang: melempar robot ke pabrik nyata, membuatnya bekerja terus menerus selama beberapa jam, disiarkan langsung. Tidak ada naskah yang ditetapkan sebelumnya, tidak ada pembatasan skenario, hanya lini produksi yang dihadapi pekerja sehari-hari. Ratusan ribu orang menonton secara online.
Satu bulan kemudian, Zhiyuan mengumumkan di Hong Kong bahwa robot humanoid telah mencapai produksi massal sepuluh ribu unit. Dari satu purwarupa di laboratorium, menjadi sepuluh ribu unit di lini produksi pabrik, setelah melewati rintangan ini, sifatnya berubah.
Jalur Zhiyuan cukup menarik. Sebagian besar perusahaan rintisan robot berfokus pada suatu aspek tertentu, yang membuat tubuh hanya fokus pada tubuh, yang membuat model besar hanya fokus pada model besar, yang membuat tangan lincah hanya fokus pada tangan. Zhiyuan memilih jalur lain: melakukan semuanya secara tumpukan penuh, sekaligus merencanakan empat arah: pembuatan tubuh, model AI, manipulasi lincah, dan pengumpulan data, serta menginvestasikan di lebih dari 60 perusahaan hulu dan hilir rantai pasokan.
Biaya melakukan ini jelas terlihat. Perusahaan induk memiliki lebih dari seribu karyawan, diperkirakan akan bertambah lagi hingga akhir tahun ini, hanya gaji saja sudah sepuluh hingga dua puluh miliar setahun. Jalur ini menghabiskan banyak uang, tetapi begitu berhasil, hambatannya juga yang terdalam.
Pendiri Zhiyuan, Deng Taihua, pernah mengajukan kerangka analisis yang disebut "Kurva XYZ". Dia mengatakan pengembangan kecerdasan embodied terbagi menjadi tiga tahap: X adalah periode eksplorasi pengembangan, di mana semua orang masih bermain Demo; Y adalah periode pertumbuhan penerapan, di mana robot mulai benar-benar masuk ke lini produksi untuk bekerja; Z adalah periode akhir munculnya kecerdasan.
Dia memberi sifat tahun 2026 sebagai: "Tahun pertama keadaan penerapan, secara resmi bergerak dari 'bisa bergerak' menuju 'bisa bekerja'." "Bisa bergerak" dan "bisa bekerja", beda satu kata, tetapi bedanya adalah upacara kedewasaan seluruh industri.
Luar negeri juga sedang berlari cepat, ritme di seberang Samudra Pasifik tidak kalah cepatnya.
Perusahaan robot humanoid Amerika, Figure AI, adalah nama yang tidak bisa dihindari di lintasan balap ini. Pada September tahun lalu, mereka menyelesaikan putaran pendanaan lebih dari 10 miliar dolar AS, valuasinya mencapai 390 miliar dolar AS, saat itu menjadi perusahaan robot humanoid dengan valuasi tertinggi di dunia.
Satu bulan kemudian merilis produk generasi baru Figure 03, tinggi 1,68 meter, berat sekitar 60 kilogram, mendemonstrasikan pekerjaan rumah tangga seperti menyiram bunga, mengantar makanan, melipat pakaian. Pendiri Brett Adcock sengaja menambahkan di media sosial: Semua gerakan dilakukan secara mandiri oleh robot, tidak ada yang mengendalikan dari belakang.
Secara teknologi yang patut diperhatikan adalah, Figure melakukan penyesuaian jalur besar-besaran, mengakhiri kerja sama dengan OpenAI, dan sepenuhnya beralih ke sistem jaringan saraf buatan sendiri Helix.
Sistem ini meniru kognisi manusia dengan struktur tiga lapis, lapisan terbawah mengelola keseimbangan dan reaksi naluriah, lapisan tengah menerjemahkan instruksi otak menjadi kontrol motor 200 kali per detik, lapisan tertinggi adalah otak logis, bertanggung jawab memahami skenario dan membuat keputusan. Arsitektur tiga lapisan "naluri-refleksi-berpikir" ini, idenya cukup cerdik, setara dengan memasang sistem saraf yang tidak akan crash untuk robot.
Ada satu hal lagi yang patut disebutkan. Tahun ini, Nvidia mengumumkan sebuah tindakan pada konferensi GTC: menjalin kerja sama mendalam dengan empat raksasa robot industri global, ABB, KUKA, Yaskawa, dan FANUC. Lebih dari 2 juta robot industri yang sudah terpasang di lini produksi di seluruh dunia, nantinya dapat menggunakan platform simulasi Nvidia untuk debug virtual dan pelatihan AI.
Keempat perusahaan ini jika digabungkan menguasai lebih dari setengah pangsa pasar robot industri global. Sepuluh tahun ke depan, robot-robot ini akan menghadapi putaran peningkatan dari "pemrograman tradisional" menjadi "didorong AI". Platform perangkat lunak mana pun yang dapat tertanam dalam proses ini di masa depan, sama dengan mendapatkan lapisan "sistem operasi" dari otomatisasi industri generasi berikutnya. Nvidia jelas tidak ingin ketinggalan tiket kapal ini.
Pelanggaran Lintas Batas Rantai Pasokan
Ada fenomena menarik lainnya: perusahaan rantai pasokan otomotif sedang berbondong-bondong memasuki lomba AI Fisika.
Pada pameran otomotif Beijing tahun ini, pemasok otomotif lama seperti Aptiv, Valeo, Horizon Robotics, dan Qianxun SI menunjukkan solusi terkait robot secara berkelompok. Banyak orang di industri menyadari saat itu, persepsi embodied intelligence dan persepsi kendaraan otonom mobil adalah sama, solusi mobil dapat langsung digunakan pada robot humanoid.
Setelah dipikir-pikir, memang begitu. Sistem mengemudi otomatis mobil pada dasarnya adalah loop tertutup persepsi-keputusan-eksekusi dari "robot bergerak", di mana tiga modul utama persepsi visual, perencanaan jalur, dan kontrol real-time, sangat homolog dalam arsitektur teknologi dengan robot industri tradisional dan robot humanoid.
Kamera, radar, sasis kawat-kendali, dan sistem operasi real-time yang dimiliki pemasok otomotif, dengan sedikit penyesuaian dapat bermigrasi ke bidang robot. Dalam arti ini, biaya penelitian dan pengembangan ratusan miliar yang dibakar industri otomotif dalam dekade terakhir untuk kecerdasan, sedang mengalir ke lintasan AI Fisika dengan cara "tumpahan teknologi".
Ini mungkin menjelaskan mengapa perusahaan robot China bisa begitu cepat memasuki tahap produksi massal. Kemampuan manufaktur dan manajemen rantai pasokan tidak tumbuh begitu saja, banyak yang sudah tersedia. Pemasok komponen yang sudah beradaptasi selama lebih dari sepuluh tahun di lini produksi otomotif, sekarang berganti medan tempur baru.
Di luar negeri ada contoh yang sudah ada, ambil Tesla misalnya, robot humanoid generasi pertamanya Optimus juga sedang mempercepat masuk. Sebelumnya, Tesla dengan jelas mengumumkan pada konferensi telepon laporan keuangan kuartal pertama 2026 bahwa perusahaan akan bertransformasi ke "masa depan yang berpusat pada AI, taksi otonom, dan robot humanoid", lini produksi robot generasi pertama akan memiliki kapasitas produksi 1 juta unit, dan akan menggantikan lini produksi Model S dan Model X yang ada.
Angka 1 juta unit mungkin terlihat berlebihan dalam konteks hari ini, tetapi logika Tesla jelas: mereka ingin menyalin kemampuan produksi massal dan pengalaman manajemen rantai pasokan yang terakumulasi di bidang manufaktur mobil, langsung ke bidang robot humanoid.
Yang diinginkan Musk bukanlah "robot yang bisa bergerak", melainkan "alat produksi massal" yang dapat bekerja sama dengan manusia di pabrik. Begitu jalan ini berhasil, dampaknya terhadap lanskap otomatisasi manufaktur tidak akan kalah dengan dampak Model 3 terhadap pasar mobil berbahan bakar fosil.
Model Dunia: Mengapa Tiba-tiba Bisa Digunakan Tahun Ini
Setelah membahas tindakan perusahaan besar di tingkat industri, mari zoom in satu lapisan lebih dalam, apa fondasi teknis dari kompetisi AI Fisika ini?
Jika disimpulkan dalam satu kalimat, itu adalah: terobosan rekayasa Model Dunia. Saya rasa ini juga titik kunci untuk memahami gelombang ini.
Konsep "Model Dunia" ini bukan hal baru, sudah ada yang mengusulkannya tahun 2018, idenya sederhana: membuat AI mempelajari pemahaman internal tentang hukum operasi dunia fisik, sehingga dapat memprediksi "apa yang akan terjadi jika saya mendorong gelas ini". Namun dulu hal ini hampir hanya hidup di makalah — terlalu banyak memakan daya komputasi, kualitas generasi tidak stabil, tidak bisa digunakan untuk interaksi real-time.
Titik balik terjadi dalam satu tahun terakhir. Nvidia meluncurkan serangkaian model bernama Cosmos, kemampuan intinya adalah menghasilkan data gerakan yang sesuai dengan hukum fisika dari teks atau gambar.
Contohnya: Anda ingin melatih robot untuk belajar memindahkan kotak dalam berbagai cuaca, tidak perlu benar-benar merekam video di pabrik saat hujan, salju, atau tengah malam. Dengan mengatur parameter di lingkungan simulasi, Cosmos dapat langsung menghasilkan data pelatihan dalam jumlah besar dan sangat realistis, mencakup berbagai skenario ekstrem.
Awal tahun ini, tim Lingbo Ant Group membuka sumber kerangka kerja bernama LingBot-World, khusus untuk membuat model dunia interaktif. Ia dapat mencapai generasi video stabil kontinu hingga hampir 10 menit, dengan delay interaksi end-to-end dalam satuan detik. Pengguna dapat mengontrol karakter virtual dengan keyboard dan mouse secara real-time seperti bermain game, model memberikan umpan balik perubahan skenario secara instan. Artinya, model dunia berubah dari "render offline" menjadi "interaksi online", efisiensi pelatihan meningkat satu tingkat.
Perusahaan rintisan GigaView juga merilis platform GigaWorld-1, yang diposisikan sebagai "kotak pasir digital" dunia fisik. Sebulan kemudian, ABot-PhysWorld dari Alibaba melampauinya dalam tolok ukur evaluasi bernama WorldArena, peringkat komprehensifnya menjadi nomor satu. Persaingan sedang bergerak maju dengan satuan bulan.
Pentingnya proyek-proyek sumber terbuka ini bukan pada seberapa tinggi parameternya, tetapi pada kenyataan bahwa mereka mengubah permainan "yang hanya bisa dimainkan oleh raksasa" menjadi alat "yang bisa digunakan oleh tim kecil". Ketika cukup banyak orang yang membuat roda, maka akan lebih banyak mobil yang benar-benar berjalan.
Alasan mengapa model dunia menjadi komponen inti di era AI Fisika adalah karena ia menjawab pertanyaan yang masih menggantung selama ini: bagaimana membuat robot mempelajari hukum kompleks dunia fisik dengan biaya rendah dan efisiensi tinggi?
Biaya memperoleh data pelatihan dunia nyata sangat tinggi, dan secara alami memiliki bias distribusi, sulit untuk mengumpulkan semua skenario tepi seperti shift malam pabrik saat badai salju, darurat pemadaman listrik gudang logistik, intervensi mendadak pekerja lini produksi dalam kenyataan. Tetapi data sintetis bisa. Dengan memanipulasi parameter skenario menggunakan kata kunci di lingkungan simulasi, peneliti dapat menghasilkan video pelatihan skala besar yang mencakup kondisi ekstrem dalam hitungan jam, yang dalam jalur pengumpulan nyata tradisional membutuhkan waktu berbulan-bulan bahkan bertahun-tahun.
Efek leverage dari terobosan ini mungkin melebihi semua peningkatan algoritma tunggal.
Paradigma Berubah
Terobosan model dunia sebenarnya hanyalah bagian dari evolusi tumpukan teknologi AI Fisika. Perubahan teknologi dasar sedang mendorong pembangunan kembali arsitektur seluruh industri robot.
Robot tradisional menggunakan model tiga tahap "persepsi, perencanaan, kontrol". Pertama sensor merasakan lingkungan, insinyur menulis aturan untuk memberi tahu mesin cara merencanakan jalur, akhirnya mengeksekusi gerakan. Ini tidak masalah di lingkungan terstruktur seperti jalur perakitan pabrik, tetapi begitu skenarionya kompleks, kelemahannya terlihat, mesin hanya akan berjalan sesuai naskah yang ditetapkan sebelumnya, ketika menghadapi situasi yang belum pernah dilihat langsung macet.
AI Fisika menempuh jalur lain: "persepsi, penalaran, eksekusi". Setelah persepsi, tidak melalui aturan yang ditulis mati oleh manusia, tetapi jaringan saraf yang telah dilatih sendiri menalar apa yang harus dilakukan, lalu mengeksekusi. Perbedaan mendasarnya adalah, yang pertama adalah "insinyur berpikir untuk mesin", yang kedua adalah "mesin sendiri memahami dunia fisik".
Organisasi standar robot internasional merilis peta jalan teknis tahun ini, memprediksi dalam tiga tahun ke depan, 80% model baru akan menggunakan arsitektur baru ini, solusi tiga tahap tradisional akan perlahan-lahan keluar dari arus utama. Ini bukan perbaikan kecil, tetapi pergantian seluruh paradigma.
Seperti kata seorang pakar industri, menurut saya ringkasannya cukup tepat: AI Fisika adalah mode akhir pengembangan AI, karena tidak hanya perlu memahami perintah manusia, tetapi juga semua hukum dunia fisik.
Jensen Huang mengatakan momen ChatGPT pengembangan robot telah tiba." Menurut saya, sifat momen ChatGPT AI Fisika dan model bahasa sama sekali berbeda. Momen ChatGPT model bahasa adalah pertama kalinya orang biasa di seluruh dunia secara langsung menggunakan AI. Sedangkan momen ChatGPT AI Fisika adalah pertama kalinya AI benar-benar mulai bekerja.
Saat ini, lintasan balap ini berada dalam tahap yang sangat khusus: arahnya telah ditetapkan, konsepnya diakui, tetapi peta persaingannya belum terbentuk.
Di satu sisi, membuat demonstrasi dan membuat produksi massal adalah dua sistem kemampuan yang sama sekali berbeda. Sebuah prototipe bisa berjalan, sepuluh ribu produk dihadapkan pada ujian konsistensi manufaktur, ketahanan rantai pasokan, kemampuan generalisasi skenario, sistem operasi dan pemeliharaan di skenario nyata, ini tidak ada hubungannya dengan algoritma AI, tetapi masing-masing cukup untuk menghentikan sejumlah pemain. Di sisi lain, biaya pengumpulan data dunia nyata tinggi, siklus panjang, cakupannya sempit, ini hampir memastikan bahwa pelatihan skala besar AI Fisika akan sangat bergantung pada data sintetis.
Sementara itu, dari rantai pasokan otomotif, otomatisasi industri tradisional, hingga perakitan elektronik konsumen, industri-industri yang tampaknya tidak berhubungan dengan "AI" ini, sedang mempercepat masuk ke AI Fisika dengan cara tumpahan teknologi. Kemampuan manufaktur, pengalaman manajemen rantai pasokan, dan sumber daya skenario mereka mungkin merupakan variabel kunci yang menentukan kecepatan penerapan AI Fisika.
Penilaian intuitif adalah, lihatlah gelombang AI yang dipicu ChatGPT awal 2023, yang benar-benar menghasilkan nilai paling banyak bukanlah penyedia model, melainkan penyedia infrastruktur. Apakah gelombang AI Fisika ini akan mengulangi skenario yang sama?
Peta strategi Nvidia mengisyaratkan bahwa mereka sedang bertaruh pada arah ini, tetapi ceritanya belum selesai. Tahun 2026 adalah tahun pertama keadaan penerapan, persaingan industri baru saja dimulai. Tiga tahun kemudian melihat ke hari ini, nama-nama mana yang masih berada di meja permainan, mana yang sudah keluar, mungkin akan mengejutkan kebanyakan orang.






