Menurut statistik, total pendanaan di bidang kecerdasan berwujud (embodied AI) dalam negeri tahun ini telah menembus 37 miliar yuan.
Kementerian Perindustrian dan Teknologi Informasi bersama Komisi Pengawasan dan Manajemen Aset Negara meluncurkan "Aksi Pelatihan Lapangan Nyata untuk Robot Humanoid dan Kecerdasan Berwujud". China National Radio Network secara langsung mendefinisikan tahun ini sebagai "Tahun Kunci Komersialisasi". Dana dari pasar primer, narasi dari pasar sekunder, semuanya meneriakkan arah yang sama: implementasi, implementasi, implementasi.
Tapi pertanyaannya, bagaimana sebenarnya kecerdasan berwujud harus diimplementasikan?
Pandangan yang cukup diakui adalah bahwa kecerdasan berwujud seharusnya menaklukkan hal-hal yang tidak bisa dilakukan manusia, dan menggantikan manusia dalam pekerjaan berbahaya, berat, repetitif, yang tidak ingin dan seharusnya tidak dilakukan oleh manusia.
Pada 22 Juni, China International Supply Chain Expo keempat dibuka di Beijing, untuk pertama kalinya mendirikan zona khusus kecerdasan buatan.
Namun, ide hanyalah ide. Untuk membuat robot benar-benar "masuk" ke skenario-skenario ini, rintangan pertama sudah cukup membuat sebagian besar perusahaan mundur: sertifikasi tahan ledak.
Di lingkungan mudah terbakar dan meledak seperti pom bensin, stasiun minyak dan gas, pabrik kimia, robot itu sendiri sama sekali tidak boleh menjadi sumber pengapian potensial. Ini menuntut persyaratan yang sangat ketat untuk perangkat keras produk sejak awal desain. Misalnya: dari level rangkaian harus ada desain keselamatan intrinsik, membatasi energi sirkuit, memastikan bahwa bahkan jika terjadi kegagalan, tidak cukup untuk menyalakan gas lingkungan; struktur mekanis harus memenuhi persyaratan tahan ledak (explosion-proof), menahan ledakan internal tanpa merusak casing; semua titik sambungan harus diberi perlakuan enhanced safety (Ex 'e'), mencegah risiko percikan api selama operasi normal; komponen kunci juga harus melalui cara penyegelan (encapsulation) untuk mengisolasi kontak berbahaya, dan sebagainya.

Ke Mana Kecerdasan Berwujud Bisa Pergi?
Tantangan utama robot dalam skenario ini terletak pada "kelancaran operasi presisi". Setelah pelanggan memesan, robot harus menyelesaikan lebih dari sepuluh aksi berurutan: membuka tutup luar, membuka tutup dalam, melepas selang bahan bakar dari tempatnya, mengarahkan dan memasukkan ke mulut tangki, menunggu pengisian penuh, menarik selang, menggantung kembali selang, menutup tutup dalam, menutup tutup luar. Toleransi setiap aksi hanya beberapa milimeter, setiap langkah yang macet berarti seluruh rantai terputus. Selain itu, posisi tangki bahan bakar, struktur tutup, dan cara membuka setiap model mobil sangat bervariasi, robot tidak mungkin bisa menjalankan semua situasi dengan program tetap.
Titik sakit inspeksi di stasiun lapangan sangat berbeda dengan pom bensin. Pom bensin menguji operasi presisi, sedangkan inspeksi stasiun lapangan menguji kemampuan komprehensif "berpatroli mandiri dalam waktu lama + mengenali berbagai anomali + merespons langsung di lokasi". Petugas inspeksi berjalan di rute tetap setiap hari, pekerjaan ini membosankan, berbahaya, dan menuntut tingkat perhatian yang sangat tinggi; tingkat kelalaian manusia akan meningkat signifikan setelah berpatroli terus-menerus selama beberapa jam.
Skenario Pelabuhan: Eksplorasi Kolaborasi Multi-Robot
Yang paling unik dari skenario ini adalah, ia secara alami membutuhkan kolaborasi banyak robot.
Saat ini, arsitektur kebanyakan sistem kecerdasan berwujud adalah "jalur perakitan (pipelined)": modul visual bertanggung jawab untuk melihat, modul bahasa bertanggung jawab untuk memahami, dan modul aksi bertanggung jawab untuk eksekusi.
Arsitektur seperti ini masih bisa menangani tugas sederhana dengan urutan pendek dan gangguan rendah. Namun, begitu menghadapi skenario dengan urutan operasi berkelanjutan puluhan langkah, lingkungan yang sangat dinamis, dan tingkat toleransi kesalahan yang sangat rendah, penyimpangan kecil di setiap langkah akan menyebar seperti kartu domino. Arsitektur jalur perakitan tradisional hampir tidak mungkin menjamin stabilitas end-to-end di hadapan tugas dengan skala seperti ini.
Kemampuan Prediksi yang Didorong Model Dunia (World Model)
Dalam skenario pom bensin, rantai tugas yang dihadapi kecerdasan berwujud sangat panjang: memandu parkir, mengenali posisi tangki bahan bakar, membuka tutup luar, membuka tutup dalam, mengambil selang, membidik mulut tangki, memasukkan, mengisi, menarik keluar, menyimpan selang, menutup tutup dalam, menutup tutup luar. Setiap penyimpangan kecil di setiap langkah akan menyebar ke belakang.
Kemampuan ini sangat krusial dalam tugas-tugas dengan urutan panjang. Mengisi bahan bakar bukanlah operasi sederhana "ambil - letak", melainkan satu set rantai aksi dengan hubungan sebab-akibat sekuensial. Model dunia memberikan kemampuan prediktif "melihat tiga langkah ke depan, melangkah satu" kepada kecerdasan berwujud.
Sebagai analogi: seorang pengemudi berpengalaman saat mengisi bahan bakar, tidak peduli seberapa lancar tutup tangki terbuka, selalu jelas di pikirannya keadaan akhir seperti apa yang ingin dicapai, dan setiap langkah di antaranya disesuaikan untuk mencapai keadaan akhir itu. Ini mengubah kecerdasan berwujud dari "eksekusi linier" menjadi "penyelarasan dengan keadaan akhir (goal-state alignment)".
Pertama, menghasilkan observasi target. Sistem menerima instruksi tugas dan gambar kamera saat ini, lalu memprediksi "bagaimana seharusnya dunia terlihat setelah tugas selesai". Misalnya, setelah tugas mengisi bahan bakar selesai, selang harus kembali ke tempatnya, tutup tangki harus tertutup. Gambar "keadaan akhir" yang diprediksi ini menjadi observasi target, memberikan jangkar semantik yang jelas untuk semua proses penalaran selanjutnya.
Kedua, menyintesis frame transisi menengah. Setelah memiliki target, sistem kemudian merekonstruksi keadaan visual apa yang seharusnya dilalui di tengah. Jika titik awal adalah "tutup tangki tertutup", titik akhir adalah "selang kembali, tutup tangki tertutup", maka di tengah perlu muncul berturut-turut gambar transisi seperti "tutup tangki terbuka", "selang diambil", "selang dimasukkan ke mulut tangki". Frame observasi menengah yang disintesis ini memberikan referensi visual yang selaras bertahap untuk pembuatan aksi.
Mekanisme ini memungkinkan robot memiliki imajinasi visual lengkap tentang seluruh proses tugas sebelum bertindak. Perencanaan aksi selanjutnya dikembangkan mengikuti "trajektori imajinasi" ini, sehingga secara signifikan mengurangi akumulasi penyimpangan dalam eksekusi urutan panjang.

(a) Metode yang ada biasanya mengadopsi paradigma prediksi yang tidak bergantung pada target dan bersifat keseluruhan (monolithic). (b) H-GAR memperkenalkan Goal-conditioned Observation Synthesizer (GOS) dan Interaction-Aware Action Refiner (IAAR), sehingga mencapai prediksi yang berjangkar pada target, dan secara eksplisit memodelkan interaksi antara observasi dan aksi.
Secara spesifik, alur kerja H-GAR dibagi menjadi tiga langkah:

Diagram Arsitektur H-GAR
Langkah pertama: Rancangan Aksi Granularitas Kasar. Berdasarkan gambar historis dan instruksi tugas, sistem pertama-tama menghasilkan satu set urutan aksi kasar. Aksi-aksi ini menggambarkan sebuah "jalur kasar" dari keadaan saat ini ke target, mirip dengan rencana kasar di pikiran manusia saat mengisi bahan bakar, mengetahui langkah-langkah kasar apa yang harus dilakukan, sebagai persiapan sebelum eksekusi.
Langkah kedua: Sintesis Observasi Bersyarat Target (Modul GOS). Setelah mendapatkan aksi kasar, sistem mensintesis frame visual menengah dengan panduan observasi target. Kunci dari langkah ini adalah: gambar yang disintesis tidak dihasilkan secara sembarangan, tetapi dibatasi secara bersamaan oleh keadaan akhir target dan aksi kasar. Ini memastikan bahwa frame transisi menengah sesuai dengan logika aksi dan selaras dengan target akhir.
Langkah ketiga: Pemurnian Aksi yang Sadar Interaksi (Modul IAAR). Langkah terakhir ini meningkatkan aksi kasar menjadi instruksi yang dapat dieksekusi secara detail. IAAR mendapatkan umpan balik dari dua arah untuk memurnikan aksi: pertama, konteks visual yang diberikan oleh frame observasi menengah, yang menyelaraskan aksi dengan skenario aktual; kedua, basis memori aksi historis, yang mencatat aksi detail yang pernah dieksekusi sebelumnya, memastikan aksi yang dihasilkan saat ini menjaga konsistensi temporal dengan trajektori historis. Ketika basis memori melebihi ambang kapasitas, sistem mengadopsi strategi eliminasi berdasarkan kesamaan, menggabungkan aksi-aksi yang paling mirip untuk menjaga keragaman memori.
Alamat makalah: https://arxiv.org/pdf/2511.17079
Di skenario nyata, kejadian tak terduga hampir merupakan hal yang biasa. Sudut bukaan tutup tangki mungkin tidak tepat, posisi parkir pelanggan mungkin bergeser dari perkiraan, bahkan mungkin ada benda asing di sekitar mulut tangki yang menghalangi. Aksi yang 99 kali berhasil dari 100 kali di laboratorium, saat diterapkan di lingkungan nyata luar ruangan, tingkat keberhasilannya mungkin hanya 70%.
Penutup: Pengetahuan dan Tindakan Menyatu (知行合一)
Membawa kecerdasan berwujud ke skenario khusus adalah sesuatu yang membutuhkan semangat jangka panjang.
Untuk memasuki industri khusus, desain struktur mekanis harus mempertimbangkan keamanan dari dasar, dan harus memiliki kemampuan untuk mengembangkan badan (本体) kecerdasan berwujud. Dan untuk menjalankan tugas dalam skenario khusus, otak berwujud (具身大脑) menjadi sangat penting. Keterkaitan yang dalam antara otak dan badan telah melampaui nilai tambah; itu adalah persyaratan masuk.
Ketika industri kecerdasan berwujud secara kolektif berdiri di persimpangan komersialisasi dan implementasi, para pemain yang paling awal berhasil menciptakan siklus tertutup "otak - badan - data", kemungkinan besar akan memegang keunggulan dalam persaingan selanjutnya.
Artikel ini berasal dari akun WeChat resmi:机器之心 (Jiqizhixin / Machine Heart), Editor: Leng Mao, Penulis: Perhatian pada Kecerdasan Berwujud, Judul Asli: 《国内首张防爆资质、全球首个加油大脑方案,他们凭什么拿下两个「第一」》
![Menilai Penurunan Harga 12% Sonic [S] dan Mengapa Penjualan Lebih Lanjut Kemungkinan Akan Menyusul](https://d1x7dwosqaosdj.cloudfront.net/images/2026-06/161e3d66eea4402796d2e6a66d93d453.jpg)






