Dari Kode ke Kognisi: Panduan Panjang Evolusi Otak Robot
**Dari Kode ke Kognisi: Evolusi Otak Robot**
Era robot sebelumnya bergantung pada kode yang dirancang dengan hati-hati untuk persepsi, perencanaan, dan kontrol (seperti PID), membatasi kemampuan generalisasi. Kemajuan datang dengan pembelajaran mendalam untuk persepsi visual dan pembelajaran penguatan untuk kontrol motorik, tetapi kebijakan tetap sempit.
Titik balik terjadi dengan munculnya Model Bahasa Besar (LLM). LLM bertindak sebagai perencana tingkat tinggi, menerjemahkan instruksi bahasa alami menjadi urutan keterampilan atomik untuk dieksekusi oleh sistem robot tradisional (seperti ROS2). Ini adalah lompatan besar, tetapi LLM hanya penjadwal cerdas, bukan penggerak langsung.
Lompatan berikutnya adalah Model Visi-Bahasa-Aksi (VLA). Model ini menggabungkan persepsi visual dan instruksi bahasa langsung ke dalam satu jaringan neural untuk menghasilkan perintah gerakan, menyatukan penalaran dan tindakan. Ini memungkinkan generalisasi yang lebih baik. Arsitektur populer (seperti di Figure AI, NVIDIA GR00T) menggunakan sistem "otak ganda": Model S2 yang besar dan lambat (7-9Hz) untuk penalaran tingkat tinggi, dan model S1 yang kecil dan cepat (200Hz) untuk menghasilkan gerakan halus. Lapisan S0 (1kHz) menangani keseimbangan dan koordinasi refleksif.
Komputasi untuk kontrol keselamatan yang kritis dijalankan secara lokal di papan (mis., pada NVIDIA Jetson) karena masalah latensi dan keandalan jaringan. Cloud digunakan untuk antarmuka percakapan dan pembelajaran kumpulan data.
Model sumber terbuka (seperti OpenVLA, NVIDIA GR00T, π0) sangat penting, memungkinkan startup mengadaptasi model dasar dengan data robot mereka sendiri, mempercepat inovasi.
Namun, VLA masih memiliki keterbatasan: pemulihan kesalahan, efisiensi sampel, generalisasi lintas platform, perencanaan jangka panjang, dan pemahaman fisika yang mendalam. Di sinilah **Model Dunia** menjadi kunci.
Model Dunia adalah jaringan neural yang memprediksi keadaan dunia masa depan berdasarkan keadaan saat ini dan tindakan yang diusulkan (misalnya, menghasilkan video yang disimulasikan). Ini memungkinkan robot untuk "berpikir sebelum bertindak", mensimulasikan berbagai skenario, mengevaluasi hasil, dan memilih tindakan terbaik sebelum eksekusi. Pendekatan ini meningkatkan pemulihan, generalisasi, perencanaan, keamanan, dan memungkinkan pembangkitan data sintetis skala besar. Arsitektur utama termasuk difusi video tingkat piksel (Cosmos/Sora), JEPA (LeCun), dan model dunia tindakan laten (Genie).
Masa depan robot humanoid mungkin menggabungkan VLA dengan Model Dunia untuk perencanaan berbasis simulasi. Data (terutama melalui operasi jarak jauh) tetap menjadi penghalang utama. Sementara narasi "momen ChatGPT" untuk robot agak menyesatkan (saat ini lebih mirip era GPT-2), kemajuan menuju robot yang mampu beradaptasi secara umum sangat cepat. Evolusi dari kode buatan ke model dunia yang dipelajari secara perlahan memindahkan kecerdasan dari pikiran insinyur ke dalam sistem yang mampu memahami dan membayangkan dunia.
marsbit1j yang lalu