Tim NVIDIA Membuat Agent Pemrograman Mengambil Alih Eksperimen Robot Nyata, Tingkat Keberhasilan Mencapai 99%

marsbitDipublikasikan tanggal 2026-06-18Terakhir diperbarui pada 2026-06-18

Abstrak

Penelitian otomatis telah melampaui sandbox kode dan memasuki dunia fisik nyata. NVIDIA GEAR Lab, dipimpin Jim Fan, memperkenalkan proyek ENPIRE yang memungkinkan **penelitian otomatis pertama kali diimplementasikan pada perangkat keras robot**. Delapan Codex Agent ditempatkan dalam armada robot dengan alokasi daya komputasi GPU dan anggaran token, diberi tujuan sederhana: menyelesaikan tugas secepatnya, menjaga robot tetap sibuk namun aman, serta tidak menyia-nyiakan daya komputasi. Manusia kemudian mundur dari intervensi. Agent secara mandiri menggerakkan siklus tertutup penuh: mereset ulang skenario, menelusuri literatur, mengimplementasikan ide dan membangun infrastruktur, melatih dan menerapkan strategi, memvalidasi diri, menganalisis log serta memperbaiki kode, beriterasi terus hingga tugas ketangkasan presisi tinggi seperti mengikat kabel, merapikan pin dalam kotak, atau memasang GPU dapat diselesaikan andal di perangkat keras nyata dengan **tingkat keberhasilan 99%**. Sistem ENPIRE terdiri dari empat modul inti yang membentuk loop umpan balik fisik: Environment (EN), Policy Improvement (PI), Rollout (R), dan Evolution (E). Penelitian menemukan bahwa **mereset lingkungan sering kali lebih mudah daripada menyelesaikan tugas itu sendiri**. Peningkatan paralelisme robot (dari sedikit menjadi 8 unit) mempercepat penyelesaian tugas secara signifikan, menunjukkan "hukum penskalaan fisik". Tim juga memperkenalkan metrik baru: Mean Robot Utilization (MRU) dan Mean Token Uti...

Penelitian otomatis, kali ini benar-benar melangkah keluar dari sandbox kode dan memasuki dunia fisik yang nyata.

Belakangan ini, kepala lab NVIDIA GEAR, Jim Fan, memperkenalkan proyek terbaru bernama ENPIRE. Ini adalah pertama kalinya mereka mengimplementasikan penelitian otomatis pada perangkat keras robotika.

Mereka menempatkan 8 Codex Agent ke dalam armada robot, mengalokasikan daya komputasi GPU dan anggaran token yang cukup, hanya dengan memberikan satu tujuan sederhana: selesaikan tugas secepat mungkin, buat robot tetap sibuk tetapi pastikan keamanan, jangan buang daya komputasi.

Selanjutnya, campur tangan manusia hampir sepenuhnya dihentikan. Agent menggerakkan seluruh siklus tertutup secara mandiri, termasuk mereset ulang skenario secara otomatis, mencari literatur, mengimplementasikan ide dan membangun infrastruktur, melatih dan men-deploy strategi, memvalidasi diri sendiri, menganalisis log dan memperbaiki kode, beriterasi terus-menerus hingga berhasil menyelesaikan tugas ketangkasan berpresisi tinggi dengan andal di perangkat keras nyata, seperti mengikat kabel pengikat, merapikan pin di kotak pin, memasang GPU, dan lain-lain.

Mereka juga mengamati adanya "hukum penskalaan fisik". Meningkatkan jumlah robot paralel (misalnya dari sedikit menjadi 8), dapat secara signifikan mempercepat penyelesaian tugas.

Saat ini, sebagian sistem di laboratorium tersebut telah mencapai iterasi mandiri semalaman tanpa campur tangan manusia. Para peneliti hanya perlu melihat laporannya di pagi hari.

Jim Fan menyatakan, tujuan masa depan adalah agar anggota tim bisa libur dengan tenang, bahkan CEO NVIDIA, Jensen Huang, tidak akan menyadari bahwa laboratorium masih berjalan secara mandiri.

Proyek ENPIRE berencana untuk sepenuhnya open-source. Saat itu tiba, pengembang biasa pun diharapkan dapat membangun sistem penelitian robot otonom serupa di rumah.

Alamat proyek: https://research.nvidia.com/labs/gear/enpire/

Arsitektur Sistem ENPIRE: Empat Modul Membentuk Siklus Tertutup

ENPIRE adalah sebuah sistem kerangka kerja yang dirancang untuk Agent pengkodean, membangun siklus umpan balik fisik yang dapat diulang melalui empat modul inti: Modul Lingkungan (EN) bertanggung jawab untuk reset dan validasi otomatis, Modul Peningkatan Strategi (PI) memulai optimasi strategi, Modul Rollout (R) mendukung evaluasi strategi pada satu atau beberapa robot secara paralel, dan Modul Evolusi (E) memungkinkan Agent pengkodean untuk menganalisis log, meninjau literatur, memperbaiki infrastruktur pelatihan, dan kode algoritma untuk mengatasi mode kegagalan.

Sistem siklus tertutup ini mengubah pembelajaran robot di dunia nyata menjadi proses optimasi yang dapat dikelola dan dikontrol oleh Agent, sehingga meminimalkan input manual sekaligus mendukung eksperimen penghapusan yang adil di antara berbagai resep pelatihan dan varian Agent.

Dengan dukungan ENPIRE, Agent pemrograman mutakhir mampu mengembangkan strategi secara mandiri, dan mencapai tingkat keberhasilan 99% dalam tugas operasi ketangkasan dunia nyata yang menantang, seperti PushT, merapikan pin ke dalam kotak pin, menggunakan pemotong untuk memotong kabel pengikat, dan lain-lain.

Temuan Kunci: Mereset Lingkungan Lebih Mudah Daripada Menyelesaikan Tugas

Salah satu pengamatan kunci adalah: untuk banyak tugas robotika, mereset lingkungan seringkali lebih mudah daripada menyelesaikan tugas itu sendiri.

Oleh karena itu, pendekatan ENPIRE adalah: pertama, biarkan Agent membangun lingkungan reset otomatis melalui Code-as-Policy. Dalam banyak kasus, yang disebut reset sebenarnya hanyalah tugas pick-and-place, yang dapat diselesaikan oleh Cap-X.

Kemudian, agen cerdas akan menulis fungsi penghargaan berdasarkan aturan heuristik. Tim peneliti kemudian menempatkan lingkungan tersebut ke dalam sandbox, dan meluncurkan penelitian otomatis oleh Agent di sekitar skor yang dicapai.

Hal ini juga sesuai dengan definisi Karpathy tentang penelitian otomatis: penelitian otomatis yang dimaksud di sini bukan hanya sekadar menyesuaikan satu hyperparameter, atau mengubah sepotong kecil kode. Agent akan menjelajahi berbagai paradigma dari internet, dan menulis ulang semua bagian yang mungkin mendorong peningkatan kinerja, termasuk algoritma, tujuan pelatihan, bahkan data loader.

Dalam tugas merapikan pin, bahkan ada satu Agent yang menulis sendiri controller keamanan gaya kontak, yang efektivitasnya melebihi sekadar menyesuaikan beberapa parameter pembelajaran penguatan.

Metrik Baru: MRU dan MTU

Kemampuan skalabilitas ENPIRE bergantung pada ukuran tim Agent dan sumber daya komputasi, hanya saja di sini, sumber daya yang benar-benar langka bukanlah GPU, melainkan waktu robot.

Ketika tim peneliti menyediakan 8 robot untuk Agent, alih-alih 1 robot, waktu yang dibutuhkan untuk mencapai kinerja mendekati sempurna dalam tugas merapikan pin, berkurang dari lebih dari 1,5 jam menjadi sekitar 40 menit. Agent-Agent ini berkoordinasi melalui Git: berbagi kode, mengabaikan ide yang kurang ideal, dan secara mandiri memilih hasil terbaik dari satu sama lain.

Ini mengarah pada perubahan yang lebih besar: penelitian robotika sedang berubah menjadi pekerjaan desain lingkungan, yaitu membangun lingkungan tempat Agent pengkodean dapat melakukan penelitian otomatis; pekerjaan algoritma bergeser ke tingkat yang lebih tinggi, beralih ke pembangunan siklus umpan balik yang dapat ditutup sendiri oleh Agent.

Dan siklus ini akan terus terakumulasi secara komponensial: keterampilan yang dikuasai Agent hari ini, besok akan menjadi modul dasar untuk membangun dan mereset lingkungan tugas yang lebih sulit. Kemampuan akan menghasilkan kemampuan baru.

Dalam paradigma ini, batasan keras yang sebenarnya adalah anggaran interaksi dunia nyata.

Oleh karena itu, tim peneliti mengusulkan dua metrik:

  • Rata-rata Utilisasi Robot (Mean Robot Utilization, MRU): Proporsi waktu yang dihabiskan robot untuk menjalankan eksperimen aktual terhadap total waktu nyata yang terbuang.
  • Rata-rata Utilisasi Token (Mean Token Utilization, MTU): Mengukur efisiensi Agent dalam mengubah token menjadi kemajuan penelitian.

Dalam eksperimen mereka, MRU selalu di bawah 50%. Artinya, robot menghabiskan setengah waktunya dalam keadaan menganggur, menunggu Agent berpikir. Oleh karena itu, harness yang lebih baik dan model yang lebih cepat akan langsung diterjemahkan menjadi keuntungan nyata.

PushT adalah benchmark operasi robotika yang telah lama digunakan. Biasanya, untuk menyelesaikan tugas ini, dibutuhkan banyak data demonstrasi manusia, ditambah dengan beberapa jam pelatihan cloning perilaku.

Tetapi mereka melihat bahwa Codex, Claude Code, dan Kimi Code semuanya menggunakan satu set metode heuristik berbasis aturan untuk "menyelesaikan" tugas ini dalam waktu kurang dari 2 jam: tanpa menggunakan jaringan saraf, tanpa pelatihan, dan tanpa bergantung pada data manusia apa pun.

Agar lebih banyak orang dapat mencoba penelitian otomatis di dunia fisik di rumah, mereka mengembangkan sistem full-stack berdasarkan kit SO-101 @LeRobotHF + NVIDIA Jetson Thor. Sistem ini dapat menyelesaikan tugas PushT.

Referensi:

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

Artikel ini berasal dari akun WeChat resmi "Machine Heart" (ID:almosthuman2014), penulis: Yang Wen

Pertanyaan Terkait

QApa yang dimaksud dengan proyek ENPIRE dari tim NVIDIA, dan mengapa ini dianggap penting?

AENPIRE adalah proyek terbaru dari NVIDIA GEAR Lab yang memungkinkan agen kode (coding agent) sepenuhnya mengendalikan eksperimen robotika di dunia fisik nyata. Ini penting karena untuk pertama kalinya, penelitian otomatis keluar dari sandbox kode dan diimplementasikan pada perangkat keras robot nyata, mengurangi intervensi manusia secara signifikan.

QBagaimana sistem ENPIRE bekerja? Sebutkan modul inti yang membentuknya.

AENPIRE bekerja melalui empat modul inti yang membentuk loop umpan balik fisik tertutup: Modul Lingkungan (EN) untuk reset otomatis, Modul Peningkatan Kebijakan (PI) untuk optimasi kebijakan, Modul Rollout (R) untuk evaluasi paralel pada robot, dan Modul Evolusi (E) di mana agen menganalisis log, meneliti literatur, dan meningkatkan kode untuk mengatasi kegagalan.

QApa saja tugas yang berhasil diselesaikan oleh agen ENPIRE di dunia nyata, dan berapa tingkat keberhasilannya?

AAgen ENPIRE berhasil menyelesaikan tugas manipulasi canggih di dunia nyata seperti mengikat tali pengikat (tie cable), menyusun pin dalam kotak pin (peg insertion), dan memasang GPU. Tingkat keberhasilan yang dilaporkan mencapai 99% untuk tugas-tugas tersebut.

QApa itu 'hukum penskalaan fisik' (physical scaling law) yang disebutkan dalam artikel, dan apa dampaknya?

A'Hukum penskalaan fisik' mengacu pada temuan bahwa menambah jumlah robot paralel (misalnya dari satu menjadi delapan) dapat secara signifikan mempercepat waktu yang dibutuhkan untuk menyelesaikan suatu tugas. Misalnya, waktu untuk tugas penyisipan pin berkurang dari lebih dari 1,5 jam menjadi sekitar 40 menit.

QApa yang diukur oleh metrik MRU dan MTU yang diperkenalkan dalam proyek ini, dan apa implikasinya?

AMRU (Mean Robot Utilization) mengukur persentase waktu robot benar-benar menjalankan eksperimen. MTU (Mean Token Utilization) mengukur efisiensi agen dalam mengubah token (pemikiran) menjadi kemajuan penelitian. MRU yang rendah (<50%) menunjukkan robot banyak menganggur menunggu agen berpikir, jadi peningkatan kecepatan model akan berdampak langsung.

Bacaan Terkait

Dana Kembali, Ethlabs Maju: Ethereum Menghadapi Restrukturisasi Terbesar dalam Sejarah

Pada 23 Juni, ekosistem Ethereum mengalami dua perkembangan penting. Ethlabs, organisasi nirlaba independen baru yang didirikan oleh mantan peneliti Ethereum Foundation, diluncurkan dengan dukungan dana utama dari pemegang ETH besar seperti Bitmine dan SharpLink. Fokus awal Ethlabs adalah memenuhi kebutuhan adopsi institusional, seperti kecepatan penyelesaian lebih cepat, penerbitan aset asli, dan perluasan kapasitas jaringan utama. Secara bersamaan, Ethereum Foundation mengumumkan restrukturisasi besar-besaran, mengurangi 54 karyawan (sekitar 20% dari total) dan memposisikan ulang dirinya sebagai penjaga dan pengatur protokol yang lebih ringan, bukan sebagai pengembang inti utama. Perubahan ini menandakan pergeseran tata kelola: yayasan mengambil langkah mundur, sementara organisasi seperti Ethlabs mengambil peran eksekusi yang lebih besar untuk menjawab kritik mengenai kecepatan dan adopsi pasar. Ethlabs, didukung banyak tokoh berpengaruh ekosistem (kecuali Vitalik Buterin), bertujuan menjadi lapisan eksekusi yang lebih terindustrialisasi, mengatasi kecemasan Ethereum tentang adopsi institusional dan skalabilitas. Sementara Ethereum Foundation berfokus menjaga "kebenaran" dan netralitas protokol, Ethlabs diharapkan membuktikan "keefektifan" Ethereum dalam menarik modal dan aplikasi dunia nyata. Langkah ini dipandang sebagai koreksi tata kelola penting untuk membuat Ethereum lebih tanggap terhadap pasar, meski berpotensi menimbulkan ketegangan baru antara kepentingan institusional dan semangat asli crypto.

链捕手5j yang lalu

Dana Kembali, Ethlabs Maju: Ethereum Menghadapi Restrukturisasi Terbesar dalam Sejarah

链捕手5j yang lalu

Paruh Kedua Kebijakan Kripto AS: UU CLARITY Perjuangkan 60 Suara, Komite "Satu Orang" CFTC Jadi Variabel Terbesar

Penulis: Cleve Mesidor, Direktur Eksekutif National Blockchain Foundation di Washington DC Industri kripto di AS tengah menantikan momen pentingnya dengan kemajuan RUU CLARITY di Senat, yang membutuhkan 60 suara untuk disahkan. Untuk mencapainya, Partai Republik mungkin perlu berkompromi dengan Gedung Putih dan menarik beberapa senator yang masih ragu-ragu. Waktu yang tersisa sangat terbatas, hanya sekitar 40 hari kerja legislatif. Selain prospek RUU CLARITY, beberapa proposal perpajakan kripto yang dipisahkan dari RUU PARITY baru berpeluang disahkan tahun ini dengan menumpang pada undang-undang yang lebih besar. Undang-Undang Kepastian Regulasi Blockchain juga berusaha memasukkan perlindungan bagi pengembang ke dalam hukum. Situasi di Commodity Futures Trading Commission (CFTC) memprihatinkan karena kekurangan empat komisioner, menambah ketidakpastian. Perdebatan mengenai yurisdiksi atas pasar prediksi—apakah jatuh ke negara bagian, CFTC, Securities and Exchange Commission (SEC), atau Mahkamah Agung—juga masih berlangsung. Industri akan kehilangan dua pendukung kunci: Komisioner SEC Hester M. Peirce dan Senator Cynthia Lummis, yang keduanya memainkan peran sentral dalam kebijakan kripto. Para ahli berpendapat: - **Sara K. Weed**: Peluang RUU CLARITY lolos tahun ini kecil karena kendala waktu dan pemilu, sehingga SEC dan CFTC harus lebih aktif memberikan kepastian. - **Sulolit 'Raj' Mukherjee**: Reformasi pajak kripto yang berarti kemungkinan akan disahkan dengan menempel pada paket undang-undang yang lebih besar, bukan sebagai RUU mandiri. - **Rashan Colbert**: CFTC sedang berupaya membangun kerangka regulasi yang lebih kokoh untuk pasar prediksi yang tengah berkembang, meski perdebatan klasifikasinya sebagai infrastruktur keuangan atau perjudian masih berlanjut. Babak kedua pertarungan kebijakan kripto telah dimulai. Meski waktu sempit, peluang masih ada, tetapi diperlukan komunikasi dan dorongan pragmatis lintas partai untuk mencapai hasil substansial pada 2026.

marsbit8j yang lalu

Paruh Kedua Kebijakan Kripto AS: UU CLARITY Perjuangkan 60 Suara, Komite "Satu Orang" CFTC Jadi Variabel Terbesar

marsbit8j yang lalu

Artikel Baru Dan Koe: Melarikan Diri dari Nasib Pekerja Kantoran, Bagaimana Bertahan di Tengah Gelombang Penggantian AI?

**Rangkuman Artikel: Lolos dari Nasib Karyawan dan Bertahan di Era Penggantian AI** Banyak yang khawatir pekerjaan mereka akan sepenuhnya digantikan oleh AI, tetapi ancaman sebenarnya bukanlah teknologi, melainkan ketergantungan pada orang lain untuk masa depan dan kesejahteraan kita. Artikel ini membahas cara keluar dari "perbudakan gaji" (hidup hanya untuk bekerja pada hal yang tidak bermakna) dan menemukan cara kerja yang lebih bermakna. Kunci untuk bertahan dan berkembang di era AI adalah **memulai usaha sendiri**. Untuk melakukan ini, Anda perlu menguasai lima elemen inti kesuksesan: 1. **Agen (Agency):** Kemampuan untuk bertindak tanpa menunggu perintah. 2. **Selera (Taste):** Intuisi untuk membedakan yang baik dan bernilai. 3. **Persuasif:** Kemampuan meyakinkan orang lain. 4. **Ketekunan (Persistence):** Memahami bahwa kegagalan adalah bagian dari proses. 5. **Iterasi (Iteration):** Kemampuan untuk terus memperbaiki berdasarkan umpan balik. Lima elemen ini mengerucut pada dua keterampilan utama: **memecahkan masalah dan akumulasi pengalaman** untuk mengetahui apa yang harus dilakukan. **Langkah praktis untuk memulai:** 1. **Ubah Lingkungan Anda:** Untuk mengubah identitas dan kebiasaan, ubah total lingkungan dan rangsangan di sekitar Anda—mulai dari konten yang dikonsumsi hingga rutinitas harian. 2. **Pilih Media Konten sebagai Wahana Utama:** Dibandingkan coding, keterampilan membuat konten (tulisan, video, podcast) lebih berharga karena nilainya subjektif dan membutuhkan selera yang tidak bisa sepenuhnya digantikan AI. Ini adalah "jagoan" masa depan. 3. **Temukan "Panggilan Hidup" Anda, Bukan Hanya Membangun Merek Pribadi:** Jawab pertanyaan-pertanyaan mendalam untuk menggali bahan baku unik Anda: * Topik apa yang paling Anda kuasai atau ingin pelajari tanpa dibayar? * Masalah apa yang mudah Anda selesaikan tetapi orang lain kesulitan? * Pendapat "anti-konsensus" apa yang Anda pegang teguh di bidang Anda? 4. **Langkah Aksi: Terbitkan Gagasan Pertama Anda.** Gabungkan jawaban dari pencarian panggilan hidup Anda menjadi satu potong konten dan PUBLIKASIKAN. Umpan balik nyata dari dunia adalah guru terbaik untuk belajar, beriterasi, dan mengembangkan keterampilan persuasif serta selera Anda. Mulailah dengan meluangkan 15 menit untuk menjawab pertanyaan-pertanyaan inti dan mempublikasikan satu ide. Proses inilah yang akan membebaskan Anda dari ketergantungan finansial pada orang lain.

marsbit9j yang lalu

Artikel Baru Dan Koe: Melarikan Diri dari Nasib Pekerja Kantoran, Bagaimana Bertahan di Tengah Gelombang Penggantian AI?

marsbit9j yang lalu

Interpretasi Riset: Morgan Stanley Memperjelas SanDisk (SNDK), Kebenaran Kekuatan Penetapan Harga di Pusat Data Cloud dan Dividen Inferensi AI

**Ringkasan Laporan: Morgan Stanley Menganalisis SNDK, Kekuatan Penetapan Harga di Pusat Data Awan & Realitas Manfaat AI Inference** Morgan Stanley (MS) pada 22 Juni meningkatkan target harga SNDK dari $1100 menjadi $1750, dengan rating "Overweight". Alasan utamanya: permintaan untuk **AI inference** mengubah aturan pasar NAND. Pelanggan pusat data awan (cloud) yang membayar premium untuk penyimpanan **KV Cache** dan konteks AI menjadi kurang sensitif terhadap harga, memberikan SNDK **kekuatan penetapan harga**. SNDK mengunci profitabilitas masa depan melalui **NBM (New Business Model)**, kontrak jangka panjang (3-5 tahun) yang telah mencakup lebih dari sepertiga volume bit FY27. Kontrak ini memiliki harga tetap atau struktur floor/ceiling, dan bahkan pada harga terendah (floor) dapat mempertahankan margin kotor sekitar **80%**. MS memproyeksikan margin kotor SNDK akan melonjak dari 30.3% (FY25) menjadi 86.7% (FY27e). Dengan pasokan NAND yang diperkirakan tetap ketat hingga setidaknya pertengahan 2027, SNDK berfokus pada pertumbuhan melalui peningkatan kepadatan (density), bukan ekspansi kapasitas besar-besaran. Pertumbuhan pendapatan yang diproyeksikan (6.6x dari FY25 ke FY27) berasal dari segmen cloud ber-margin tinggi. **Katalis:** Adopsi eSSD di pusat data yang melampaui ekspektasi, pertumbuhan AI di edge, dan teknologi baru seperti HBM. **Risiko:** Pertumbuhan industri melambat, kompetisi meningkat (termasuk dari produsen China seperti YMTC), dan kehilangan pangsa pasar di segmen pusat data. Logika utama MS: **1)** Perubahan struktural permintaan AI inference, **2)** Perlindungan margin oleh kontrak NBM, dan **3)** Pasokan NAND yang ketat. Target harga $1750 didasarkan pada 28x PER FY27e.

marsbit9j yang lalu

Interpretasi Riset: Morgan Stanley Memperjelas SanDisk (SNDK), Kebenaran Kekuatan Penetapan Harga di Pusat Data Cloud dan Dividen Inferensi AI

marsbit9j yang lalu

Trading

Spot
Futures
活动图片