Tim NVIDIA Membuat Agent Pemrograman Mengambil Alih Eksperimen Robot Nyata, Tingkat Keberhasilan Mencapai 99%

marsbitDipublikasikan tanggal 2026-06-18Terakhir diperbarui pada 2026-06-18

Abstrak

Penelitian otomatis telah melampaui sandbox kode dan memasuki dunia fisik nyata. NVIDIA GEAR Lab, dipimpin Jim Fan, memperkenalkan proyek ENPIRE yang memungkinkan **penelitian otomatis pertama kali diimplementasikan pada perangkat keras robot**. Delapan Codex Agent ditempatkan dalam armada robot dengan alokasi daya komputasi GPU dan anggaran token, diberi tujuan sederhana: menyelesaikan tugas secepatnya, menjaga robot tetap sibuk namun aman, serta tidak menyia-nyiakan daya komputasi. Manusia kemudian mundur dari intervensi. Agent secara mandiri menggerakkan siklus tertutup penuh: mereset ulang skenario, menelusuri literatur, mengimplementasikan ide dan membangun infrastruktur, melatih dan menerapkan strategi, memvalidasi diri, menganalisis log serta memperbaiki kode, beriterasi terus hingga tugas ketangkasan presisi tinggi seperti mengikat kabel, merapikan pin dalam kotak, atau memasang GPU dapat diselesaikan andal di perangkat keras nyata dengan **tingkat keberhasilan 99%**. Sistem ENPIRE terdiri dari empat modul inti yang membentuk loop umpan balik fisik: Environment (EN), Policy Improvement (PI), Rollout (R), dan Evolution (E). Penelitian menemukan bahwa **mereset lingkungan sering kali lebih mudah daripada menyelesaikan tugas itu sendiri**. Peningkatan paralelisme robot (dari sedikit menjadi 8 unit) mempercepat penyelesaian tugas secara signifikan, menunjukkan "hukum penskalaan fisik". Tim juga memperkenalkan metrik baru: Mean Robot Utilization (MRU) dan Mean Token Uti...

Penelitian otomatis, kali ini benar-benar melangkah keluar dari sandbox kode dan memasuki dunia fisik yang nyata.

Belakangan ini, kepala lab NVIDIA GEAR, Jim Fan, memperkenalkan proyek terbaru bernama ENPIRE. Ini adalah pertama kalinya mereka mengimplementasikan penelitian otomatis pada perangkat keras robotika.

Mereka menempatkan 8 Codex Agent ke dalam armada robot, mengalokasikan daya komputasi GPU dan anggaran token yang cukup, hanya dengan memberikan satu tujuan sederhana: selesaikan tugas secepat mungkin, buat robot tetap sibuk tetapi pastikan keamanan, jangan buang daya komputasi.

Selanjutnya, campur tangan manusia hampir sepenuhnya dihentikan. Agent menggerakkan seluruh siklus tertutup secara mandiri, termasuk mereset ulang skenario secara otomatis, mencari literatur, mengimplementasikan ide dan membangun infrastruktur, melatih dan men-deploy strategi, memvalidasi diri sendiri, menganalisis log dan memperbaiki kode, beriterasi terus-menerus hingga berhasil menyelesaikan tugas ketangkasan berpresisi tinggi dengan andal di perangkat keras nyata, seperti mengikat kabel pengikat, merapikan pin di kotak pin, memasang GPU, dan lain-lain.

Mereka juga mengamati adanya "hukum penskalaan fisik". Meningkatkan jumlah robot paralel (misalnya dari sedikit menjadi 8), dapat secara signifikan mempercepat penyelesaian tugas.

Saat ini, sebagian sistem di laboratorium tersebut telah mencapai iterasi mandiri semalaman tanpa campur tangan manusia. Para peneliti hanya perlu melihat laporannya di pagi hari.

Jim Fan menyatakan, tujuan masa depan adalah agar anggota tim bisa libur dengan tenang, bahkan CEO NVIDIA, Jensen Huang, tidak akan menyadari bahwa laboratorium masih berjalan secara mandiri.

Proyek ENPIRE berencana untuk sepenuhnya open-source. Saat itu tiba, pengembang biasa pun diharapkan dapat membangun sistem penelitian robot otonom serupa di rumah.

Alamat proyek: https://research.nvidia.com/labs/gear/enpire/

Arsitektur Sistem ENPIRE: Empat Modul Membentuk Siklus Tertutup

ENPIRE adalah sebuah sistem kerangka kerja yang dirancang untuk Agent pengkodean, membangun siklus umpan balik fisik yang dapat diulang melalui empat modul inti: Modul Lingkungan (EN) bertanggung jawab untuk reset dan validasi otomatis, Modul Peningkatan Strategi (PI) memulai optimasi strategi, Modul Rollout (R) mendukung evaluasi strategi pada satu atau beberapa robot secara paralel, dan Modul Evolusi (E) memungkinkan Agent pengkodean untuk menganalisis log, meninjau literatur, memperbaiki infrastruktur pelatihan, dan kode algoritma untuk mengatasi mode kegagalan.

Sistem siklus tertutup ini mengubah pembelajaran robot di dunia nyata menjadi proses optimasi yang dapat dikelola dan dikontrol oleh Agent, sehingga meminimalkan input manual sekaligus mendukung eksperimen penghapusan yang adil di antara berbagai resep pelatihan dan varian Agent.

Dengan dukungan ENPIRE, Agent pemrograman mutakhir mampu mengembangkan strategi secara mandiri, dan mencapai tingkat keberhasilan 99% dalam tugas operasi ketangkasan dunia nyata yang menantang, seperti PushT, merapikan pin ke dalam kotak pin, menggunakan pemotong untuk memotong kabel pengikat, dan lain-lain.

Temuan Kunci: Mereset Lingkungan Lebih Mudah Daripada Menyelesaikan Tugas

Salah satu pengamatan kunci adalah: untuk banyak tugas robotika, mereset lingkungan seringkali lebih mudah daripada menyelesaikan tugas itu sendiri.

Oleh karena itu, pendekatan ENPIRE adalah: pertama, biarkan Agent membangun lingkungan reset otomatis melalui Code-as-Policy. Dalam banyak kasus, yang disebut reset sebenarnya hanyalah tugas pick-and-place, yang dapat diselesaikan oleh Cap-X.

Kemudian, agen cerdas akan menulis fungsi penghargaan berdasarkan aturan heuristik. Tim peneliti kemudian menempatkan lingkungan tersebut ke dalam sandbox, dan meluncurkan penelitian otomatis oleh Agent di sekitar skor yang dicapai.

Hal ini juga sesuai dengan definisi Karpathy tentang penelitian otomatis: penelitian otomatis yang dimaksud di sini bukan hanya sekadar menyesuaikan satu hyperparameter, atau mengubah sepotong kecil kode. Agent akan menjelajahi berbagai paradigma dari internet, dan menulis ulang semua bagian yang mungkin mendorong peningkatan kinerja, termasuk algoritma, tujuan pelatihan, bahkan data loader.

Dalam tugas merapikan pin, bahkan ada satu Agent yang menulis sendiri controller keamanan gaya kontak, yang efektivitasnya melebihi sekadar menyesuaikan beberapa parameter pembelajaran penguatan.

Metrik Baru: MRU dan MTU

Kemampuan skalabilitas ENPIRE bergantung pada ukuran tim Agent dan sumber daya komputasi, hanya saja di sini, sumber daya yang benar-benar langka bukanlah GPU, melainkan waktu robot.

Ketika tim peneliti menyediakan 8 robot untuk Agent, alih-alih 1 robot, waktu yang dibutuhkan untuk mencapai kinerja mendekati sempurna dalam tugas merapikan pin, berkurang dari lebih dari 1,5 jam menjadi sekitar 40 menit. Agent-Agent ini berkoordinasi melalui Git: berbagi kode, mengabaikan ide yang kurang ideal, dan secara mandiri memilih hasil terbaik dari satu sama lain.

Ini mengarah pada perubahan yang lebih besar: penelitian robotika sedang berubah menjadi pekerjaan desain lingkungan, yaitu membangun lingkungan tempat Agent pengkodean dapat melakukan penelitian otomatis; pekerjaan algoritma bergeser ke tingkat yang lebih tinggi, beralih ke pembangunan siklus umpan balik yang dapat ditutup sendiri oleh Agent.

Dan siklus ini akan terus terakumulasi secara komponensial: keterampilan yang dikuasai Agent hari ini, besok akan menjadi modul dasar untuk membangun dan mereset lingkungan tugas yang lebih sulit. Kemampuan akan menghasilkan kemampuan baru.

Dalam paradigma ini, batasan keras yang sebenarnya adalah anggaran interaksi dunia nyata.

Oleh karena itu, tim peneliti mengusulkan dua metrik:

Rata-rata Utilisasi Robot (Mean Robot Utilization, MRU): Proporsi waktu yang dihabiskan robot untuk menjalankan eksperimen aktual terhadap total waktu nyata yang terbuang.
Rata-rata Utilisasi Token (Mean Token Utilization, MTU): Mengukur efisiensi Agent dalam mengubah token menjadi kemajuan penelitian.

Dalam eksperimen mereka, MRU selalu di bawah 50%. Artinya, robot menghabiskan setengah waktunya dalam keadaan menganggur, menunggu Agent berpikir. Oleh karena itu, harness yang lebih baik dan model yang lebih cepat akan langsung diterjemahkan menjadi keuntungan nyata.

PushT adalah benchmark operasi robotika yang telah lama digunakan. Biasanya, untuk menyelesaikan tugas ini, dibutuhkan banyak data demonstrasi manusia, ditambah dengan beberapa jam pelatihan cloning perilaku.

Tetapi mereka melihat bahwa Codex, Claude Code, dan Kimi Code semuanya menggunakan satu set metode heuristik berbasis aturan untuk "menyelesaikan" tugas ini dalam waktu kurang dari 2 jam: tanpa menggunakan jaringan saraf, tanpa pelatihan, dan tanpa bergantung pada data manusia apa pun.

Agar lebih banyak orang dapat mencoba penelitian otomatis di dunia fisik di rumah, mereka mengembangkan sistem full-stack berdasarkan kit SO-101 @LeRobotHF + NVIDIA Jetson Thor. Sistem ini dapat menyelesaikan tugas PushT.

Referensi:

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

Artikel ini berasal dari akun WeChat resmi "Machine Heart" (ID:almosthuman2014), penulis: Yang Wen

Pertanyaan Terkait

QApa yang dimaksud dengan proyek ENPIRE dari tim NVIDIA, dan mengapa ini dianggap penting?

AENPIRE adalah proyek terbaru dari NVIDIA GEAR Lab yang memungkinkan agen kode (coding agent) sepenuhnya mengendalikan eksperimen robotika di dunia fisik nyata. Ini penting karena untuk pertama kalinya, penelitian otomatis keluar dari sandbox kode dan diimplementasikan pada perangkat keras robot nyata, mengurangi intervensi manusia secara signifikan.

QBagaimana sistem ENPIRE bekerja? Sebutkan modul inti yang membentuknya.

AENPIRE bekerja melalui empat modul inti yang membentuk loop umpan balik fisik tertutup: Modul Lingkungan (EN) untuk reset otomatis, Modul Peningkatan Kebijakan (PI) untuk optimasi kebijakan, Modul Rollout (R) untuk evaluasi paralel pada robot, dan Modul Evolusi (E) di mana agen menganalisis log, meneliti literatur, dan meningkatkan kode untuk mengatasi kegagalan.

QApa saja tugas yang berhasil diselesaikan oleh agen ENPIRE di dunia nyata, dan berapa tingkat keberhasilannya?

AAgen ENPIRE berhasil menyelesaikan tugas manipulasi canggih di dunia nyata seperti mengikat tali pengikat (tie cable), menyusun pin dalam kotak pin (peg insertion), dan memasang GPU. Tingkat keberhasilan yang dilaporkan mencapai 99% untuk tugas-tugas tersebut.

QApa itu 'hukum penskalaan fisik' (physical scaling law) yang disebutkan dalam artikel, dan apa dampaknya?

A'Hukum penskalaan fisik' mengacu pada temuan bahwa menambah jumlah robot paralel (misalnya dari satu menjadi delapan) dapat secara signifikan mempercepat waktu yang dibutuhkan untuk menyelesaikan suatu tugas. Misalnya, waktu untuk tugas penyisipan pin berkurang dari lebih dari 1,5 jam menjadi sekitar 40 menit.

QApa yang diukur oleh metrik MRU dan MTU yang diperkenalkan dalam proyek ini, dan apa implikasinya?

AMRU (Mean Robot Utilization) mengukur persentase waktu robot benar-benar menjalankan eksperimen. MTU (Mean Token Utilization) mengukur efisiensi agen dalam mengubah token (pemikiran) menjadi kemajuan penelitian. MRU yang rendah (

Bacaan Terkait

Perusahaan Donald Trump Menjual Lagi Sejumlah Besar Bitcoin!

Perusahaan milik Donald Trump, Trump Media & Technology Group, diduga kembali mentransfer sejumlah besar Bitcoin ke bursa kripto CryptoCom. Data analisis blockchain menunjukkan sekitar 2.628 BTC, senilai kurang lebih $165 juta, dipindahkan dari alamat yang dikaitkan dengan perusahaan tersebut. Sebelumnya, perusahaan dilaporkan membeli total 11.542 BTC dengan harga rata-rata $118.500 per koin. Sejak 2026, sekitar 7.281 BTC telah ditarik dari alamat-alamat ini, dengan sisa sekitar 4.261 BTC yang masih disimpan. Kerugian total Trump Media dari investasi Bitcoin ini, baik yang telah direalisasikan maupun belum, diperkirakan mencapai sekitar $555 juta. Penting untuk dicatat bahwa pengiriman aset ke bursa kripto tidak selalu berarti penjualan. Transfer bisa dilakukan untuk keperluan penyimpanan, pengelolaan likuiditas, atau operasi keuangan lainnya. Meski demikian, perpindahan dari dompet "dingin" ke bursa terpusat sering dianggap sebagai indikasi persiapan penjualan.

cryptonews.ru1j yang lalu

Perusahaan Donald Trump Menjual Lagi Sejumlah Besar Bitcoin!

cryptonews.ru1j yang lalu

Mengapa Bitcoin Bertahan di $64.000 Setelah Jeda Ketat dari The Fed

Bitcoin berakhir di bulan Juli mendekati level $64.000, bertahan di tengah volatilitas pasca keputusan Federal Reserve AS untuk mempertahankan suku bunga dalam kisaran 3,50-3,75%. Meskipun tiga anggota komite voting mendukung kenaikan suku bunga, sinyal keseluruhan dari Fed tetap ketat, membatasi minat terhadap aset berisiko. Pasar kripto menunjukkan ketahanan dengan aliran bersih masuk $32,1 juta ke ETF Bitcoin spot, mengakhiri serangkaian arus keluar. Di sisi lain, ETF Ethereum mengalami penarikan dana sekitar $18,65 juta. Kapitalisasi pasar agregat bertahan di sekitar $2,29 triliun. Secara teknis, Bitcoin menemukan dukungan di zona $63.000-63.500 dengan hambatan utama di dekat $66.000. Sementara Ethereum diperdagangkan sekitar $1.900 dengan tekanan harga, metrik jaringan seperti antrian validator yang panjang menunjukkan komitmen jangka panjang. Pergerakan di altcoin beragam: ETF Solana mencatat aliran masuk yang kuat sekitar $19 juta, sementara XRP dan BNB bergerak dalam konsolidasi. Regulasi juga menjadi perhatian setelah penundaan pembahasan CLARITY Act di Senat AS hingga musim gugur, mengurangi harapan disahkannya undang-undang tersebut pada tahun 2026. Hari terakhir bulan Juli akan dipantau untuk data makro AS seperti inflasi dan pengeluaran konsumen, yang dapat memengaruhi pergerakan pasar. Skenario dasar untuk Bitcoin adalah konsolidasi dalam kisaran $63.000-66.000. Kelangsungan aliran masuk institusional dan pertahanan level kunci akan menjadi sinyal penting untuk pemulihan pasar di paruh kedua tahun 2026.

cryptonews.ru1j yang lalu

Mengapa Bitcoin Bertahan di $64.000 Setelah Jeda Ketat dari The Fed

cryptonews.ru1j yang lalu

Parker Lewis Menjawab Mengapa Bitcoin Tetap Menjadi Uang Terbaik

Parker Lewis, salah satu analis Bitcoin paling terkemuka, mengkritik keras strategi pemasaran perusahaan publik yang memposisikan diri sebagai perbendaharaan kripto. Menurutnya, upaya mereka mengumpulkan modal melalui penjualan "kredit digital" dalam bentuk saham preferen abadi mendistorsi esensi mata uang kripto pertama. Lewis menekankan bahwa Bitcoin tidak memiliki hasil tetap pada tingkat algoritmanya, dan janji dividen reguler adalah permainan berisiko tinggi yang didanai terutama oleh investor baru di pasar yang naik. Untuk menunjukkan risikonya, ia membandingkan pasar kredit global sebesar $300 triliun dengan pasar saham preferen abadi yang hanya $1 triliun, menunjukkan bahwa lembaga keuangan menghindari risiko abadi ini, mengalihkannya ke investor ritel. Ia juga membantah klaim bahwa Bitcoin "terlalu volatil untuk 99% populasi". Volatilitas, katanya, adalah konsekuensi matematis alami dari adopsi massal aset baru dengan pasokan tetap. Setiap gelombang pengguna baru menyebabkan lonjakan harga karena mereka harus menawar lebih tinggi kepada pemegang awal. Lewis menyarankan untuk membeli Bitcoin langsung daripada saham perusahaan seperti MicroStrategy, karena lebih aman secara matematis daripada mempercayakan dana kepada manajer korporat. Fokus pada derivatif korporat mengalihkan perhatian dari ancaman utama: depresiasi uang fiat yang cepat. Lewis mengilustrasikan inflasi sebenarnya dengan "Indeks Ribeye"-nya, mencatat kenaikan harga steak premium dari $19,99 menjadi $37,99 sejak musim semi 2020, setara dengan inflasi 12-13% per tahun, lebih tinggi dari data resmi. Strategi keuangan yang paling bijaksana dan aman dalam inflasi global adalah kepemilikan langsung atas Bitcoin pertama dan kendali penuh atas kunci pribadi. Mengejar imbal hasil korporat yang meragukan melalui saham perbendaharaan kripto hanya meningkatkan risiko sistemik, sementara pemahaman tentang uang terdesentralisasi yang sejati dapat melindungi tabungan dari gejolak makroekonomi.

cryptonews.ru1j yang lalu

Parker Lewis Menjawab Mengapa Bitcoin Tetap Menjadi Uang Terbaik

cryptonews.ru1j yang lalu

Perusahaan ARK Invest Pimpinan Cathy Wood Membeli 109,129 Saham Circle Senilai $6,83 Juta

Perusahaan ARK Invest yang dipimpin oleh Cathie Wood telah membeli sekitar 109.129 saham Circle senilai hampir $6,83 juta. Pembelian dilakukan melalui tiga dana ETF: ARK Innovation ETF (77.103 saham), ARK Next Generation Internet ETF (22.238 saham), dan ARK Fintech Innovation ETF (9.788 saham). Aksi beli ini terjadi beberapa hari setelah Circle mendapatkan lisensi perwalian dari Departemen Layanan Keuangan New York untuk entitas Circle Internet Trust Company LLC, yang akan beroperasi dengan nama Circle New York Trust. CEO Circle Jeremy Allaire menyebut pencapaian lisensi ini sebagai "tujuan jangka panjang perusahaan." Meski mendapat persetujuan regulator, saham Circle (CRCL) justru turun 2,54% menjadi $62,61 pada 31 Juli lalu, kemungkinan karena investor tidak melihat lisensi tersebut sebagai katalis untuk kenaikan saham. Di tengah penjualan saham teknologi, ARK Invest juga membeli saham Tesla, SpaceX, dan Nvidia senilai sekitar $40,2 juta. Secara bersamaan, perusahaan mengurangi kepemilikannya di sejumlah perusahaan lain seperti Shopify, Cloudflare, dan CrowdStrike.

cryptonews.ru1j yang lalu

Perusahaan ARK Invest Pimpinan Cathy Wood Membeli 109,129 Saham Circle Senilai $6,83 Juta

cryptonews.ru1j yang lalu

Pelaku Skema Penipuan dengan XRP yang Mencuri 9 Juta Dolar dari 71 Investor Ditangkap

Menurut surat kabar Korea "Chosun," Kepolisian Seoul menangkap tiga orang yang diduga mengoperasikan platform investasi penipuan terkait $XRP. Grup ini diklaim telah mengumpulkan sekitar 3,4 juta $XRP dari 71 investor antara 16-23 Oktober, sebelum menutup situs dan menghilang. Para tersangka mempromosikan situs Fxrpntwork.com melalui blog, artikel online, dan video YouTube, menjanjikan keamanan pokok dan imbal hasil bulanan 1,5%-1,8%. Investor diinstruksikan mentransfer $XRP dari bursa Korea melalui platform luar negeri ke dompet yang dikendalikan kelompok itu. Polisi memperingatkan investor untuk memverifikasi sumber resmi sebelum mentransfer aset. Pelaku diduga meniru merek Flare Network dan FXRP agar terlihat sah. Polisi mengeluarkan pemberitahuan merah Interpol untuk satu tersangka di luar negeri. Skema penipuan ini mencerminkan pola umum di mana penjahat menyalin branding perusahaan sah dan menjanjikan imbal hasil terjamin—taktik yang sering menjadi tanda penipuan investasi kripto. Investigasi berlanjut untuk mengidentifikasi korban dan kaki tangan tambahan, dengan aset virtual senilai 17,3 miliar won dibekukan.

cryptonews.ru2j yang lalu

Pelaku Skema Penipuan dengan XRP yang Mencuri 9 Juta Dolar dari 71 Investor Ditangkap

cryptonews.ru2j yang lalu

Trading

Spot

Tim NVIDIA Membuat Agent Pemrograman Mengambil Alih Eksperimen Robot Nyata, Tingkat Keberhasilan Mencapai 99%

Abstrak

Arsitektur Sistem ENPIRE: Empat Modul Membentuk Siklus Tertutup

Temuan Kunci: Mereset Lingkungan Lebih Mudah Daripada Menyelesaikan Tugas

Metrik Baru: MRU dan MTU

Referensi:

Pertanyaan Terkait

Bacaan Terkait

Perusahaan Donald Trump Menjual Lagi Sejumlah Besar Bitcoin!

Mengapa Bitcoin Bertahan di $64.000 Setelah Jeda Ketat dari The Fed

Parker Lewis Menjawab Mengapa Bitcoin Tetap Menjadi Uang Terbaik

Perusahaan ARK Invest Pimpinan Cathy Wood Membeli 109,129 Saham Circle Senilai $6,83 Juta

Pelaku Skema Penipuan dengan XRP yang Mencuri 9 Juta Dolar dari 71 Investor Ditangkap

Trading

Kategori Populer

Tag Populer