Tim NVIDIA Membuat Agent Pemrograman Mengambil Alih Eksperimen Robot Nyata, Tingkat Keberhasilan Mencapai 99%

marsbitDipublikasikan tanggal 2026-06-18Terakhir diperbarui pada 2026-06-18

Abstrak

Penelitian otomatis telah melampaui sandbox kode dan memasuki dunia fisik nyata. NVIDIA GEAR Lab, dipimpin Jim Fan, memperkenalkan proyek ENPIRE yang memungkinkan **penelitian otomatis pertama kali diimplementasikan pada perangkat keras robot**. Delapan Codex Agent ditempatkan dalam armada robot dengan alokasi daya komputasi GPU dan anggaran token, diberi tujuan sederhana: menyelesaikan tugas secepatnya, menjaga robot tetap sibuk namun aman, serta tidak menyia-nyiakan daya komputasi. Manusia kemudian mundur dari intervensi. Agent secara mandiri menggerakkan siklus tertutup penuh: mereset ulang skenario, menelusuri literatur, mengimplementasikan ide dan membangun infrastruktur, melatih dan menerapkan strategi, memvalidasi diri, menganalisis log serta memperbaiki kode, beriterasi terus hingga tugas ketangkasan presisi tinggi seperti mengikat kabel, merapikan pin dalam kotak, atau memasang GPU dapat diselesaikan andal di perangkat keras nyata dengan **tingkat keberhasilan 99%**. Sistem ENPIRE terdiri dari empat modul inti yang membentuk loop umpan balik fisik: Environment (EN), Policy Improvement (PI), Rollout (R), dan Evolution (E). Penelitian menemukan bahwa **mereset lingkungan sering kali lebih mudah daripada menyelesaikan tugas itu sendiri**. Peningkatan paralelisme robot (dari sedikit menjadi 8 unit) mempercepat penyelesaian tugas secara signifikan, menunjukkan "hukum penskalaan fisik". Tim juga memperkenalkan metrik baru: Mean Robot Utilization (MRU) dan Mean Token Uti...

Penelitian otomatis, kali ini benar-benar melangkah keluar dari sandbox kode dan memasuki dunia fisik yang nyata.

Belakangan ini, kepala lab NVIDIA GEAR, Jim Fan, memperkenalkan proyek terbaru bernama ENPIRE. Ini adalah pertama kalinya mereka mengimplementasikan penelitian otomatis pada perangkat keras robotika.

Mereka menempatkan 8 Codex Agent ke dalam armada robot, mengalokasikan daya komputasi GPU dan anggaran token yang cukup, hanya dengan memberikan satu tujuan sederhana: selesaikan tugas secepat mungkin, buat robot tetap sibuk tetapi pastikan keamanan, jangan buang daya komputasi.

Selanjutnya, campur tangan manusia hampir sepenuhnya dihentikan. Agent menggerakkan seluruh siklus tertutup secara mandiri, termasuk mereset ulang skenario secara otomatis, mencari literatur, mengimplementasikan ide dan membangun infrastruktur, melatih dan men-deploy strategi, memvalidasi diri sendiri, menganalisis log dan memperbaiki kode, beriterasi terus-menerus hingga berhasil menyelesaikan tugas ketangkasan berpresisi tinggi dengan andal di perangkat keras nyata, seperti mengikat kabel pengikat, merapikan pin di kotak pin, memasang GPU, dan lain-lain.

Mereka juga mengamati adanya "hukum penskalaan fisik". Meningkatkan jumlah robot paralel (misalnya dari sedikit menjadi 8), dapat secara signifikan mempercepat penyelesaian tugas.

Saat ini, sebagian sistem di laboratorium tersebut telah mencapai iterasi mandiri semalaman tanpa campur tangan manusia. Para peneliti hanya perlu melihat laporannya di pagi hari.

Jim Fan menyatakan, tujuan masa depan adalah agar anggota tim bisa libur dengan tenang, bahkan CEO NVIDIA, Jensen Huang, tidak akan menyadari bahwa laboratorium masih berjalan secara mandiri.

Proyek ENPIRE berencana untuk sepenuhnya open-source. Saat itu tiba, pengembang biasa pun diharapkan dapat membangun sistem penelitian robot otonom serupa di rumah.

Alamat proyek: https://research.nvidia.com/labs/gear/enpire/

Arsitektur Sistem ENPIRE: Empat Modul Membentuk Siklus Tertutup

ENPIRE adalah sebuah sistem kerangka kerja yang dirancang untuk Agent pengkodean, membangun siklus umpan balik fisik yang dapat diulang melalui empat modul inti: Modul Lingkungan (EN) bertanggung jawab untuk reset dan validasi otomatis, Modul Peningkatan Strategi (PI) memulai optimasi strategi, Modul Rollout (R) mendukung evaluasi strategi pada satu atau beberapa robot secara paralel, dan Modul Evolusi (E) memungkinkan Agent pengkodean untuk menganalisis log, meninjau literatur, memperbaiki infrastruktur pelatihan, dan kode algoritma untuk mengatasi mode kegagalan.

Sistem siklus tertutup ini mengubah pembelajaran robot di dunia nyata menjadi proses optimasi yang dapat dikelola dan dikontrol oleh Agent, sehingga meminimalkan input manual sekaligus mendukung eksperimen penghapusan yang adil di antara berbagai resep pelatihan dan varian Agent.

Dengan dukungan ENPIRE, Agent pemrograman mutakhir mampu mengembangkan strategi secara mandiri, dan mencapai tingkat keberhasilan 99% dalam tugas operasi ketangkasan dunia nyata yang menantang, seperti PushT, merapikan pin ke dalam kotak pin, menggunakan pemotong untuk memotong kabel pengikat, dan lain-lain.

Temuan Kunci: Mereset Lingkungan Lebih Mudah Daripada Menyelesaikan Tugas

Salah satu pengamatan kunci adalah: untuk banyak tugas robotika, mereset lingkungan seringkali lebih mudah daripada menyelesaikan tugas itu sendiri.

Oleh karena itu, pendekatan ENPIRE adalah: pertama, biarkan Agent membangun lingkungan reset otomatis melalui Code-as-Policy. Dalam banyak kasus, yang disebut reset sebenarnya hanyalah tugas pick-and-place, yang dapat diselesaikan oleh Cap-X.

Kemudian, agen cerdas akan menulis fungsi penghargaan berdasarkan aturan heuristik. Tim peneliti kemudian menempatkan lingkungan tersebut ke dalam sandbox, dan meluncurkan penelitian otomatis oleh Agent di sekitar skor yang dicapai.

Hal ini juga sesuai dengan definisi Karpathy tentang penelitian otomatis: penelitian otomatis yang dimaksud di sini bukan hanya sekadar menyesuaikan satu hyperparameter, atau mengubah sepotong kecil kode. Agent akan menjelajahi berbagai paradigma dari internet, dan menulis ulang semua bagian yang mungkin mendorong peningkatan kinerja, termasuk algoritma, tujuan pelatihan, bahkan data loader.

Dalam tugas merapikan pin, bahkan ada satu Agent yang menulis sendiri controller keamanan gaya kontak, yang efektivitasnya melebihi sekadar menyesuaikan beberapa parameter pembelajaran penguatan.

Metrik Baru: MRU dan MTU

Kemampuan skalabilitas ENPIRE bergantung pada ukuran tim Agent dan sumber daya komputasi, hanya saja di sini, sumber daya yang benar-benar langka bukanlah GPU, melainkan waktu robot.

Ketika tim peneliti menyediakan 8 robot untuk Agent, alih-alih 1 robot, waktu yang dibutuhkan untuk mencapai kinerja mendekati sempurna dalam tugas merapikan pin, berkurang dari lebih dari 1,5 jam menjadi sekitar 40 menit. Agent-Agent ini berkoordinasi melalui Git: berbagi kode, mengabaikan ide yang kurang ideal, dan secara mandiri memilih hasil terbaik dari satu sama lain.

Ini mengarah pada perubahan yang lebih besar: penelitian robotika sedang berubah menjadi pekerjaan desain lingkungan, yaitu membangun lingkungan tempat Agent pengkodean dapat melakukan penelitian otomatis; pekerjaan algoritma bergeser ke tingkat yang lebih tinggi, beralih ke pembangunan siklus umpan balik yang dapat ditutup sendiri oleh Agent.

Dan siklus ini akan terus terakumulasi secara komponensial: keterampilan yang dikuasai Agent hari ini, besok akan menjadi modul dasar untuk membangun dan mereset lingkungan tugas yang lebih sulit. Kemampuan akan menghasilkan kemampuan baru.

Dalam paradigma ini, batasan keras yang sebenarnya adalah anggaran interaksi dunia nyata.

Oleh karena itu, tim peneliti mengusulkan dua metrik:

  • Rata-rata Utilisasi Robot (Mean Robot Utilization, MRU): Proporsi waktu yang dihabiskan robot untuk menjalankan eksperimen aktual terhadap total waktu nyata yang terbuang.
  • Rata-rata Utilisasi Token (Mean Token Utilization, MTU): Mengukur efisiensi Agent dalam mengubah token menjadi kemajuan penelitian.

Dalam eksperimen mereka, MRU selalu di bawah 50%. Artinya, robot menghabiskan setengah waktunya dalam keadaan menganggur, menunggu Agent berpikir. Oleh karena itu, harness yang lebih baik dan model yang lebih cepat akan langsung diterjemahkan menjadi keuntungan nyata.

PushT adalah benchmark operasi robotika yang telah lama digunakan. Biasanya, untuk menyelesaikan tugas ini, dibutuhkan banyak data demonstrasi manusia, ditambah dengan beberapa jam pelatihan cloning perilaku.

Tetapi mereka melihat bahwa Codex, Claude Code, dan Kimi Code semuanya menggunakan satu set metode heuristik berbasis aturan untuk "menyelesaikan" tugas ini dalam waktu kurang dari 2 jam: tanpa menggunakan jaringan saraf, tanpa pelatihan, dan tanpa bergantung pada data manusia apa pun.

Agar lebih banyak orang dapat mencoba penelitian otomatis di dunia fisik di rumah, mereka mengembangkan sistem full-stack berdasarkan kit SO-101 @LeRobotHF + NVIDIA Jetson Thor. Sistem ini dapat menyelesaikan tugas PushT.

Referensi:

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

Artikel ini berasal dari akun WeChat resmi "Machine Heart" (ID:almosthuman2014), penulis: Yang Wen

Pertanyaan Terkait

QApa yang dimaksud dengan proyek ENPIRE dari tim NVIDIA, dan mengapa ini dianggap penting?

AENPIRE adalah proyek terbaru dari NVIDIA GEAR Lab yang memungkinkan agen kode (coding agent) sepenuhnya mengendalikan eksperimen robotika di dunia fisik nyata. Ini penting karena untuk pertama kalinya, penelitian otomatis keluar dari sandbox kode dan diimplementasikan pada perangkat keras robot nyata, mengurangi intervensi manusia secara signifikan.

QBagaimana sistem ENPIRE bekerja? Sebutkan modul inti yang membentuknya.

AENPIRE bekerja melalui empat modul inti yang membentuk loop umpan balik fisik tertutup: Modul Lingkungan (EN) untuk reset otomatis, Modul Peningkatan Kebijakan (PI) untuk optimasi kebijakan, Modul Rollout (R) untuk evaluasi paralel pada robot, dan Modul Evolusi (E) di mana agen menganalisis log, meneliti literatur, dan meningkatkan kode untuk mengatasi kegagalan.

QApa saja tugas yang berhasil diselesaikan oleh agen ENPIRE di dunia nyata, dan berapa tingkat keberhasilannya?

AAgen ENPIRE berhasil menyelesaikan tugas manipulasi canggih di dunia nyata seperti mengikat tali pengikat (tie cable), menyusun pin dalam kotak pin (peg insertion), dan memasang GPU. Tingkat keberhasilan yang dilaporkan mencapai 99% untuk tugas-tugas tersebut.

QApa itu 'hukum penskalaan fisik' (physical scaling law) yang disebutkan dalam artikel, dan apa dampaknya?

A'Hukum penskalaan fisik' mengacu pada temuan bahwa menambah jumlah robot paralel (misalnya dari satu menjadi delapan) dapat secara signifikan mempercepat waktu yang dibutuhkan untuk menyelesaikan suatu tugas. Misalnya, waktu untuk tugas penyisipan pin berkurang dari lebih dari 1,5 jam menjadi sekitar 40 menit.

QApa yang diukur oleh metrik MRU dan MTU yang diperkenalkan dalam proyek ini, dan apa implikasinya?

AMRU (Mean Robot Utilization) mengukur persentase waktu robot benar-benar menjalankan eksperimen. MTU (Mean Token Utilization) mengukur efisiensi agen dalam mengubah token (pemikiran) menjadi kemajuan penelitian. MRU yang rendah (<50%) menunjukkan robot banyak menganggur menunggu agen berpikir, jadi peningkatan kecepatan model akan berdampak langsung.

Bacaan Terkait

Gate Research Institute: Analisis Pola Trading dan Strategi Trading Breakout

Analisis pola grafik adalah alat penting dalam analisis teknis untuk mengamati perubahan penawaran dan permintaan pasar, kelanjutan tren, atau pembalikan tren. Pola dapat dibagi menjadi dua kategori utama: pola pembalikan (seperti double top, double bottom, head and shoulders) dan pola kelanjutan (seperti flag, triangle, rectangle). Analisis pola bukan sekadar menghafal bentuk, tetapi melibatkan penilaian menyeluruh terhadap tren, volume, support/resistance, siklus waktu, dan validitas breakout. Trading breakout adalah penerapan langsung dari analisis pola. Breakout yang valid biasanya memerlukan support/resistance yang jelas, konsolidasi yang cukup lama, konteks tren, dan konfirmasi volume. Namun, breakout tidak menjamin pergerakan pasti; false breakout sering terjadi. Oleh karena itu, trader perlu mengelola risiko melalui manajemen posisi, stop-loss, konfirmasi pullback, dan take profit bertahap. Beberapa pola utama yang dibahas termasuk Rectangle, Flag & Pennant, Symmetrical Triangle, Ascending Triangle, Descending Triangle, serta pola Head and Shoulders. Strategi trading mencakup identifikasi sinyal breakout/breakdown yang valid, penentuan titik entry dan stop-loss, serta teknik take profit. Breakout dapat dikategorikan menjadi breakout efektif, breakout dengan pullback, dan false breakout. Konfirmasi tambahan dapat menggunakan indikator seperti volume, konversi support-resistance, serta indikator momentum seperti ATR, Moving Average, Bollinger Bands, dan RSI. Kesimpulannya, pola grafik dan trading breakout memberikan kerangka kerja terstruktur, namun keefektifannya bergantung pada resonasi banyak faktor dan harus diintegrasikan dalam sistem trading yang mencakup manajemen risiko yang ketat.

marsbit8m yang lalu

Gate Research Institute: Analisis Pola Trading dan Strategi Trading Breakout

marsbit8m yang lalu

Joseph Chalom: Ethereum Sedang Menjadi "Lapis Penyelesaian Kepercayaan" Keuangan Global

**Ringkasan: Joseph Chalom - Ethereum Menjadi "Lapisan Penyelesaian Kepercayaan" bagi Keuangan Global** Joseph Chalom, CEO Sharplink dan mantan Kepala Aset Digital BlackRock, menjelaskan transformasi pasar keuangan sebagai "industrialisasi kepercayaan." Berdasarkan pengalamannya selama 20 tahun di BlackRock, ia mengidentifikasi biaya besar dalam membangun kepercayaan di sistem keuangan tradisional—sekitar $9,3 triliun per tahun di AS saja—karena proses yang lambat, fragmentasi basis data, dan waktu penyelesaian yang lama. Chalom berpendapat Ethereum sedang muncul sebagai lapisan penyelesaian kepercayaan global. Jaringannya yang terdesentralisasi, dengan lebih dari 1 juta validator dan catatan ketahanan 10+ tahun, menjamin keaslian transaksi dan identitas. Aset tokenisasi yang beroperasi 24/7 di blockchain akan menggantikan sistem terfragmentasi saat ini, memungkinkan penyelesaian instan. Tiga pilar percepatan ini adalah: 1. **Stablecoin:** Akan berkembang dari jembatan ke crypto menjadi jalur pembayaran lintas batas yang efisien untuk perusahaan dan individu. 2. **Aset Tokenisasi:** Lembaga keuangan besar akan mendorong adopsi besar-besaran, didukung oleh bursa saham yang bergerak menuju perdagangan hampir 24/7. 3. **DeFi:** Protokol terdesentralisasi menyediakan likuiditas dan layanan keuangan yang dapat diakses terus-menerus. Pilar keempat yang mengubah permainan adalah **Keuangan Agen (Agentic Finance)**, di mana agen AI akan secara otonom mengelola keuangan pribadi—seperti "CFO di saku"—dengan memanfaatkan stablecoin dan kontrak pintar untuk eksekusi yang dapat diprogram, meningkatkan hasil investasi.

marsbit9m yang lalu

Joseph Chalom: Ethereum Sedang Menjadi "Lapis Penyelesaian Kepercayaan" Keuangan Global

marsbit9m yang lalu

STRC Mengalami Penurunan Nilai Par yang Parah, Risiko Apa yang Dihargai Pasar?

**Ringkasan:** STRC, saham preferen abadi dari perusahaan berbasis Bitcoin Strategy, telah mengalami penurunan harga signifikan menjadi sekitar $89, jauh dari nilai nominalnya $100. Hal ini kontras dengan peningkatan frekuensi pembayaran dividen menjadi dua minggu sekali, yang seharusnya mendorong harga mendekati nilai nominal. Pasar tampaknya menilai ulang risiko instrumen berpendapatan tinggi yang didukung cadangan BTC ini. Beberapa faktor yang berpotensi menyebabkan dislokasi harga meliputi: 1. **Liquidasi Perdagangan Carry:** Investor yang menggunakan leverage (meminjam dana murah untuk membeli aset berbunga tinggi) mungkin dipaksa menjual karena penurunan harga, memicu spiral penjualan. 2. **Integrasi DeFi:** Tokenisasi STRC ke dalam protokol seperti Apyx dan Pendle meningkatkan efisiensi modal tetapi juga mempercepat dan memperbesar penyesuaian harga melalui mekanisme pinjam-meminjam dan leverage di pasar kripto. 3. **Persaingan Produk Baru:** Munculnya produk serupa seperti SATA dari Strive yang menawarkan yield lebih tinggi dan pembayaran harian menggeser kerangka acuan, mengurangi kelangkaan STRC. 4. **Pertanyaan Arus Kas:** Meskipun memiliki cadangan BTC besar (cukup untuk membayar dividen selama ~31.6 tahun), pasar membedakan antara kekuatan neraca dan arus kas operasional yang stabil untuk pembayaran dividen rutin. Penurunan ini menjadi uji tekanan bagi mekanisme penambatan (peg) STRC ke $100. Kemampuan Strategy untuk memperbaiki harga melalui penyesuaian dividen atau langkah lain, serta penstabilan posisi leverage, akan menentukan apakah diskon saat ini adalah kesalahan pasar sementara atau awal dari premi risiko baru yang berkelanjutan.

marsbit19m yang lalu

STRC Mengalami Penurunan Nilai Par yang Parah, Risiko Apa yang Dihargai Pasar?

marsbit19m yang lalu

Harga LIT Mencapai Rekor Tertinggi Setengah Tahun, Berapa Lama Bahan Bakar Roda Gila Pembelian Kembali Dapat Bertahan?

**LIT Mencapai Harga Tertinggi dalam 6 Bulan, Berapa Lama Bahan Bakar Roda Repo Dapat Bertahan?** Lighter, sebuah bursa kontrak berlanjut terdesentralisasi, mencatat harga tertinggi baru untuk token LIT pada 18 Juni, mencapai lebih dari $1,9. Saat ini, harga telah stabil di sekitar $1,6. Sejak TGE pada Desember 2025, 25% pasokan total 1 miliar token telah beredar, sementara 75% lainnya masih terkunci, memberikan jeda dari tekanan penjualan. Mekanisme repurchase (beli kembali) menjadi inti penangkapan nilai Lighter. Protokol secara otomatis menggunakan semua pendapatan dari biaya perdagangan untuk membeli token LIT di pasar terbuka. Sejauh ini, sekitar 15 juta LIT (6% pasokan yang beredar) telah dibeli kembali, memberikan tekanan beli yang konsisten. Untuk mendukung likuiditas, Lighter memiliki LLP (Lighter Liquidity Pool), yang bertindak sebagai "rumah" bagi pedagang. Penyetor LLP juga diharuskan mempertaruhkan LIT, menciptakan permintaan tambahan. Saat ini, TVL LLP mendekati $98,4 juta, sementara pool staking LIT menampung lebih dari 123 juta token. Meski demikian, tantangan tetap ada. Volume perdagangan Lighter turun sepanjang tahun 2026, dan secara signifikan lebih rendah dibandingkan pesaing utama, Hyperliquid. Hyperliquid juga memiliki keunggulan dalam hal perluasan ekosistem (termasuk pasar prediksi dan RWA), dukungan institusional (seperti ETF spot di AS), dan sorotan dari tokoh berpengaruh seperti Arthur Hayes. Lighter membedakan diri melalui teknologi ZK, biaya 0 untuk pedagang ritel, dan mekanisme repurchase yang transparan. Namun, keberlanjutan roda repurchasenya sangat bergantung pada peningkatan volume perdagangan dan pendapatan protokol. Masa depan LIT akan ditentukan oleh kemampuannya menumbuhkan pangsa pasar dan mengadopsi inovasi produk di tengah persaingan ketat dari raksasa seperti Hyperliquid.

Foresight News41m yang lalu

Harga LIT Mencapai Rekor Tertinggi Setengah Tahun, Berapa Lama Bahan Bakar Roda Gila Pembelian Kembali Dapat Bertahan?

Foresight News41m yang lalu

Anthony Scaramucci Tunjukkan Sinyal Bottom Bitcoin, Merujuk pada RSI Rendah dan Apati Ritel

Anthony Scaramucci, pendiri SkyBridge Capital, menyatakan sinyal potensi titik terendah (bottom) Bitcoin dengan merujuk pada sentimen rendah dan keapatanan (apathy) dari pasar retail. Ia mengungkapkan masih memiliki Bitcoin dalam jumlah besar dan tetap optimis, memperkirakan rally kuat akan dimulai akhir kuartal keempat 2026 atau awal 2027. Argumen utamanya didasarkan pada beberapa faktor: minat pencarian yang lemah, permintaan tipis, sentimen yang tertekan, dan kondisi Relative Strength Index (RSI) yang rendah. Scaramucci melihat keapatanan pasar ini justru sebagai sinyal kontrarian untuk akumulasi, di mana pasar yang tipis dapat bergerak agresif dengan sedikit guncangan permintaan. Namun, klaim mengenai RSI memerlukan kehati-hatian. Meski RSI mingguan Bitcoin saat ini rendah, belum tentu mencapai level terendah sepanjang masa seperti pada siklus bear market sebelumnya (contohnya 2018). Analisis bottom yang kuat biasanya memerlukan kombinasi dengan struktur harga, volume, dan data on-chain lainnya. Intinya, skenario ini menarik bagi investor bullish yang melihat fase apati sebagai periode di mana penjual telah lelah dan ekspektasi rendah, sehingga impuls permintaan berikutnya—dari arus ETF, latar makro yang mendukung, atau pembelian institusional—dapat berdampak lebih besar. Risikonya, fase ketidakpedulian ini bisa berlangsung lebih lama dari perkiraan. Pasar saat ini terbagi, dan Bitcoin memerlukan waktu untuk membuktikan sisi mana yang benar.

bitcoinist50m yang lalu

Anthony Scaramucci Tunjukkan Sinyal Bottom Bitcoin, Merujuk pada RSI Rendah dan Apati Ritel

bitcoinist50m yang lalu

Trading

Spot
Futures
活动图片