Era Auto Research: 47 Tugas Tanpa Jawaban Baku Jadi Daftar Wajib Uji Kemampuan Agent

marsbitDipublikasikan tanggal 2026-05-13Terakhir diperbarui pada 2026-05-13

Abstrak

Di era Auto Research, 47 tugas tanpa jawaban standar kini menjadi patokan wajib untuk mengukur kemampuan Agent AI. Biasanya, AI Agent tampak serba bisa, namun sebenarnya banyak yang hanya mengandalkan pengetahuan dalam basis data yang sudah ada. Dunia rekayasa nyata lebih keras: stabilitas robot bawah air, batas litium pada baterai, pengendalian kebisingan sirkuit kuantum — masalah-masalah ini tidak memiliki "jawaban sempurna", hanya "optimisasi yang mendekati batas maksimal". Baru-baru ini, Frontier-Eng Bench dari Einsia AI's Navers lab menghadirkan perubahan paradigma. Alih-alih menguji AI dengan soal pemrograman lama, benchmark ini memberikan sistem "loop rekayasa" yang lengkap: mengusulkan solusi, terhubung ke simulator, menerima umpan balik dan error, memperbaiki parameter, dan menjalankannya kembali. Dalam 47 tugas lintas disiplin yang menantang, AI harus bertindak seperti insinyur berpengalaman, mencari solusi optimal di antara tiga kendala yang sulit: daya, keamanan, dan kinerja. Ini bukan sekadar kumpulan tes, melainkan gambaran evolusi Agent. Hasil pengujian menunjukkan bahwa model seperti GPT-5.4 berkinerja cukup stabil, tetapi masih jauh dari menyelesaikan seluruh benchmark. Penelitian ini mengungkap pola penting: peningkatan kinerja AI mengikuti hukum pangkat (power law), di mana kemajuan awal cepat tetapi semakin sulit dan kecil seiring waktu. Selain itu, kedalaman eksplorasi (depth) lebih krusial daripada sekadar menjalankan banyak percobaan paralel (width)...

Jika AI dilemparkan ke lokasi proyek yang tidak memiliki jawaban baku, apakah ia masih bisa bertahan?

Selama ini, AI Agent terlihat serba bisa, tetapi sebenarnya kebanyakan hanya "menggali ingatan" dari basis pengetahuan yang sudah diketahui.

Namun dunia teknik yang sesungguhnya adalah kejam: stabilitas robot bawah air, batas dendrit litium pada baterai lithium, kontrol kebisingan pada sirkuit kuantum... Masalah-masalah ini tidak memiliki "nilai sempurna", hanya ada "optimasi yang semakin mendekati batas".

Baru-baru ini, Agent Benchmark yang dirilis oleh Navers lab di bawah Einsia AIFrontier-Eng Bench — secara resmi merobek label "penghafal soal" dari AI.

Tim peneliti tidak meminta AI mengerjakan soal kode usang, melainkan memberinya serangkaian "siklus rekayasa" yang lengkap: mengajukan rencana, terhubung ke simulator, menerima laporan error, mengubah parameter, menjalankan ulang.

Di hadapan 47 tugas lintas disiplin yang menantang ini, AI harus bertindak seperti insinyur berpengalaman, mencari solusi optimal di tengah "segitiga mustahil" antara konsumsi daya, keamanan, dan kinerja.

Ini bukan hanya seperangkat uji, tetapi lebih seperti sebuah pemanasan untuk "evolusi" Agent.

Ketika AI mulai belajar memperbaiki diri melalui umpan balik, era Auto Research di mana "manusia menetapkan tujuan, dan AI kemudian mengiterasi tanpa henti 24 jam sehari", mungkin lebih dekat dari yang kita bayangkan.

AI Mulai Mengerjakan "Pekerjaan Teknis" yang Nyata

Model bahasa besar sebelumnya, lebih mirip seorang jenius akademis.

Anda melempar pertanyaan, ia "menggali ingatan" dari data pelatihan yang masif, lalu merangkainya menjadi jawaban yang terlihat masuk akal.

Dalam mode ini, model bahasa besar pada dasarnya sedang bermain "rangkai kata", bukan memecahkan masalah dunia nyata.

Namun kehadiran Frontier-Eng Bench membuat AI mengerjakan tugas "optimasi rekayasa".

Alurnya berubah menjadi: AI mengajukan rencana, lalu terhubung ke simulator untuk menjalankan eksperimen, kemudian memperoleh umpan balik dan laporan error, memodifikasi parameter dan kode, dan melanjutkan iterasi sampai kinerja terus meningkat.

Dalam sistem loop tertutup ini, peran AI mengalami perubahan kualitatif.

Ingin membuat robot bawah air lebih stabil? AI harus mulai menyesuaikan controller secara otomatis.

Ingin meningkatkan kecepatan lengan robot sedikit lagi? AI harus menjalankan simulasi sendiri.

Dalam arti tertentu, AI telah lepas dari sekadar pemahaman semantik, dan mulai seperti insinyur profesional yang melakukan optimasi berkelanjutan dalam umpan balik lingkungan nyata.

Tempat paling menarik dari Frontier-Eng Bench adalah: yang diujinya bukan apakah AI "menjawab dengan benar", melainkan apakah AI benar-benar bisa terus menjadi lebih kuat.

Karena optimasi rekayasa yang nyata, tidak pernah berupa pilihan ganda, tidak ada jawaban baku yang tunggal.

Ambil contoh pengisian cepat baterai, tujuannya terdengar sederhana — semakin cepat terisi semakin baik, tetapi kenyataannya tidak semudah itu.

AI harus menemukan titik keseimbangan kinerja yang tepat di bawah kendala ketat: suhu tidak boleh meledak, voltase tidak boleh melampaui batas, umur baterai tidak boleh turun terlalu cepat, dan juga harus menghindari pertumbuhan dendrit litium.

Ini berarti AI tidak dapat melewatinya dengan "mengerjakan soal" yang bersifat trik, ia harus menunjukkan daya tahan evolusi berkelanjutan dalam umpan balik jangka panjang.

Mampukah AI melakukan optimasi jangka panjang di lingkungan nyata?

Dari hasilnya, GPT5.4 secara keseluruhan menunjukkan performa paling stabil, tetapi jarak untuk "menyelesaikan" Benchmark ini, masih sangat jauh bagi AI.

Auto Research Masuk Era "Iterasi dan Optimasi"

Tim peneliti mengangkat poin yang sangat menarik dalam makalah mereka:

Kecerdasan yang benar-benar tinggi pada dasarnya bergantung pada loop umpan balik jangka panjang.

Seperti halnya AlphaGo yang mampu mengalahkan Lee Sedol, terletak pada simulasi dan umpan balik instan yang sangat masif di balik setiap keputusannya, bukan pada menghafal pola permainan yang sudah tetap.

Riset sejati juga demikian, laboratorium top tidak bergantung pada ledakan inspirasi sekali saja, melainkan terus-menerus mengajukan hipotesis, menjalankan eksperimen, melihat hasil, mengubah rencana, dan terus mencoba.

Begitu pula dengan optimasi rekayasa, versi pertama seringkali bisa dibuat oleh siapa saja, yang benar-benar sulit adalah lompatan kinerja 1% terakhir itu.

Makna Frontier-Eng Bench terletak pada: ini pertama kalinya mulai menguji "kemampuan iterasi dan optimasi" AI secara sistematis, dan merangkum dua hukum evolusi AI yang hampir kejam.

Hukum pertama: Semakin ke belakang, semakin sulit peningkatannya.

Makalah ini menemukan bahwa frekuensi dan besarnya perbaikan Agent menunjukkan penurunan mengikuti hukum pangkat (power law):

  • Frekuensi perbaikan ∝ 1/jumlah iterasi
  • Besarnya perbaikan ∝ 1/jumlah perbaikan

Sederhananya: beberapa iterasi pertama meningkat paling cepat, kemudian semakin sulit, semakin kecil peningkatannya.

Ini sangat mirip dengan proses pengembangan nyata, versi pertama AI dapat dengan cepat menghabisi banyak "buah yang rendah", tetapi semakin mendekati ke jenuh, bahkan untuk meningkatkan kinerja sedikit saja perlu usaha keras.

Apakah lebih menguntungkan jika membuka beberapa jalur paralel untuk mencoba-coba? Jawabannya tersembunyi dalam hukum kedua.

Hukum kedua: Lebar (breadth) berguna, tetapi kedalaman (depth) lebih penting dan tak tergantikan.

Menjalankan beberapa jalur paralel dapat menghindari kebuntuan, tetapi dengan anggaran tetap, setiap penambahan satu rantai akan mengurangi kedalaman.

Banyak terobosan rekayasa memerlukan akumulasi berkelanjutan dan koreksi terus-menerus, baru akan muncul lompatan struktural, bukan dengan "mencoba beberapa kali lagi".

Ini sebenarnya mengisyaratkan arah pengembangan Agent generasi berikutnya: bukan model yang "menghasilkan jawaban sekali jadi", melainkan sistem yang mampu terus beriterasi dan berevolusi sendiri dalam umpan balik jangka panjang.

Insinyur AI, Mungkin Benar-Benar Akan Datang

Makna mendalam yang sebenarnya dari penelitian ini adalah bahwa ia menguraikan secara awal seperangkat sistem AI yang mulai mendekati siklus rekayasa nyata.

Bayangkan, ketika AI terhubung ke perangkat lunak industri, lingkungan simulasi, sistem CAD, alat desain chip, platform komputasi ilmiah...

Perubahan besar pada modalitas produktivitas sudah di depan mata.

Di laboratorium masa depan, sangat mungkin muncul pembagian kerja seperti ini:

Peneliti manusia bertanggung jawab mengusulkan arah dan tujuan.

Misalnya, "kurangi konsumsi energi komponen ini sebesar 30%", "tekan penggunaan GPU pada forward pass model ini lebih rendah lagi", "tingkatkan stabilitas kontrol robot sedikit lagi", "membuat fidelitas sirkuit kuantum terus mendekati batas", dan sebagainya.

Sedangkan AI bertanggung jawab "mencari jalan dengan gigih", mereka berfokus pada tujuan-tujuan ini, melakukan optimasi berkelanjutan.

Misalnya, secara otomatis menjalankan simulasi dan eksperimen, secara otomatis membaca umpan balik dari verifier dan simulator, lalu terus memodifikasi dan mengoptimasi, beriterasi 24 jam tanpa henti.

Logika evolusi ini membebaskan AI dari identitas "alat bantu", dan mulai seperti tim rekayasa sejati yang menyelesaikan masalah sistem kompleks, dan itu juga tanpa mengenal lelah.

Dan masalah yang diungkapkan oleh Benchmark Frontier-Eng ini sebenarnya juga sangat langsung:

Ketika AI mulai belajar "optimasi jangka panjang", seberapa jauh jaraknya dengan kecerdasan rekayasa yang sesungguhnya?

Judul Makalah: Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

Halaman Proyek: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

Repositori GitHub: https://github.com/EinsiaLab/Frontier-Engineering

Artikel ini berasal dari akun WeChat publik "量子位", penulis: Yun Zhong

Pertanyaan Terkait

QApakah tujuan dari Frontier-Eng Bench yang dikembangkan oleh Navers lab?

ATujuan Frontier-Eng Bench adalah untuk menguji kemampuan AI Agent dalam menyelesaikan tugas-tugas rekayasa dunia nyata yang kompleks, yang tidak memiliki jawaban standar. Benchmark ini menilai kemampuan AI untuk beroperasi dalam siklus umpan balik tertutup—mengusulkan solusi, menjalankan simulasi, menganalisis kesalahan, menyesuaikan parameter, dan mengulangi proses—untuk terus meningkatkan performa secara iteratif, menyerupai cara kerja seorang insinyur profesional.

QApa saja dua 'hukum evolusi' yang ditemukan dalam penelitian Frontier-Eng tentang bagaimana AI meningkatkan performanya?

APenelitian Frontier-Eng menemukan dua pola atau 'hukum evolusi': 1) Semakin lama proses iterasi, peningkatan performa menjadi semakin sulit dan kecil (mengikuti pola peluruhan hukum pangkat). 2) Eksplorasi lebar (mencoba banyak jalur paralel) berguna, tetapi kedalaman (fokus dan iterasi berkelanjutan pada satu jalur) lebih penting untuk mencapai terobosan struktural dalam optimisasi rekayasa.

QApa perbedaan utama antara AI tradisional yang bertindak sebagai 'penghafal' dan AI yang diuji di Frontier-Eng Bench?

AAI tradisional sering bertindak sebagai 'penghafal' atau 'penjawab soal' yang mengambil informasi dari basis data pelatihan untuk memberikan jawaban yang tampak masuk akal. Sebaliknya, AI yang diuji di Frontier-Eng Bench harus beroperasi dalam siklus umpan balik tertutup dengan simulator dunia nyata. AI ini dituntut untuk secara aktif mengusulkan, menguji, menganalisis kesalahan, dan menyempurnakan solusinya secara berulang, menyerupai proses pemecahan masalah seorang insinyur di lapangan.

QDalam konteks artikel, apa yang dimaksud dengan 'Auto Research era'?

A'Auto Research era' mengacu pada visi masa depan di mana AI dapat secara otomatis melakukan penelitian dan pengembangan. Dalam era ini, peran manusia adalah menentukan tujuan dan arah (seperti mengurangi konsumsi energi atau meningkatkan stabilitas), sementara AI akan bekerja tanpa lelah 24/7 untuk mencapainya melalui iterasi berkelanjutan—menjalankan simulasi, menganalisis hasil, dan menyempurnakan parameter atau kode—seperti sebuah tim rekayasa otonom.

QDari hasil pengujian Frontier-Eng Bench, model AI mana yang menunjukkan kinerja paling stabil, dan apa yang disimpulkan tentang kemampuan AI secara keseluruhan?

AMenurut artikel, GPT-5.4 menunjukkan kinerja paling stabil dalam pengujian Frontier-Eng Bench. Namun, kesimpulan keseluruhan adalah bahwa semua model AI masih jauh dari 'menyelesaikan' benchmark ini. Ini menunjukkan bahwa meskipun AI mulai menunjukkan kemampuan optimisasi iteratif, jalan menuju kecerdasan rekayasa yang sebenarnya—yang mampu menyelesaikan masalah dunia nyata yang kompleks tanpa jawaban pasti—masih sangat panjang.

Bacaan Terkait

Gelombang Derivatif 24/7 yang Tak Pernah Berhenti: Kripto Memaksa Keuangan Tradisional 'Mengubah Zona Waktu'

Artikel ini membahas bagaimana pasar kripto yang beroperasi 24/7—tanpa henti di akhir pekan atau hari libur—sedang mendorong perubahan pada sistem keuangan tradisional. Dengan rencana CME Group untuk menawarkan perdagangan derivatif kripto yang diawasi secara regulator selama 24 jam penuh, batas antara pasar kripto dan keuangan konvensional semakin kabur. Fokus utama telah bergeser dari perdagangan aset spot ke derivatif, yang kini mendominasi aktivitas pasar dan menjadi lapisan utama untuk institusi dalam mengelola risiko dan likuiditas. Namun, transaksi yang berkelanjutan ini masih menghadapi tantangan dari sistem penyelesaian (settlement) tradisional yang beroperasi pada hari kerja, menciptakan ketidaksesuaian. Transparansi blockchain publik juga menimbulkan dilema: di satu sisi meningkatkan auditabilitas, di sisi lain menciptakan kerentanan baru dengan memaparkan aliran informasi sensitif perusahaan secara real-time. Oleh karena itu, privasi dan akuntabilitas yang seimbang menjadi komponen kritis infrastruktur pasar berikutnya. Intinya, adopsi kripto institusional tahap selanjutnya tidak hanya tentang aset mana yang diperdagangkan, tetapi tentang kemampuan sistem keuangan untuk mengelola risiko, identitas, privasi, dan penyelesaian dengan kecepatan yang telah dituntut oleh pasar kripto. Keuangan tradisional belajar berjalan mengikuti waktu kripto.

marsbit30m yang lalu

Gelombang Derivatif 24/7 yang Tak Pernah Berhenti: Kripto Memaksa Keuangan Tradisional 'Mengubah Zona Waktu'

marsbit30m yang lalu

Dari 'Menjual Cloud' ke 'Menjual Token': Operator Telekomunikasi Masuk Penuh ke Medan Perang AI

Industri AI mencapai titik balik penting dengan operator telekomunikasi besar China memasuki pasar. Pada 17 Mei, China Telecom mengumumkan paket Token uji coba komersial, dengan harga mulai dari 9,9 RMB per bulan untuk 10 juta token untuk individu/rumah tangga, dan paket bisnis dari 39,9 RMB. China Mobile dan China Unicom juga meluncurkan penawaran serupa. Ini menandai **Token menjadi unit pengukuran layanan komunikasi dasar keempat**, setelah suara, SMS, dan data. Perubahan ini merepresentasikan **rekonstruksi identitas kedua operator dalam 30 tahun**. Dari penyedia cloud pemerintah/perusahaan, mereka bertransformasi menjadi **penyedia layanan akses AI terintegrasi**. Tekanan pasar mendorong perubahan: pangsa operator di pasar AI IaaS menurun, sementara raksasa internet seperti Alibaba dan Tencent sudah menawarkan paket Token yang mudah dipahami. Pertumbuhan pendapatan operator tradisional melambat, sementara layanan AI dan komputasi cerdas menunjukkan momentum kuat (contoh: pertumbuhan 279% untuk China Mobile). Untuk beralih dari "menjual data" ke "menjual Token", operator perlu mengintegrasikan empat elemen inti: **model AI** (menyatukan model umum, industri, dan pihak ketiga), **daya komputasi** (membuat jaringan komputasi cerdas yang dapat dijadwalkan), **aplikasi & agen cerdas** (mengemas kemampuan AI untuk industri spesifik), serta **penagihan & operasi** (menyederhanakan harga melalui paket Token). Mereka membangun "perancah lima lapis": lapisan model, komputasi, aplikasi, penagihan, serta keamanan & kepatuhan. Dengan struktur ini, operator seperti China Telecom telah melayani 37.000 klien. Paket Token berpotensi menjadi **unit pengukuran, penyelesaian, dan operasi baru untuk layanan AI**, membuat kemampuan cerdas dapat diakses dan dibeli seperti utilitas. Tantangan ke depan termasuk menjamin kualitas model, stabilitas agen, penurunan biaya, dan penerimaan pasar. **Kunci kesuksesan adalah mengubah "akses AI" menjadi layanan tingkat telekomunikasi yang terukur, dapat ditagih, dan terjamin.** Jika berhasil, AI dapat menjadi faktor produksi yang digunakan terus-menerus seperti listrik atau air.

marsbit51m yang lalu

Dari 'Menjual Cloud' ke 'Menjual Token': Operator Telekomunikasi Masuk Penuh ke Medan Perang AI

marsbit51m yang lalu

Unitree Lulus IPO, Hangzhou Menang Besar

Hari ini, Unitree Technology resmi lolos persetujuan IPO di Papan STAR pasar modal China, dengan rencana pendanaan sebesar 4,202 miliar yuan untuk pengembangan model robot cerdas dan robot fisik. Ini menandakan perusahaan unggulan "Enam Naga Hangzhou" ini akan menjadi "saham pertama robot humanoid". Di balik kesuksesan ini, ada masa sulit saat pendiri Wang Xingxing dan Unitree kesulitan pendanaan pada 2016-2017, dengan kas perusahaan tersisa hanya ratusan ribu yuan. Di saat kritis 2018, modal pemerintah Hangzhou turun tangan memberikan dukungan kredit 20 juta yuan, membantu perusahaan keluar dari kesulitan dan menyelesaikan transisi kunci dari purwarupa ke produksi massal. Setelah itu, dana induk pemerintah Hangzhou seperti Hangzhou Science Innovation Fund dan Hangzhou Innovation Fund terus mendampingi Unitree melalui 4 putaran pendanaan (B2, B3, C, C+), dari valuasi 3,785 miliar yuan hingga lebih dari 12,7 miliar yuan. Dukungan "modal sabar" ini membantu Unitree mencapai posisi terdepan global di sektor robot berkaki, dengan pendapatan 2025 mencapai 1,699 miliar yuan dan laba bersih hampir 591 juta yuan. Kisah Unitree adalah contoh nyata ekosistem inovasi Hangzhou. Melalui klaster dana industri "3+N" senilai 500 miliar yuan, kota ini menerapkan filosofi investasi dini, jangka panjang, dan pada teknologi keras. Selain Unitree, dana ini juga mendukung perusahaan-perusahaan seperti CloudWalk, BrainCo, dan DeepSeek. Dengan kombinasi dukungan modal, masuknya talenta muda (430.000 mahasiswa pada 2025), dan munculnya 48 unicorn serta 413 calon unicorn, Hangzhou telah bertransformasi menjadi "kota impian" bagi wirausaha, membangun rantai industri yang lengkap di bidang AI, robotika, antarmuka otak-komputer, dan lainnya. Tahun 2025 diperkirakan menjadi tahun IPO bagi banyak perusahaan lokal, dengan lebih banyak kisah sukses seperti Unitree terwujud di Hangzhou.

marsbit54m yang lalu

Unitree Lulus IPO, Hangzhou Menang Besar

marsbit54m yang lalu

Trading

Spot
Futures

Artikel Populer

Cara Membeli ERA

Selamat datang di HTX.com! Kami telah membuat pembelian Caldera (ERA) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli Caldera (ERA) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan Caldera (ERA) AndaSetelah melakukan pembelian, simpan Caldera (ERA) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading Caldera (ERA)Lakukan trading Caldera (ERA) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

731 Total TayanganDipublikasikan pada 2025.07.17Diperbarui pada 2026.06.01

Cara Membeli ERA

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga ERA (ERA) disajikan di bawah ini.

活动图片