Era Auto Research: 47 Tugas Tanpa Jawaban Baku Jadi Daftar Wajib Uji Kemampuan Agent

marsbitDipublikasikan tanggal 2026-05-13Terakhir diperbarui pada 2026-05-13

Abstrak

Di era Auto Research, 47 tugas tanpa jawaban standar kini menjadi patokan wajib untuk mengukur kemampuan Agent AI. Biasanya, AI Agent tampak serba bisa, namun sebenarnya banyak yang hanya mengandalkan pengetahuan dalam basis data yang sudah ada. Dunia rekayasa nyata lebih keras: stabilitas robot bawah air, batas litium pada baterai, pengendalian kebisingan sirkuit kuantum — masalah-masalah ini tidak memiliki "jawaban sempurna", hanya "optimisasi yang mendekati batas maksimal". Baru-baru ini, Frontier-Eng Bench dari Einsia AI's Navers lab menghadirkan perubahan paradigma. Alih-alih menguji AI dengan soal pemrograman lama, benchmark ini memberikan sistem "loop rekayasa" yang lengkap: mengusulkan solusi, terhubung ke simulator, menerima umpan balik dan error, memperbaiki parameter, dan menjalankannya kembali. Dalam 47 tugas lintas disiplin yang menantang, AI harus bertindak seperti insinyur berpengalaman, mencari solusi optimal di antara tiga kendala yang sulit: daya, keamanan, dan kinerja. Ini bukan sekadar kumpulan tes, melainkan gambaran evolusi Agent. Hasil pengujian menunjukkan bahwa model seperti GPT-5.4 berkinerja cukup stabil, tetapi masih jauh dari menyelesaikan seluruh benchmark. Penelitian ini mengungkap pola penting: peningkatan kinerja AI mengikuti hukum pangkat (power law), di mana kemajuan awal cepat tetapi semakin sulit dan kecil seiring waktu. Selain itu, kedalaman eksplorasi (depth) lebih krusial daripada sekadar menjalankan banyak percobaan paralel (width)...

Jika AI dilemparkan ke lokasi proyek yang tidak memiliki jawaban baku, apakah ia masih bisa bertahan?

Selama ini, AI Agent terlihat serba bisa, tetapi sebenarnya kebanyakan hanya "menggali ingatan" dari basis pengetahuan yang sudah diketahui.

Namun dunia teknik yang sesungguhnya adalah kejam: stabilitas robot bawah air, batas dendrit litium pada baterai lithium, kontrol kebisingan pada sirkuit kuantum... Masalah-masalah ini tidak memiliki "nilai sempurna", hanya ada "optimasi yang semakin mendekati batas".

Baru-baru ini, Agent Benchmark yang dirilis oleh Navers lab di bawah Einsia AIFrontier-Eng Bench — secara resmi merobek label "penghafal soal" dari AI.

Tim peneliti tidak meminta AI mengerjakan soal kode usang, melainkan memberinya serangkaian "siklus rekayasa" yang lengkap: mengajukan rencana, terhubung ke simulator, menerima laporan error, mengubah parameter, menjalankan ulang.

Di hadapan 47 tugas lintas disiplin yang menantang ini, AI harus bertindak seperti insinyur berpengalaman, mencari solusi optimal di tengah "segitiga mustahil" antara konsumsi daya, keamanan, dan kinerja.

Ini bukan hanya seperangkat uji, tetapi lebih seperti sebuah pemanasan untuk "evolusi" Agent.

Ketika AI mulai belajar memperbaiki diri melalui umpan balik, era Auto Research di mana "manusia menetapkan tujuan, dan AI kemudian mengiterasi tanpa henti 24 jam sehari", mungkin lebih dekat dari yang kita bayangkan.

AI Mulai Mengerjakan "Pekerjaan Teknis" yang Nyata

Model bahasa besar sebelumnya, lebih mirip seorang jenius akademis.

Anda melempar pertanyaan, ia "menggali ingatan" dari data pelatihan yang masif, lalu merangkainya menjadi jawaban yang terlihat masuk akal.

Dalam mode ini, model bahasa besar pada dasarnya sedang bermain "rangkai kata", bukan memecahkan masalah dunia nyata.

Namun kehadiran Frontier-Eng Bench membuat AI mengerjakan tugas "optimasi rekayasa".

Alurnya berubah menjadi: AI mengajukan rencana, lalu terhubung ke simulator untuk menjalankan eksperimen, kemudian memperoleh umpan balik dan laporan error, memodifikasi parameter dan kode, dan melanjutkan iterasi sampai kinerja terus meningkat.

Dalam sistem loop tertutup ini, peran AI mengalami perubahan kualitatif.

Ingin membuat robot bawah air lebih stabil? AI harus mulai menyesuaikan controller secara otomatis.

Ingin meningkatkan kecepatan lengan robot sedikit lagi? AI harus menjalankan simulasi sendiri.

Dalam arti tertentu, AI telah lepas dari sekadar pemahaman semantik, dan mulai seperti insinyur profesional yang melakukan optimasi berkelanjutan dalam umpan balik lingkungan nyata.

Tempat paling menarik dari Frontier-Eng Bench adalah: yang diujinya bukan apakah AI "menjawab dengan benar", melainkan apakah AI benar-benar bisa terus menjadi lebih kuat.

Karena optimasi rekayasa yang nyata, tidak pernah berupa pilihan ganda, tidak ada jawaban baku yang tunggal.

Ambil contoh pengisian cepat baterai, tujuannya terdengar sederhana — semakin cepat terisi semakin baik, tetapi kenyataannya tidak semudah itu.

AI harus menemukan titik keseimbangan kinerja yang tepat di bawah kendala ketat: suhu tidak boleh meledak, voltase tidak boleh melampaui batas, umur baterai tidak boleh turun terlalu cepat, dan juga harus menghindari pertumbuhan dendrit litium.

Ini berarti AI tidak dapat melewatinya dengan "mengerjakan soal" yang bersifat trik, ia harus menunjukkan daya tahan evolusi berkelanjutan dalam umpan balik jangka panjang.

Mampukah AI melakukan optimasi jangka panjang di lingkungan nyata?

Dari hasilnya, GPT5.4 secara keseluruhan menunjukkan performa paling stabil, tetapi jarak untuk "menyelesaikan" Benchmark ini, masih sangat jauh bagi AI.

Auto Research Masuk Era "Iterasi dan Optimasi"

Tim peneliti mengangkat poin yang sangat menarik dalam makalah mereka:

Kecerdasan yang benar-benar tinggi pada dasarnya bergantung pada loop umpan balik jangka panjang.

Seperti halnya AlphaGo yang mampu mengalahkan Lee Sedol, terletak pada simulasi dan umpan balik instan yang sangat masif di balik setiap keputusannya, bukan pada menghafal pola permainan yang sudah tetap.

Riset sejati juga demikian, laboratorium top tidak bergantung pada ledakan inspirasi sekali saja, melainkan terus-menerus mengajukan hipotesis, menjalankan eksperimen, melihat hasil, mengubah rencana, dan terus mencoba.

Begitu pula dengan optimasi rekayasa, versi pertama seringkali bisa dibuat oleh siapa saja, yang benar-benar sulit adalah lompatan kinerja 1% terakhir itu.

Makna Frontier-Eng Bench terletak pada: ini pertama kalinya mulai menguji "kemampuan iterasi dan optimasi" AI secara sistematis, dan merangkum dua hukum evolusi AI yang hampir kejam.

Hukum pertama: Semakin ke belakang, semakin sulit peningkatannya.

Makalah ini menemukan bahwa frekuensi dan besarnya perbaikan Agent menunjukkan penurunan mengikuti hukum pangkat (power law):

  • Frekuensi perbaikan ∝ 1/jumlah iterasi
  • Besarnya perbaikan ∝ 1/jumlah perbaikan

Sederhananya: beberapa iterasi pertama meningkat paling cepat, kemudian semakin sulit, semakin kecil peningkatannya.

Ini sangat mirip dengan proses pengembangan nyata, versi pertama AI dapat dengan cepat menghabisi banyak "buah yang rendah", tetapi semakin mendekati ke jenuh, bahkan untuk meningkatkan kinerja sedikit saja perlu usaha keras.

Apakah lebih menguntungkan jika membuka beberapa jalur paralel untuk mencoba-coba? Jawabannya tersembunyi dalam hukum kedua.

Hukum kedua: Lebar (breadth) berguna, tetapi kedalaman (depth) lebih penting dan tak tergantikan.

Menjalankan beberapa jalur paralel dapat menghindari kebuntuan, tetapi dengan anggaran tetap, setiap penambahan satu rantai akan mengurangi kedalaman.

Banyak terobosan rekayasa memerlukan akumulasi berkelanjutan dan koreksi terus-menerus, baru akan muncul lompatan struktural, bukan dengan "mencoba beberapa kali lagi".

Ini sebenarnya mengisyaratkan arah pengembangan Agent generasi berikutnya: bukan model yang "menghasilkan jawaban sekali jadi", melainkan sistem yang mampu terus beriterasi dan berevolusi sendiri dalam umpan balik jangka panjang.

Insinyur AI, Mungkin Benar-Benar Akan Datang

Makna mendalam yang sebenarnya dari penelitian ini adalah bahwa ia menguraikan secara awal seperangkat sistem AI yang mulai mendekati siklus rekayasa nyata.

Bayangkan, ketika AI terhubung ke perangkat lunak industri, lingkungan simulasi, sistem CAD, alat desain chip, platform komputasi ilmiah...

Perubahan besar pada modalitas produktivitas sudah di depan mata.

Di laboratorium masa depan, sangat mungkin muncul pembagian kerja seperti ini:

Peneliti manusia bertanggung jawab mengusulkan arah dan tujuan.

Misalnya, "kurangi konsumsi energi komponen ini sebesar 30%", "tekan penggunaan GPU pada forward pass model ini lebih rendah lagi", "tingkatkan stabilitas kontrol robot sedikit lagi", "membuat fidelitas sirkuit kuantum terus mendekati batas", dan sebagainya.

Sedangkan AI bertanggung jawab "mencari jalan dengan gigih", mereka berfokus pada tujuan-tujuan ini, melakukan optimasi berkelanjutan.

Misalnya, secara otomatis menjalankan simulasi dan eksperimen, secara otomatis membaca umpan balik dari verifier dan simulator, lalu terus memodifikasi dan mengoptimasi, beriterasi 24 jam tanpa henti.

Logika evolusi ini membebaskan AI dari identitas "alat bantu", dan mulai seperti tim rekayasa sejati yang menyelesaikan masalah sistem kompleks, dan itu juga tanpa mengenal lelah.

Dan masalah yang diungkapkan oleh Benchmark Frontier-Eng ini sebenarnya juga sangat langsung:

Ketika AI mulai belajar "optimasi jangka panjang", seberapa jauh jaraknya dengan kecerdasan rekayasa yang sesungguhnya?

Judul Makalah: Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

Halaman Proyek: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

Repositori GitHub: https://github.com/EinsiaLab/Frontier-Engineering

Artikel ini berasal dari akun WeChat publik "量子位", penulis: Yun Zhong

Pertanyaan Terkait

QApakah tujuan dari Frontier-Eng Bench yang dikembangkan oleh Navers lab?

ATujuan Frontier-Eng Bench adalah untuk menguji kemampuan AI Agent dalam menyelesaikan tugas-tugas rekayasa dunia nyata yang kompleks, yang tidak memiliki jawaban standar. Benchmark ini menilai kemampuan AI untuk beroperasi dalam siklus umpan balik tertutup—mengusulkan solusi, menjalankan simulasi, menganalisis kesalahan, menyesuaikan parameter, dan mengulangi proses—untuk terus meningkatkan performa secara iteratif, menyerupai cara kerja seorang insinyur profesional.

QApa saja dua 'hukum evolusi' yang ditemukan dalam penelitian Frontier-Eng tentang bagaimana AI meningkatkan performanya?

APenelitian Frontier-Eng menemukan dua pola atau 'hukum evolusi': 1) Semakin lama proses iterasi, peningkatan performa menjadi semakin sulit dan kecil (mengikuti pola peluruhan hukum pangkat). 2) Eksplorasi lebar (mencoba banyak jalur paralel) berguna, tetapi kedalaman (fokus dan iterasi berkelanjutan pada satu jalur) lebih penting untuk mencapai terobosan struktural dalam optimisasi rekayasa.

QApa perbedaan utama antara AI tradisional yang bertindak sebagai 'penghafal' dan AI yang diuji di Frontier-Eng Bench?

AAI tradisional sering bertindak sebagai 'penghafal' atau 'penjawab soal' yang mengambil informasi dari basis data pelatihan untuk memberikan jawaban yang tampak masuk akal. Sebaliknya, AI yang diuji di Frontier-Eng Bench harus beroperasi dalam siklus umpan balik tertutup dengan simulator dunia nyata. AI ini dituntut untuk secara aktif mengusulkan, menguji, menganalisis kesalahan, dan menyempurnakan solusinya secara berulang, menyerupai proses pemecahan masalah seorang insinyur di lapangan.

QDalam konteks artikel, apa yang dimaksud dengan 'Auto Research era'?

A'Auto Research era' mengacu pada visi masa depan di mana AI dapat secara otomatis melakukan penelitian dan pengembangan. Dalam era ini, peran manusia adalah menentukan tujuan dan arah (seperti mengurangi konsumsi energi atau meningkatkan stabilitas), sementara AI akan bekerja tanpa lelah 24/7 untuk mencapainya melalui iterasi berkelanjutan—menjalankan simulasi, menganalisis hasil, dan menyempurnakan parameter atau kode—seperti sebuah tim rekayasa otonom.

QDari hasil pengujian Frontier-Eng Bench, model AI mana yang menunjukkan kinerja paling stabil, dan apa yang disimpulkan tentang kemampuan AI secara keseluruhan?

AMenurut artikel, GPT-5.4 menunjukkan kinerja paling stabil dalam pengujian Frontier-Eng Bench. Namun, kesimpulan keseluruhan adalah bahwa semua model AI masih jauh dari 'menyelesaikan' benchmark ini. Ini menunjukkan bahwa meskipun AI mulai menunjukkan kemampuan optimisasi iteratif, jalan menuju kecerdasan rekayasa yang sebenarnya—yang mampu menyelesaikan masalah dunia nyata yang kompleks tanpa jawaban pasti—masih sangat panjang.

Bacaan Terkait

Wall Street's 'Perburuan Kepatuhan': Migrasi Besar-besaran Cadangan Stablecoin

Dalam sepekan terakhir, beberapa lembaga Wall Street secara bersamaan mempercepat langkah mereka dalam pengembangan dana pasar uang ter-tokenisasi. Pada 12 Mei, JPMorgan Chase mengumumkan peluncuran dana pasar uang ter-tokenisasi kedua mereka, JLTXX, di Ethereum. Di hari yang sama, Payward (induk perusahaan Kraken) menjalin kerja sama strategis dengan Franklin Templeton untuk mengintegrasikan dana ter-tokenisasi seri BENJI ke platform Kraken sebagai alat kolateral dan manajemen kas bagi institusi. Tidak lama sebelumnya, BlackRock kembali mengajukan permohonan kepada SEC untuk dua dana ter-tokenisasi baru, memperdalam kerja samanya dengan Securitize. Serangkaian tindakan ini mencerminkan bahwa antisipasi regulasi mendorong persiapan sisi penawaran dari para institusi besar. Aksi para raksasa keuangan ini menargetkan likuiditas crypto dari berbagai sisi. BlackRock, melalui kemitraan dengan Securitize, berupaya mentransformasi bisnis penyimpanan cadangan stablecoin tradisionalnya secara menyeluruh menjadi aset ter-tokenisasi. JPMorgan, dengan produk JLTXX-nya, mempersiapkan infrastruktur penyelesaian dan cadangan backend untuk bank-bank besar di masa depan jika mereka menerbitkan stablecoin. Sementara itu, kolaborasi Franklin Templeton dan Kraken dengan BENJI bertujuan menyediakan alat manajemen kas berbasis blockchain yang menghasilkan yield dan dapat digunakan sebagai kolateral, mengakali potensi larangan pembayaran bunga pada stablecoin. Langkah-langkah ini sebagian besar dipicu oleh kerangka regulasi yang sedang dibentuk, terutama GENIUS Act yang menetapkan daftar ketat aset cadangan yang memenuhi syarat untuk stablecoin dan melarang pembayaran bunga kepada pemegangnya. Peraturan pelaksanaannya ditargetkan selesai pada 2026. Di sisi lain, CLARITY Act yang sedang dibahas akan mengatur struktur pasar aset digital. Celah antara kedua undang-undang ini—di mana stablecoin dilarang memberi bunga tetapi aset ter-tokenisasi lainnya (seperti dana pasar uang) mungkin tidak—menciptakan peluang bagi produk seperti BENJI. Para pelaku pasar memperkirakan pasar stablecoin dan dana ter-tokenisasi dapat mencapai triliunan dolar dalam beberapa tahun ke depan, mendorong persaingan sengit di antara institusi keuangan tradisional untuk menguasai aliran likuiditas baru ini.

marsbit3j yang lalu

Wall Street's 'Perburuan Kepatuhan': Migrasi Besar-besaran Cadangan Stablecoin

marsbit3j yang lalu

Trading

Spot
Futures

Artikel Populer

Cara Membeli ERA

Selamat datang di HTX.com! Kami telah membuat pembelian Caldera (ERA) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli Caldera (ERA) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan Caldera (ERA) AndaSetelah melakukan pembelian, simpan Caldera (ERA) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading Caldera (ERA)Lakukan trading Caldera (ERA) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

659 Total TayanganDipublikasikan pada 2025.07.17Diperbarui pada 2025.07.17

Cara Membeli ERA

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga ERA (ERA) disajikan di bawah ini.

活动图片