Era Auto Research: 47 Tugas Tanpa Jawaban Baku Jadi Daftar Wajib Uji Kemampuan Agent
Di era Auto Research, 47 tugas tanpa jawaban standar kini menjadi patokan wajib untuk mengukur kemampuan Agent AI.
Biasanya, AI Agent tampak serba bisa, namun sebenarnya banyak yang hanya mengandalkan pengetahuan dalam basis data yang sudah ada. Dunia rekayasa nyata lebih keras: stabilitas robot bawah air, batas litium pada baterai, pengendalian kebisingan sirkuit kuantum — masalah-masalah ini tidak memiliki "jawaban sempurna", hanya "optimisasi yang mendekati batas maksimal".
Baru-baru ini, Frontier-Eng Bench dari Einsia AI's Navers lab menghadirkan perubahan paradigma. Alih-alih menguji AI dengan soal pemrograman lama, benchmark ini memberikan sistem "loop rekayasa" yang lengkap: mengusulkan solusi, terhubung ke simulator, menerima umpan balik dan error, memperbaiki parameter, dan menjalankannya kembali.
Dalam 47 tugas lintas disiplin yang menantang, AI harus bertindak seperti insinyur berpengalaman, mencari solusi optimal di antara tiga kendala yang sulit: daya, keamanan, dan kinerja. Ini bukan sekadar kumpulan tes, melainkan gambaran evolusi Agent.
Hasil pengujian menunjukkan bahwa model seperti GPT-5.4 berkinerja cukup stabil, tetapi masih jauh dari menyelesaikan seluruh benchmark. Penelitian ini mengungkap pola penting: peningkatan kinerja AI mengikuti hukum pangkat (power law), di mana kemajuan awal cepat tetapi semakin sulit dan kecil seiring waktu. Selain itu, kedalaman eksplorasi (depth) lebih krusial daripada sekadar menjalankan banyak percobaan paralel (width) untuk mencapai terobosan.
Implikasi jangka panjangnya adalah potensi lahirnya "AI Engineer". Di masa depan, manusia mungkin fokus pada penentuan tujuan dan arahan, sementara AI akan bekerja tanpa lelah untuk mengoptimalkan solusi — menjalankan simulasi, menganalisis hasil, dan melakukan iterasi terus-menerus menuju target yang ditetapkan.
Frontier-Eng Bench menandai langkah menuju sistem AI yang dapat berevolusi secara mandiri dalam loop umpan balik jangka panjang, membawa kita lebih dekat ke era penelitian otomatis (Auto Research) di mana AI aktif berkontribusi dalam memecahkan masalah rekayasa dunia nyata yang kompleks.
marsbit1j yang lalu