# Artikel Terkait Tolok ukur

Pusat Berita HTX menyediakan artikel terbaru dan analisis mendalam mengenai "Tolok ukur", mencakup tren pasar, pembaruan proyek, perkembangan teknologi, dan kebijakan regulasi di industri kripto.

Era Auto Research: 47 Tugas Tanpa Jawaban Baku Jadi Daftar Wajib Uji Kemampuan Agent

Di era Auto Research, 47 tugas tanpa jawaban standar kini menjadi patokan wajib untuk mengukur kemampuan Agent AI. Biasanya, AI Agent tampak serba bisa, namun sebenarnya banyak yang hanya mengandalkan pengetahuan dalam basis data yang sudah ada. Dunia rekayasa nyata lebih keras: stabilitas robot bawah air, batas litium pada baterai, pengendalian kebisingan sirkuit kuantum — masalah-masalah ini tidak memiliki "jawaban sempurna", hanya "optimisasi yang mendekati batas maksimal". Baru-baru ini, Frontier-Eng Bench dari Einsia AI's Navers lab menghadirkan perubahan paradigma. Alih-alih menguji AI dengan soal pemrograman lama, benchmark ini memberikan sistem "loop rekayasa" yang lengkap: mengusulkan solusi, terhubung ke simulator, menerima umpan balik dan error, memperbaiki parameter, dan menjalankannya kembali. Dalam 47 tugas lintas disiplin yang menantang, AI harus bertindak seperti insinyur berpengalaman, mencari solusi optimal di antara tiga kendala yang sulit: daya, keamanan, dan kinerja. Ini bukan sekadar kumpulan tes, melainkan gambaran evolusi Agent. Hasil pengujian menunjukkan bahwa model seperti GPT-5.4 berkinerja cukup stabil, tetapi masih jauh dari menyelesaikan seluruh benchmark. Penelitian ini mengungkap pola penting: peningkatan kinerja AI mengikuti hukum pangkat (power law), di mana kemajuan awal cepat tetapi semakin sulit dan kecil seiring waktu. Selain itu, kedalaman eksplorasi (depth) lebih krusial daripada sekadar menjalankan banyak percobaan paralel (width) untuk mencapai terobosan. Implikasi jangka panjangnya adalah potensi lahirnya "AI Engineer". Di masa depan, manusia mungkin fokus pada penentuan tujuan dan arahan, sementara AI akan bekerja tanpa lelah untuk mengoptimalkan solusi — menjalankan simulasi, menganalisis hasil, dan melakukan iterasi terus-menerus menuju target yang ditetapkan. Frontier-Eng Bench menandai langkah menuju sistem AI yang dapat berevolusi secara mandiri dalam loop umpan balik jangka panjang, membawa kita lebih dekat ke era penelitian otomatis (Auto Research) di mana AI aktif berkontribusi dalam memecahkan masalah rekayasa dunia nyata yang kompleks.

marsbit05/13 07:29

Era Auto Research: 47 Tugas Tanpa Jawaban Baku Jadi Daftar Wajib Uji Kemampuan Agent

marsbit05/13 07:29

Institusi Masuk ke Pasar Prediksi, Terjebak di Tahap Ketiga

Ringkasan: Pasar prediksi, yang sebelumnya dianggap sebagai bidang pinggiran, kini sedang menuju arus utama. Acara penelitian yang diadakan oleh Kalshi Research menunjukkan minat yang berkembang dari akademisi, eksekutif Wall Street, dan politisi. Meskipun prediksi olahraga masih mendominasi volume perdagangan (mencapai 80%), kategori lain seperti hiburan, crypto, politik, dan budaya tumbuh lebih cepat, menunjukkan pergeseran dari "perdagangan hiburan" menjadi "alat informasi dan manajemen risiko." Pasar prediksi menyediakan benchmark harga real-time untuk peristiwa masa depan, seperti pemilihan umum atau keputusan kebijakan, yang sebelumnya tidak ada. Ini memungkinkan lembaga melakukan lindung nilai secara lebih langsung tanpa perlu mempertimbangkan multiple layer risiko. Adopsi institusional terjadi dalam tiga tahap: 1. Akses data (sudah terjadi, misalnya di kalangan manajer investasi), 2. Integrasi sistem (persetujuan kepatuhan dan edukasi internal), 3. Perdagangan aktual (masih terhambat oleh kebutuhan margin penuh 100%, yang tidak efisien untuk lembaga). Kalshi sedang berupaya memperkenalkan perdagangan margin setelah mendapatkan izin dari NFA. Para ahli memprediksi pasar prediksi akan menjadi alat yang layak untuk lembaga dalam lima tahun ke depan, dan sudah mulai digunakan oleh politisi tingkat tinggi serta diintegrasikan ke dalam model prediksi pemilu. Platform ini menghargai pengetahuan mendalam di bidang tertentu, bukan latar belakang finansial. Pasar prediksi berevolusi menjadi infrastruktur untuk menentukan harga ketidakpastian.

marsbit04/17 02:30

Institusi Masuk ke Pasar Prediksi, Terjebak di Tahap Ketiga

marsbit04/17 02:30

活动图片