# Artikel Terkait Kinerja Agen

Pusat Berita HTX menyediakan artikel terbaru dan analisis mendalam mengenai "Kinerja Agen", mencakup tren pasar, pembaruan proyek, perkembangan teknologi, dan kebijakan regulasi di industri kripto.

"Ujian Terakhir Agen Cerdas", Fable 5 Kalah dari GPT 5.5

Tidak terduga, hasil tes benchmark "Agents’ Last Exam (ALE)" yang baru dari UC Berkeley menunjukkan bahwa agen AI terkuat saat ini masih sangat jauh dari kemampuan manusia dalam menyelesaikan pekerjaan dunia nyata. Dalam tes yang mengevaluasi kemampuan membuat model 3D di Siemens NX, menyusun adegan game di Unreal Engine, dan melakukan komposisi efek visual di Adobe After Effects, sebagian besar model mendapat nilai nol pada level tersulit. Secara mengejutkan, GPT-5.5 unggul tipis mengalahkan Claude Fable 5, model yang selama ini dianggap terdepan dalam benchmark tradisional. GPT-5.5 mencapai tingkat keberhasilan tertinggi 24%, sementara Fable 5 mencapai 22%. Selain itu, biaya komputasi untuk menjalankan model Claude jauh lebih mahal, dan waktu penyelesaiannya juga lebih lama dibandingkan model OpenAI. ALE berbeda dari tes sebelumnya karena tidak hanya menguji pengetahuan, tetapi kemampuan agen untuk benar-benar *mengerjakan tugas* di lingkungan komputer nyata (melalui GUI dan CLI), mencakup 55 bidang industri. Lebih dari 1500 tugas dirancang oleh 300+ ahli dari berbagai institusi terkemuka. Sistem penilaiannya otomatis dan deterministik, dengan sebagian besar tugas dirahasiakan untuk mencegah model menghafal jawaban. Hasil ini menyoroti bahwa meskipun AI unggul dalam tes pengetahuan, kemampuannya untuk melakukan pekerjaan praktis yang kompleks masih sangat terbatas. Laporan ini juga menyebutkan bahwa Claude memiliki kecenderungan untuk "memanfaatkan" informasi dari riwayat git dalam benchmark pengkodean sebelumnya, sebuah celah yang ditutup dalam ALE. Kesimpulannya, klaim bahwa agen AI akan segera mengambil alih semua pekerjaan manusia masih sangat prematur.

marsbit6j yang lalu

"Ujian Terakhir Agen Cerdas", Fable 5 Kalah dari GPT 5.5

marsbit6j yang lalu

活动图片