Ingin tahu model AI mana yang paling unggul dalam tugas agen dunia nyata OpenClaw?
MyToken telah menyusun tolok ukur transparan yang berfokus mengevaluasi kemampuan pengkodean agen AI berdasarkan situs evaluasi, hanya melihat satu dimensi inti yaitu tingkat keberhasilan (kecepatan dan biaya adalah dimensi independen lainnya, akan dianalisis terpisah nanti). Sepenuhnya terbuka, dapat direproduksi, hanya menyajikan standar evaluasi yang ketat + peringkat 10 besar tingkat keberhasilan terbaru.
I. Dimensi Evaluasi:Tingkat Keberhasilan
Standar spesifik: Persentase jumlah tugas yang diselesaikan secara lengkap dan akurat oleh agen AI. Setiap tugas menggunakan proses yang sangat terstandarisasi:
-
Prompt pengguna yang tepat (Prompt))
Dikirimkan ke agen secara lengkap untuk mensimulasikan skenario permintaan pengguna yang nyata
-
Perilaku yang Diharapkan (Expected Behavior )
Menjelaskan cara implementasi yang dapat diterima dan poin-poin keputusan kunci
-
Kriteria penilaian (checklist)
Mencantumkan daftar pemeriksaan keberhasilan atomik yang dapat diverifikasi poin demi poin
II. Tiga Metode Penilaian
Evaluasi ini terutama menggunakan 3 metode penilaian
-
Pemeriksaan otomatis: Skrip Python langsung memverifikasi konten file, catatan eksekusi, panggilan alat, dan hasil objektif lainnya
-
Wasit model besar LLM: Claude Opus memberikan skor berdasarkan skala terperinci (kualitas konten, kesesuaian, kelengkapan, dll.)
-
Mode campuran: Pemeriksaan objektif otomatis + penilaian kualitatif wasit LLM
Semua definisi tugas, Prompt, logika penilaian sepenuhnya terbuka, untuk memudahkan verifikasi pengujian ulang.
III. Tugas yang Digunakan untuk Evaluasi
Pengujian tolok ukur ini mencakup 23 tugas dari berbagai kategori. Mencakup interaksi dasar, operasi file/kode, penulisan konten, penelitian analisis, panggilan alat sistem, persistensi memori, dan banyak dimensi lainnya, sangat dekat dengan skenario penggunaan OpenClaw sehari-hari oleh pengembang:
-
Sanity Check(Otomatis)——Memproses instruksi sederhana dan membalas salam dengan benar
- <极p data-offset-key="fbvjj-0-0">Calendar Event Creation(Otomatis)——Bahasa alami menghasilkan file kalender ICS standar
-
Stock Price Research(Otomatis)——Mencari harga saham secara real-time dan mengeluarkan laporan yang diformat
-
Blog Post Writing(Wasit LLM)——Menulis blog Markdown terstruktur sekitar 500 kata
-
Weather Script Creation(Otomatis)——Membuat skrip API cuaca Python dengan penanganan kesalahan
-
Document Summarization(Wasit LLM)——Ringkasan 3 bagian yang disempurnakan tentang tema inti
-
Tech Conference Research(Wasit LLM)——Meneliti dan mengatur informasi 5 konferensi teknologi nyata (nama, tanggal, lokasi, tautan)
-
Professional Email Drafting(Wasit LLM)——Dengan sopan menolak rapat dan mengusulkan alternatif
-
Memory Retrieval from Context(Otomatis)——Mengekstrak tanggal, anggota, tumpukan teknologi, dll. secara akurat dari catatan proyek
-
File Structure Creation(Otomatis)——Secara otomatis menghasilkan direktori proyek standar, README, .gitignore
-
Multi-step API Workflow(Campuran)——Membaca konfigurasi → Menulis skrip panggilan → Mendokumentasikan secara lengkap
-
Install ClawdHub Skill(Otomatis)——Menginstal dari repositori keterampilan dan memverifikasi ketersediaannya
-
Search and Install Skill(Otomatis)——Mencari keterampilan terkait cuaca dan menginstalnya dengan benar
-
AI Image Generation(Campuran)——Menghasilkan dan menyimpan gambar sesuai deskripsi
-
Humanize AI-Generated Blog(Wasit LLM)——Mengubah konten yang terasa mesin menjadi bahasa lisan yang alami
-
Daily Research Summary(Wasit LLM)——Menyintesis beberapa dokumen menjadi ringkasan harian yang koheren
-
Email Inbox Triage(Campuran)——Menganalisis beberapa email dan mengatur laporan berdasarkan tingkat urgensi极p>
-
Email Search and Summarization(Campuran)——Mencari email yang diarsipkan dan menyaring informasi kunci
-
Competitive Market Research(Campuran)——Analisis pesaing di bidang APM perusahaan
-
CSV and Excel Summarization(Campuran)——Menganalisis file spreadsheet dan mengeluarkan wawasan
-
ELI5 PDF Summarization(Wasit LLM)——Menjelaskan PDF teknis dengan bahasa yang dapat dipahami anak 5 tahun
-
OpenClaw Report Comprehension(Otomatis)——Menjawab pertanyaan spesifik secara akurat dari PDF laporan penelitian
-
Second Brain Knowledge Persistence(Campuran)——Menyimpan informasi secara lintas sesi dan mengingatnya dengan akurat
IV. Kesimpulan Inti: Peringkat 10 Besar Model Besar Berdasarkan Tingkat Keberhasilan (Best %/Avg % )
-
Data diperbarui hingga 7 April 2026
-
Best % adalah tingkat keberhasilan tertinggi sekali jalan, Avg % adalah tingkat keberhasilan rata-rata beberapa kali, lebih mencerminkan stabilitas
Berikut adalah 10 model dengan tingkat keberhasilan tertinggi
-
anthropic/claude-opus-4.6(Anthropic)——93.3% / 82.0%
-
arcee-ai/trinity-large-thinking(Arcee AI)——91.9% / 91.9%
-
openai/gpt-5.4(OpenAI)——90.5% / 81.7%
-
qwen/qwen3.5-27b(Qwen)——90.0% / 78.5%
-
minimax/minimax-m2.7(MiniMax)——89.8% / 83.2%
-
anthropic/claude-haiku-4.5(Anthropic)——89.5% / 78.1%
-
qwen/qwen3.5-397b-a17b(Qwen)——89.1% / 80.4%
-
xiaomi/mimo-v2-flash(Xiaomi)——88.8% / 70.2%
-
qwen/qwen3.6-plus-preview(Qwen)——88.6% / 84.0%
-
nvidia/nemotron-3-super-120b-a12b(NVIDIA)——88.6% / 75.5%
Claude Opus 4.6 saat ini memimpin dengan tingkat keberhasilan tertinggi 93.3%, tetapi Trinity dari Arcee menunjukkan performa yang menonjol dalam stabilitas rata-rata, seri Qwen juga memiliki beberapa model yang masuk sepuluh besar, menunjukkan potensi nilai yang sangat kuat. Tingkat keberhasilan adalah ambang batas dasar, dimensi kecepatan dan biaya selanjutnya akan lebih mempengaruhi pengalaman aktual.
Tolok ukur 23 tugas ini sepenuhnya transparan, sangat disarankan untuk mengujinya secara aktual sesuai dengan skenario Anda sendiri. Peringkat model lain, nantikan fitur peringkat agen cerdas yang akan segera diluncurkan oleh MyToken.
(Data bersumber dari pengujian tolok ukur agen OpenClaw yang terbuka untuk umum PinchBench, terus diperbarui.)






