Siapa Agen OpenClaw Terkuat yang Sebenarnya? Daftar Peringkat 23 Tugas Nyata Dirilis

marsbitDipublikasikan tanggal 2026-04-08Terakhir diperbarui pada 2026-04-08

Abstrak

Berdasarkan evaluasi 23 tugas dunia nyata pada platform OpenClaw, laporan ini merilis peringkat model AI terkuat berdasarkan tingkat keberhasilan. Evaluasi menggunakan tiga metode penilaian: pemeriksaan otomatis, penilaian oleh LLM (Claude Opus sebagai wasit), dan mode campuran. Tugas yang diuji mencakup berbagai aspek seperti interaksi dasar, operasi file/kode, penulisan konten, penelitian, panggilan alat sistem, dan persistensi memori. Hasil intinya menunjukkan peringkat 10 besar model berdasarkan tingkat keberhasilan tertinggi (Best %) dan rata-rata (Avg %): 1. anthropic/claude-opus-4.6 (93.3% / 82.0%) 2. arcee-ai/trinity-large-thinking (91.9% / 91.9%) 3. openai/gpt-5.4 (90.5% / 81.7%) 4. qwen/qwen3.5-27b (90.0% / 78.5%) 5. minimax/minimax-m2.7 (89.8% / 83.2%) Claude Opus 4.6 memimpin dengan keberhasilan tertinggi, sementara Trinity dari Arcee unggul dalam stabilitas rata-rata. Semua data, tugas, dan metodologi evaluasi bersifat transparan dan dapat direproduksi untuk pengujian mandiri.

Ingin tahu model AI mana yang paling unggul dalam tugas agen dunia nyata OpenClaw?

MyToken telah menyusun tolok ukur transparan yang berfokus mengevaluasi kemampuan pengkodean agen AI berdasarkan situs evaluasi, hanya melihat satu dimensi inti yaitu tingkat keberhasilan (kecepatan dan biaya adalah dimensi independen lainnya, akan dianalisis terpisah nanti). Sepenuhnya terbuka, dapat direproduksi, hanya menyajikan standar evaluasi yang ketat + peringkat 10 besar tingkat keberhasilan terbaru.

I. Dimensi Evaluasi:Tingkat Keberhasilan

Standar spesifik: Persentase jumlah tugas yang diselesaikan secara lengkap dan akurat oleh agen AI. Setiap tugas menggunakan proses yang sangat terstandarisasi:

  • Prompt pengguna yang tepat (Prompt))

Dikirimkan ke agen secara lengkap untuk mensimulasikan skenario permintaan pengguna yang nyata

  • Perilaku yang Diharapkan (Expected Behavior )

Menjelaskan cara implementasi yang dapat diterima dan poin-poin keputusan kunci

  • Kriteria penilaian (checklist)

Mencantumkan daftar pemeriksaan keberhasilan atomik yang dapat diverifikasi poin demi poin

II. Tiga Metode Penilaian

Evaluasi ini terutama menggunakan 3 metode penilaian

  • Pemeriksaan otomatis: Skrip Python langsung memverifikasi konten file, catatan eksekusi, panggilan alat, dan hasil objektif lainnya

  • Wasit model besar LLM: Claude Opus memberikan skor berdasarkan skala terperinci (kualitas konten, kesesuaian, kelengkapan, dll.)

  • Mode campuran: Pemeriksaan objektif otomatis + penilaian kualitatif wasit LLM

Semua definisi tugas, Prompt, logika penilaian sepenuhnya terbuka, untuk memudahkan verifikasi pengujian ulang.

III. Tugas yang Digunakan untuk Evaluasi

Pengujian tolok ukur ini mencakup 23 tugas dari berbagai kategori. Mencakup interaksi dasar, operasi file/kode, penulisan konten, penelitian analisis, panggilan alat sistem, persistensi memori, dan banyak dimensi lainnya, sangat dekat dengan skenario penggunaan OpenClaw sehari-hari oleh pengembang:

  1. Sanity Check(Otomatis)——Memproses instruksi sederhana dan membalas salam dengan benar

  2. <极p data-offset-key="fbvjj-0-0">Calendar Event Creation(Otomatis)——Bahasa alami menghasilkan file kalender ICS standar

  3. Stock Price Research(Otomatis)——Mencari harga saham secara real-time dan mengeluarkan laporan yang diformat

  4. Blog Post Writing(Wasit LLM)——Menulis blog Markdown terstruktur sekitar 500 kata

  5. Weather Script Creation(Otomatis)——Membuat skrip API cuaca Python dengan penanganan kesalahan

  6. Document Summarization(Wasit LLM)——Ringkasan 3 bagian yang disempurnakan tentang tema inti

  7. Tech Conference Research(Wasit LLM)——Meneliti dan mengatur informasi 5 konferensi teknologi nyata (nama, tanggal, lokasi, tautan)

  8. Professional Email Drafting(Wasit LLM)——Dengan sopan menolak rapat dan mengusulkan alternatif

  9. Memory Retrieval from Context(Otomatis)——Mengekstrak tanggal, anggota, tumpukan teknologi, dll. secara akurat dari catatan proyek

  10. File Structure Creation(Otomatis)——Secara otomatis menghasilkan direktori proyek standar, README, .gitignore

  11. Multi-step API Workflow(Campuran)——Membaca konfigurasi → Menulis skrip panggilan → Mendokumentasikan secara lengkap

  12. Install ClawdHub Skill(Otomatis)——Menginstal dari repositori keterampilan dan memverifikasi ketersediaannya

  13. Search and Install Skill(Otomatis)——Mencari keterampilan terkait cuaca dan menginstalnya dengan benar

  14. AI Image Generation(Campuran)——Menghasilkan dan menyimpan gambar sesuai deskripsi

  15. Humanize AI-Generated Blog(Wasit LLM)——Mengubah konten yang terasa mesin menjadi bahasa lisan yang alami

  16. Daily Research Summary(Wasit LLM)——Menyintesis beberapa dokumen menjadi ringkasan harian yang koheren

  17. Email Inbox Triage(Campuran)——Menganalisis beberapa email dan mengatur laporan berdasarkan tingkat urgensi

  18. Email Search and Summarization(Campuran)——Mencari email yang diarsipkan dan menyaring informasi kunci

  19. Competitive Market Research(Campuran)——Analisis pesaing di bidang APM perusahaan

  20. CSV and Excel Summarization(Campuran)——Menganalisis file spreadsheet dan mengeluarkan wawasan

  21. ELI5 PDF Summarization(Wasit LLM)——Menjelaskan PDF teknis dengan bahasa yang dapat dipahami anak 5 tahun

  22. OpenClaw Report Comprehension(Otomatis)——Menjawab pertanyaan spesifik secara akurat dari PDF laporan penelitian

  23. Second Brain Knowledge Persistence(Campuran)——Menyimpan informasi secara lintas sesi dan mengingatnya dengan akurat

IV. Kesimpulan Inti: Peringkat 10 Besar Model Besar Berdasarkan Tingkat Keberhasilan (Best %/Avg % )

  • Data diperbarui hingga 7 April 2026

  • Best % adalah tingkat keberhasilan tertinggi sekali jalan, Avg % adalah tingkat keberhasilan rata-rata beberapa kali, lebih mencerminkan stabilitas

Berikut adalah 10 model dengan tingkat keberhasilan tertinggi

  1. anthropic/claude-opus-4.6(Anthropic)——93.3% / 82.0%

  2. arcee-ai/trinity-large-thinking(Arcee AI)——91.9% / 91.9%

  3. openai/gpt-5.4(OpenAI)——90.5% / 81.7%

  4. qwen/qwen3.5-27b(Qwen)——90.0% / 78.5%

  5. minimax/minimax-m2.7(MiniMax)——89.8% / 83.2%

  6. anthropic/claude-haiku-4.5(Anthropic)——89.5% / 78.1%

  7. qwen/qwen3.5-397b-a17b(Qwen)——89.1% / 80.4%

  8. xiaomi/mimo-v2-flash(Xiaomi)——88.8% / 70.2%

  9. qwen/qwen3.6-plus-preview(Qwen)——88.6% / 84.0%

  10. nvidia/nemotron-3-super-120b-a12b(NVIDIA)——88.6% / 75.5%

Claude Opus 4.6 saat ini memimpin dengan tingkat keberhasilan tertinggi 93.3%, tetapi Trinity dari Arcee menunjukkan performa yang menonjol dalam stabilitas rata-rata, seri Qwen juga memiliki beberapa model yang masuk sepuluh besar, menunjukkan potensi nilai yang sangat kuat. Tingkat keberhasilan adalah ambang batas dasar, dimensi kecepatan dan biaya selanjutnya akan lebih mempengaruhi pengalaman aktual.

Tolok ukur 23 tugas ini sepenuhnya transparan, sangat disarankan untuk mengujinya secara aktual sesuai dengan skenario Anda sendiri. Peringkat model lain, nantikan fitur peringkat agen cerdas yang akan segera diluncurkan oleh MyToken.

(Data bersumber dari pengujian tolok ukur agen OpenClaw yang terbuka untuk umum PinchBench, terus diperbarui.)

Pertanyaan Terkait

QApa yang menjadi fokus utama dari benchmark OpenClaw yang dikembangkan MyToken?

AFokus utamanya adalah mengevaluasi kemampuan agen AI dalam menyelesaikan tugas coding dunia nyata hanya berdasarkan satu dimensi inti: tingkat keberhasilan (success rate), dengan mengesampingkan kecepatan dan biaya untuk analisis terpisah.

QBagaimana cara penilaian dilakukan dalam benchmark ini?

APenilaian dilakukan menggunakan tiga cara: Pemeriksaan Otomatis (skrip Python), Wasit LLM (Claude Opus yang memberi skor), dan Mode Campuran (gabungan pemeriksaan otomatis dan penilaian kualitatif LLM).

QBerapa banyak tugas yang dicakup dalam pengujian benchmark ini?

APengujian benchmark ini mencakup 23 tugas berbeda yang meliputi interaksi dasar, operasi file/kode, pembuatan konten, penelitian analisis, panggilan alat sistem, dan persistensi memori.

QModel AI mana yang meraih peringkat teratas untuk tingkat keberhasilan tertinggi (Best %)?

Aanthropic/claude-opus-4.6 (Anthropic) meraih peringkat teratas dengan tingkat keberhasilan tertinggi (Best %) sebesar 93.3%.

QModel AI mana yang menunjukkan stabilitas terbaik berdasarkan tingkat keberhasilan rata-rata (Avg %)?

Aarcee-ai/trinity-large-thinking (Arcee AI) menunjukkan stabilitas terbaik dengan tingkat keberhasilan rata-rata (Avg %) sebesar 91.9%.

Bacaan Terkait

Trading

Spot
Futures
活动图片