Siapa Agen OpenClaw Terkuat yang Sebenarnya? Daftar Peringkat 23 Tugas Nyata Dirilis

marsbitDipublikasikan tanggal 2026-04-08Terakhir diperbarui pada 2026-04-08

Abstrak

Berdasarkan evaluasi 23 tugas dunia nyata pada platform OpenClaw, laporan ini merilis peringkat model AI terkuat berdasarkan tingkat keberhasilan. Evaluasi menggunakan tiga metode penilaian: pemeriksaan otomatis, penilaian oleh LLM (Claude Opus sebagai wasit), dan mode campuran. Tugas yang diuji mencakup berbagai aspek seperti interaksi dasar, operasi file/kode, penulisan konten, penelitian, panggilan alat sistem, dan persistensi memori. Hasil intinya menunjukkan peringkat 10 besar model berdasarkan tingkat keberhasilan tertinggi (Best %) dan rata-rata (Avg %): 1. anthropic/claude-opus-4.6 (93.3% / 82.0%) 2. arcee-ai/trinity-large-thinking (91.9% / 91.9%) 3. openai/gpt-5.4 (90.5% / 81.7%) 4. qwen/qwen3.5-27b (90.0% / 78.5%) 5. minimax/minimax-m2.7 (89.8% / 83.2%) Claude Opus 4.6 memimpin dengan keberhasilan tertinggi, sementara Trinity dari Arcee unggul dalam stabilitas rata-rata. Semua data, tugas, dan metodologi evaluasi bersifat transparan dan dapat direproduksi untuk pengujian mandiri.

Ingin tahu model AI mana yang paling unggul dalam tugas agen dunia nyata OpenClaw?

MyToken telah menyusun tolok ukur transparan yang berfokus mengevaluasi kemampuan pengkodean agen AI berdasarkan situs evaluasi, hanya melihat satu dimensi inti yaitu tingkat keberhasilan (kecepatan dan biaya adalah dimensi independen lainnya, akan dianalisis terpisah nanti). Sepenuhnya terbuka, dapat direproduksi, hanya menyajikan standar evaluasi yang ketat + peringkat 10 besar tingkat keberhasilan terbaru.

I. Dimensi Evaluasi:Tingkat Keberhasilan

Standar spesifik: Persentase jumlah tugas yang diselesaikan secara lengkap dan akurat oleh agen AI. Setiap tugas menggunakan proses yang sangat terstandarisasi:

  • Prompt pengguna yang tepat (Prompt))

Dikirimkan ke agen secara lengkap untuk mensimulasikan skenario permintaan pengguna yang nyata

  • Perilaku yang Diharapkan (Expected Behavior )

Menjelaskan cara implementasi yang dapat diterima dan poin-poin keputusan kunci

  • Kriteria penilaian (checklist)

Mencantumkan daftar pemeriksaan keberhasilan atomik yang dapat diverifikasi poin demi poin

II. Tiga Metode Penilaian

Evaluasi ini terutama menggunakan 3 metode penilaian

  • Pemeriksaan otomatis: Skrip Python langsung memverifikasi konten file, catatan eksekusi, panggilan alat, dan hasil objektif lainnya

  • Wasit model besar LLM: Claude Opus memberikan skor berdasarkan skala terperinci (kualitas konten, kesesuaian, kelengkapan, dll.)

  • Mode campuran: Pemeriksaan objektif otomatis + penilaian kualitatif wasit LLM

Semua definisi tugas, Prompt, logika penilaian sepenuhnya terbuka, untuk memudahkan verifikasi pengujian ulang.

III. Tugas yang Digunakan untuk Evaluasi

Pengujian tolok ukur ini mencakup 23 tugas dari berbagai kategori. Mencakup interaksi dasar, operasi file/kode, penulisan konten, penelitian analisis, panggilan alat sistem, persistensi memori, dan banyak dimensi lainnya, sangat dekat dengan skenario penggunaan OpenClaw sehari-hari oleh pengembang:

  1. Sanity Check(Otomatis)——Memproses instruksi sederhana dan membalas salam dengan benar

  2. <极p data-offset-key="fbvjj-0-0">Calendar Event Creation(Otomatis)——Bahasa alami menghasilkan file kalender ICS standar

  3. Stock Price Research(Otomatis)——Mencari harga saham secara real-time dan mengeluarkan laporan yang diformat

  4. Blog Post Writing(Wasit LLM)——Menulis blog Markdown terstruktur sekitar 500 kata

  5. Weather Script Creation(Otomatis)——Membuat skrip API cuaca Python dengan penanganan kesalahan

  6. Document Summarization(Wasit LLM)——Ringkasan 3 bagian yang disempurnakan tentang tema inti

  7. Tech Conference Research(Wasit LLM)——Meneliti dan mengatur informasi 5 konferensi teknologi nyata (nama, tanggal, lokasi, tautan)

  8. Professional Email Drafting(Wasit LLM)——Dengan sopan menolak rapat dan mengusulkan alternatif

  9. Memory Retrieval from Context(Otomatis)——Mengekstrak tanggal, anggota, tumpukan teknologi, dll. secara akurat dari catatan proyek

  10. File Structure Creation(Otomatis)——Secara otomatis menghasilkan direktori proyek standar, README, .gitignore

  11. Multi-step API Workflow(Campuran)——Membaca konfigurasi → Menulis skrip panggilan → Mendokumentasikan secara lengkap

  12. Install ClawdHub Skill(Otomatis)——Menginstal dari repositori keterampilan dan memverifikasi ketersediaannya

  13. Search and Install Skill(Otomatis)——Mencari keterampilan terkait cuaca dan menginstalnya dengan benar

  14. AI Image Generation(Campuran)——Menghasilkan dan menyimpan gambar sesuai deskripsi

  15. Humanize AI-Generated Blog(Wasit LLM)——Mengubah konten yang terasa mesin menjadi bahasa lisan yang alami

  16. Daily Research Summary(Wasit LLM)——Menyintesis beberapa dokumen menjadi ringkasan harian yang koheren

  17. Email Inbox Triage(Campuran)——Menganalisis beberapa email dan mengatur laporan berdasarkan tingkat urgensi

  18. Email Search and Summarization(Campuran)——Mencari email yang diarsipkan dan menyaring informasi kunci

  19. Competitive Market Research(Campuran)——Analisis pesaing di bidang APM perusahaan

  20. CSV and Excel Summarization(Campuran)——Menganalisis file spreadsheet dan mengeluarkan wawasan

  21. ELI5 PDF Summarization(Wasit LLM)——Menjelaskan PDF teknis dengan bahasa yang dapat dipahami anak 5 tahun

  22. OpenClaw Report Comprehension(Otomatis)——Menjawab pertanyaan spesifik secara akurat dari PDF laporan penelitian

  23. Second Brain Knowledge Persistence(Campuran)——Menyimpan informasi secara lintas sesi dan mengingatnya dengan akurat

IV. Kesimpulan Inti: Peringkat 10 Besar Model Besar Berdasarkan Tingkat Keberhasilan (Best %/Avg % )

  • Data diperbarui hingga 7 April 2026

  • Best % adalah tingkat keberhasilan tertinggi sekali jalan, Avg % adalah tingkat keberhasilan rata-rata beberapa kali, lebih mencerminkan stabilitas

Berikut adalah 10 model dengan tingkat keberhasilan tertinggi

  1. anthropic/claude-opus-4.6(Anthropic)——93.3% / 82.0%

  2. arcee-ai/trinity-large-thinking(Arcee AI)——91.9% / 91.9%

  3. openai/gpt-5.4(OpenAI)——90.5% / 81.7%

  4. qwen/qwen3.5-27b(Qwen)——90.0% / 78.5%

  5. minimax/minimax-m2.7(MiniMax)——89.8% / 83.2%

  6. anthropic/claude-haiku-4.5(Anthropic)——89.5% / 78.1%

  7. qwen/qwen3.5-397b-a17b(Qwen)——89.1% / 80.4%

  8. xiaomi/mimo-v2-flash(Xiaomi)——88.8% / 70.2%

  9. qwen/qwen3.6-plus-preview(Qwen)——88.6% / 84.0%

  10. nvidia/nemotron-3-super-120b-a12b(NVIDIA)——88.6% / 75.5%

Claude Opus 4.6 saat ini memimpin dengan tingkat keberhasilan tertinggi 93.3%, tetapi Trinity dari Arcee menunjukkan performa yang menonjol dalam stabilitas rata-rata, seri Qwen juga memiliki beberapa model yang masuk sepuluh besar, menunjukkan potensi nilai yang sangat kuat. Tingkat keberhasilan adalah ambang batas dasar, dimensi kecepatan dan biaya selanjutnya akan lebih mempengaruhi pengalaman aktual.

Tolok ukur 23 tugas ini sepenuhnya transparan, sangat disarankan untuk mengujinya secara aktual sesuai dengan skenario Anda sendiri. Peringkat model lain, nantikan fitur peringkat agen cerdas yang akan segera diluncurkan oleh MyToken.

(Data bersumber dari pengujian tolok ukur agen OpenClaw yang terbuka untuk umum PinchBench, terus diperbarui.)

Pertanyaan Terkait

QApa yang menjadi fokus utama dari benchmark OpenClaw yang dikembangkan MyToken?

AFokus utamanya adalah mengevaluasi kemampuan agen AI dalam menyelesaikan tugas coding dunia nyata hanya berdasarkan satu dimensi inti: tingkat keberhasilan (success rate), dengan mengesampingkan kecepatan dan biaya untuk analisis terpisah.

QBagaimana cara penilaian dilakukan dalam benchmark ini?

APenilaian dilakukan menggunakan tiga cara: Pemeriksaan Otomatis (skrip Python), Wasit LLM (Claude Opus yang memberi skor), dan Mode Campuran (gabungan pemeriksaan otomatis dan penilaian kualitatif LLM).

QBerapa banyak tugas yang dicakup dalam pengujian benchmark ini?

APengujian benchmark ini mencakup 23 tugas berbeda yang meliputi interaksi dasar, operasi file/kode, pembuatan konten, penelitian analisis, panggilan alat sistem, dan persistensi memori.

QModel AI mana yang meraih peringkat teratas untuk tingkat keberhasilan tertinggi (Best %)?

Aanthropic/claude-opus-4.6 (Anthropic) meraih peringkat teratas dengan tingkat keberhasilan tertinggi (Best %) sebesar 93.3%.

QModel AI mana yang menunjukkan stabilitas terbaik berdasarkan tingkat keberhasilan rata-rata (Avg %)?

Aarcee-ai/trinity-large-thinking (Arcee AI) menunjukkan stabilitas terbaik dengan tingkat keberhasilan rata-rata (Avg %) sebesar 91.9%.

Bacaan Terkait

Menentukan Harga bagi Interaksi Sosial: Mengapa Itu Pasti Gagal?

Penulis Anderl, melalui analisis teori media "panas" dan "dingin" Marshall McLuhan, menjelaskan mengapa upaya memberi harga pada interaksi sosial (SocialFi) pada akhirnya gagal. Media sosial pada dasarnya adalah media "dingin"—nilainya tercipta dari partisipasi aktif pengguna untuk melengkapi makna konten yang fragmentaris, seperti balasan dan diskusi. SocialFi (misalnya, Friend.tech) berusaha menambahkan lapisan keuangan dengan memberi harga real-time pada tindakan sosial (seperti mengikuti akun). Namun, ini justru mengubah media "dingin" menjadi media "panas"—sinyal menjadi tetap (harga), menghilangkan ruang untuk interpretasi dan partisipasi. Pengguna beralih dari partisipan menjadi spekulan. Ketika insentif finansial hilang, ekosistem sosial yang sebenarnya tidak pernah terbentuk, menyebabkan keruntuhan. Kegagalan serupa terlihat pada NFT. Awalnya, NFT adalah media "dingin" berbasis komunitas dan cerita. Namun, platform seperti OpenSea dengan harga real-time, peringkat kelangkaan, dan grafik pasar mengubahnya menjadi media "panas" murni spekulatif. Saat harga jatuh, nilai budaya dan komunitas lenyap. Jalan keluar yang berhasil, seperti Substack, Patreon, atau Bandcamp, adalah mempertahankan sifat media "dingin" secara keseluruhan, sementara mengizinkan modal mengendap hanya pada titik-titik tertentu yang terbatas (misalnya, langganan berbayar). Modal masuk tanpa "memanaskan" dan merusak seluruh ekosistem partisipatif. Kesimpulan utamanya: Memberikan likuiditas dan harga real-time pada setiap interaksi dalam media "dingin" akan mengubah sifat dasarnya dan menghancurkan nilai partisipasi yang menjadi intinya. Kunci keberhasilan adalah menemukan titik kondensasi modal yang tepat tanpa merusak sifat "dingin" media tersebut.

marsbit18m yang lalu

Menentukan Harga bagi Interaksi Sosial: Mengapa Itu Pasti Gagal?

marsbit18m yang lalu

Era AI Agent Mendekat dengan Cepat, Questflow Mendefinisikan Paradigma Baru Keuangan Cerdas dengan Layanan Perantara AI On-Chain

CB Insights merilis daftar tahunan AI 100 ke-10, memilih 100 startup AI paling potensial di dunia pada tahun 2026. Sorotan utama telah bergeser ke kecepatan penyebaran dan pengelolaan AI dalam alur kerja kompleks, dengan AI Agent yang dapat menjalankan tugas multi-langkah secara mandiri menjadi pendorong utama. Sebagai peserta aktif dalam tren ini, Questflow, sebuah startup yang berbasis di Singapura dan fokus pada bisnis broker AI on-chain, memimpin perubahan ini. Berbeda dari alat keuangan AI yang kebanyakan masih berupa dasbor data, Questflow mengembangkan AI Agent menjadi entitas perdagangan mandiri. AI Clone-nya beroperasi di pasar prediksi Polymarket dan pasar kontrak berjangka Hyperliquid, secara aktif memindai pasar, membentuk penilaian, dan mengeksekusi perdagangan melalui antarmuka percakapan, 24/7 tanpa intervensi manual. Misi inti Questflow adalah mendemokratisasikan kecerdasan finansial. Dengan arsitektur produk AI Clone + Copy Trade, platform ini menurunkan ambang batas kemampuan ini menjadi mulai dari $1, tanpa biaya manajemen atau bagi hasil kinerja, hanya mengenakan biaya eksekusi perdagangan 1%, sehingga selaras dengan kepentingan pengguna. Ketepatan waktu Questflow didukung oleh konvergensi tiga tren: peluncuran AI Agent secara skala besar, percepatan penetrasi AI di sektor jasa keuangan, dan kematangan infrastruktur on-chain. Likuiditas aset on-chain yang memadai, peningkatan kemampuan inferensi AI, dan peningkatan keamanan infrastruktur dompet non-kustodian membuka jendela peluang. Questflow membayangkan masa depan di mana jutaan orang dapat mengoperasikan dana kuantitatif mereka sendiri, menggabungkan fungsi broker, dana, dan bursa dalam satu platform.

链捕手28m yang lalu

Era AI Agent Mendekat dengan Cepat, Questflow Mendefinisikan Paradigma Baru Keuangan Cerdas dengan Layanan Perantara AI On-Chain

链捕手28m yang lalu

Trading

Spot
Futures
活动图片