Siapa Agen OpenClaw Terkuat yang Sebenarnya? Daftar Peringkat 23 Tugas Nyata Dirilis

marsbitDipublikasikan tanggal 2026-04-08Terakhir diperbarui pada 2026-04-08

Abstrak

Berdasarkan evaluasi 23 tugas dunia nyata pada platform OpenClaw, laporan ini merilis peringkat model AI terkuat berdasarkan tingkat keberhasilan. Evaluasi menggunakan tiga metode penilaian: pemeriksaan otomatis, penilaian oleh LLM (Claude Opus sebagai wasit), dan mode campuran. Tugas yang diuji mencakup berbagai aspek seperti interaksi dasar, operasi file/kode, penulisan konten, penelitian, panggilan alat sistem, dan persistensi memori. Hasil intinya menunjukkan peringkat 10 besar model berdasarkan tingkat keberhasilan tertinggi (Best %) dan rata-rata (Avg %): 1. anthropic/claude-opus-4.6 (93.3% / 82.0%) 2. arcee-ai/trinity-large-thinking (91.9% / 91.9%) 3. openai/gpt-5.4 (90.5% / 81.7%) 4. qwen/qwen3.5-27b (90.0% / 78.5%) 5. minimax/minimax-m2.7 (89.8% / 83.2%) Claude Opus 4.6 memimpin dengan keberhasilan tertinggi, sementara Trinity dari Arcee unggul dalam stabilitas rata-rata. Semua data, tugas, dan metodologi evaluasi bersifat transparan dan dapat direproduksi untuk pengujian mandiri.

Ingin tahu model AI mana yang paling unggul dalam tugas agen dunia nyata OpenClaw?

MyToken telah menyusun tolok ukur transparan yang berfokus mengevaluasi kemampuan pengkodean agen AI berdasarkan situs evaluasi, hanya melihat satu dimensi inti yaitu tingkat keberhasilan (kecepatan dan biaya adalah dimensi independen lainnya, akan dianalisis terpisah nanti). Sepenuhnya terbuka, dapat direproduksi, hanya menyajikan standar evaluasi yang ketat + peringkat 10 besar tingkat keberhasilan terbaru.

I. Dimensi Evaluasi:Tingkat Keberhasilan

Standar spesifik: Persentase jumlah tugas yang diselesaikan secara lengkap dan akurat oleh agen AI. Setiap tugas menggunakan proses yang sangat terstandarisasi:

Prompt pengguna yang tepat (Prompt))

Dikirimkan ke agen secara lengkap untuk mensimulasikan skenario permintaan pengguna yang nyata

Perilaku yang Diharapkan (Expected Behavior )

Menjelaskan cara implementasi yang dapat diterima dan poin-poin keputusan kunci

Kriteria penilaian (checklist)

Mencantumkan daftar pemeriksaan keberhasilan atomik yang dapat diverifikasi poin demi poin

II. Tiga Metode Penilaian

Evaluasi ini terutama menggunakan 3 metode penilaian

Pemeriksaan otomatis: Skrip Python langsung memverifikasi konten file, catatan eksekusi, panggilan alat, dan hasil objektif lainnya
Wasit model besar LLM: Claude Opus memberikan skor berdasarkan skala terperinci (kualitas konten, kesesuaian, kelengkapan, dll.)
Mode campuran: Pemeriksaan objektif otomatis + penilaian kualitatif wasit LLM

Semua definisi tugas, Prompt, logika penilaian sepenuhnya terbuka, untuk memudahkan verifikasi pengujian ulang.

III. Tugas yang Digunakan untuk Evaluasi

Pengujian tolok ukur ini mencakup 23 tugas dari berbagai kategori. Mencakup interaksi dasar, operasi file/kode, penulisan konten, penelitian analisis, panggilan alat sistem, persistensi memori, dan banyak dimensi lainnya, sangat dekat dengan skenario penggunaan OpenClaw sehari-hari oleh pengembang:

Sanity Check(Otomatis)——Memproses instruksi sederhana dan membalas salam dengan benar
Calendar Event Creation(Otomatis)——Bahasa alami menghasilkan file kalender ICS standar
Stock Price Research(Otomatis)——Mencari harga saham secara real-time dan mengeluarkan laporan yang diformat
Blog Post Writing(Wasit LLM)——Menulis blog Markdown terstruktur sekitar 500 kata
Weather Script Creation(Otomatis)——Membuat skrip API cuaca Python dengan penanganan kesalahan
Document Summarization(Wasit LLM)——Ringkasan 3 bagian yang disempurnakan tentang tema inti
Tech Conference Research(Wasit LLM)——Meneliti dan mengatur informasi 5 konferensi teknologi nyata (nama, tanggal, lokasi, tautan)
Professional Email Drafting(Wasit LLM)——Dengan sopan menolak rapat dan mengusulkan alternatif
Memory Retrieval from Context(Otomatis)——Mengekstrak tanggal, anggota, tumpukan teknologi, dll. secara akurat dari catatan proyek
File Structure Creation(Otomatis)——Secara otomatis menghasilkan direktori proyek standar, README, .gitignore
Multi-step API Workflow(Campuran)——Membaca konfigurasi → Menulis skrip panggilan → Mendokumentasikan secara lengkap
Install ClawdHub Skill(Otomatis)——Menginstal dari repositori keterampilan dan memverifikasi ketersediaannya
Search and Install Skill(Otomatis)——Mencari keterampilan terkait cuaca dan menginstalnya dengan benar
AI Image Generation(Campuran)——Menghasilkan dan menyimpan gambar sesuai deskripsi
Humanize AI-Generated Blog(Wasit LLM)——Mengubah konten yang terasa mesin menjadi bahasa lisan yang alami
Daily Research Summary(Wasit LLM)——Menyintesis beberapa dokumen menjadi ringkasan harian yang koheren
Email Inbox Triage(Campuran)——Menganalisis beberapa email dan mengatur laporan berdasarkan tingkat urgensi
Email Search and Summarization(Campuran)——Mencari email yang diarsipkan dan menyaring informasi kunci
Competitive Market Research(Campuran)——Analisis pesaing di bidang APM perusahaan
CSV and Excel Summarization(Campuran)——Menganalisis file spreadsheet dan mengeluarkan wawasan
ELI5 PDF Summarization(Wasit LLM)——Menjelaskan PDF teknis dengan bahasa yang dapat dipahami anak 5 tahun
OpenClaw Report Comprehension(Otomatis)——Menjawab pertanyaan spesifik secara akurat dari PDF laporan penelitian
Second Brain Knowledge Persistence(Campuran)——Menyimpan informasi secara lintas sesi dan mengingatnya dengan akurat

IV. Kesimpulan Inti: Peringkat 10 Besar Model Besar Berdasarkan Tingkat Keberhasilan (Best %/Avg % )

Data diperbarui hingga 7 April 2026
Best % adalah tingkat keberhasilan tertinggi sekali jalan, Avg % adalah tingkat keberhasilan rata-rata beberapa kali, lebih mencerminkan stabilitas

Berikut adalah 10 model dengan tingkat keberhasilan tertinggi

anthropic/claude-opus-4.6(Anthropic)——93.3% / 82.0%
arcee-ai/trinity-large-thinking(Arcee AI)——91.9% / 91.9%
openai/gpt-5.4(OpenAI)——90.5% / 81.7%
qwen/qwen3.5-27b(Qwen)——90.0% / 78.5%
minimax/minimax-m2.7(MiniMax)——89.8% / 83.2%
anthropic/claude-haiku-4.5(Anthropic)——89.5% / 78.1%
qwen/qwen3.5-397b-a17b(Qwen)——89.1% / 80.4%
xiaomi/mimo-v2-flash(Xiaomi)——88.8% / 70.2%
qwen/qwen3.6-plus-preview(Qwen)——88.6% / 84.0%
nvidia/nemotron-3-super-120b-a12b(NVIDIA)——88.6% / 75.5%

Claude Opus 4.6 saat ini memimpin dengan tingkat keberhasilan tertinggi 93.3%, tetapi Trinity dari Arcee menunjukkan performa yang menonjol dalam stabilitas rata-rata, seri Qwen juga memiliki beberapa model yang masuk sepuluh besar, menunjukkan potensi nilai yang sangat kuat. Tingkat keberhasilan adalah ambang batas dasar, dimensi kecepatan dan biaya selanjutnya akan lebih mempengaruhi pengalaman aktual.

Tolok ukur 23 tugas ini sepenuhnya transparan, sangat disarankan untuk mengujinya secara aktual sesuai dengan skenario Anda sendiri. Peringkat model lain, nantikan fitur peringkat agen cerdas yang akan segera diluncurkan oleh MyToken.

(Data bersumber dari pengujian tolok ukur agen OpenClaw yang terbuka untuk umum PinchBench, terus diperbarui.)

Pertanyaan Terkait

QApa yang menjadi fokus utama dari benchmark OpenClaw yang dikembangkan MyToken?

AFokus utamanya adalah mengevaluasi kemampuan agen AI dalam menyelesaikan tugas coding dunia nyata hanya berdasarkan satu dimensi inti: tingkat keberhasilan (success rate), dengan mengesampingkan kecepatan dan biaya untuk analisis terpisah.

QBagaimana cara penilaian dilakukan dalam benchmark ini?

APenilaian dilakukan menggunakan tiga cara: Pemeriksaan Otomatis (skrip Python), Wasit LLM (Claude Opus yang memberi skor), dan Mode Campuran (gabungan pemeriksaan otomatis dan penilaian kualitatif LLM).

QBerapa banyak tugas yang dicakup dalam pengujian benchmark ini?

APengujian benchmark ini mencakup 23 tugas berbeda yang meliputi interaksi dasar, operasi file/kode, pembuatan konten, penelitian analisis, panggilan alat sistem, dan persistensi memori.

QModel AI mana yang meraih peringkat teratas untuk tingkat keberhasilan tertinggi (Best %)?

Aanthropic/claude-opus-4.6 (Anthropic) meraih peringkat teratas dengan tingkat keberhasilan tertinggi (Best %) sebesar 93.3%.

QModel AI mana yang menunjukkan stabilitas terbaik berdasarkan tingkat keberhasilan rata-rata (Avg %)?

Aarcee-ai/trinity-large-thinking (Arcee AI) menunjukkan stabilitas terbaik dengan tingkat keberhasilan rata-rata (Avg %) sebesar 91.9%.

Bacaan Terkait

BERITA TERBARU: Donald Trump Berikan Pernyataan Tegas Terkait Iran! Dia Menghentikan Serangan

Presiden AS Donald Trump mengumumkan bahwa Arab Saudi, Uni Emirat Arab, Qatar, dan Iran memintanya untuk menunda serangan militer yang direncanakan. Trump menyatakan bahwa operasi terhadap Iran akan sangat besar dan kuat, namun ia menangguhkan rencana serangan setelah negara-negara di kawasan itu meminta waktu untuk negosiasi diplomatik. Sekutu di kawasan dipercaya mendekati kesepakatan, dengan tahap pertama fokus pada keamanan dan pembukaan kembali Selat Hormuz. Trump menyatakan bahwa begitu hal ini disepakati, perundingan tentang program nuklir Iran akan dimulai. Selat Hormuz merupakan titik transit vital untuk pengangkutan minyak dan LNG dunia, dan konflik militer di wilayah ini dapat berdampak signifikan pada harga energi dan perdagangan global. Trump juga mengumumkan bahwa negosiasi baru dengan Iran akan dimulai besok. Selain itu, ia mengomentari intervensi AS di pasar terkait Yen Jepang, menyatakan bahwa Washington selalu mendukung Tokyo dan juga memperoleh manfaat ekonomi dari aturan terkait.

cryptonews.ru41m yang lalu

BERITA TERBARU: Donald Trump Berikan Pernyataan Tegas Terkait Iran! Dia Menghentikan Serangan

cryptonews.ru41m yang lalu

Bank Italia Tidak Melihat Keunggulan Sistemik Stablecoin dalam Transfer

Studi Bank Italia menunjukkan bahwa stablecoin tidak memberikan keunggulan sistemik yang berkelanjutan dalam hal biaya dan kecepatan transfer uang. Semua keuntungan hilang akibat biaya untuk deposit dan penarikan ke/dari fiat serta proses dalam infrastruktur pembayaran lokal. Peneliti membandingkan transfer 200 USDC di 10 koridor bilateral antara Italia dengan Brasil, Argentina, Jepang, UEA, dan Afrika Selatan. Metriknya adalah biaya total dan waktu penyelesaian dibandingkan layanan uang standar. Biaya akhir transfer stablecoin bervariasi dari 0,3% hingga hampir 9%, tergantung arahnya. Di koridor dengan sistem pembayaran instan, penyelesaian membutuhkan waktu kurang dari 20 menit. Sementara di daerah tanpa infrastruktur tersebut, proses memakan waktu satu hingga dua hari kerja. Biaya dan penundaan utama dikaitkan dengan pertukaran dan konversi mata uang, serta kualitas infrastruktur lokal. Komisi blockchain bukan faktor utama. Rata-rata biaya transfer uang global adalah 6,65%. Di sebagian besar koridor yang diteliti, stablecoin lebih murah dari level ini, namun dibandingkan dengan Wise, stablecoin hanya lebih unggul di tiga dari tujuh rute yang sebanding. Penulis berpendapat efeknya akan lebih terasa jika stablecoin bisa dibelanjakan langsung untuk barang/jasa tanpa konversi ke mata uang lokal. Mereka juga mencatat bahwa rezim regulasi yang melarang tidak menghilangkan permintaan akan "koin stabil", dan aturan yang terlalu ketat justru mempersulit penggunaan oleh klien ritel.

cryptonews.ru1j yang lalu

Bank Italia Tidak Melihat Keunggulan Sistemik Stablecoin dalam Transfer

cryptonews.ru1j yang lalu

Boom Bitcoin Memanas: Pernyataan Baru Saylor Picu Spekulasi Pembelian

Ketua Eksekutif MicroStrategy Inc., Michael Saylor, kembali memicu spekulasi pembelian Bitcoin baru perusahaan setelah memposting pesan "Bitcoin Drive engaged" pada 2 Agustus. Postingan hari Minggu ini disertai dengan pelacak pembelian biasa MicroStrategy, yang sejalan dengan praktik Saylor memberi sinyal perubahan treasury sebelum laporan mingguan. Laporan Saylor menunjukkan bahwa cadangan Bitcoin MicroStrategy adalah 843.775 BTC dengan nilai pasar sekitar $53,25 miliar. Dua penjualan Bitcoin baru-baru ini, total 3.588 BTC, telah mengurangi cadangan dari 847.363 BTC. Penjualan ini, menurut pengajuan SEC, ditujukan untuk mendanai pembayaran saham preferen dan menambah cadangan dolar AS. Perusahaan juga dilaporkan tidak melakukan pembelian Bitcoin dalam minggu yang berakhir 26 Juli, sambil meningkatkan cadangan dolar AS menjadi sekitar $3,75 miliar. Ekspektasi untuk pengumuman treasury pada hari Senin diperkuat oleh pola sebelumnya, di mana sinyal serupa pada hari Minggu mendahului pengungkapan cadangan uang yang lebih besar pada 27 Juli. Pembaruan data hari Senin ini akan menunjukkan apakah MicroStrategy kembali ke akumulasi Bitcoin, karena perusahaan menyeimbangkan cadangan Bitcoinnya yang besar dengan kewajiban tunai yang meningkat dan manajemen modal yang aktif. Risiko keuangan tetap tinggi setelah MicroStrategy melaporkan kerugian operasional $8,33 miliar untuk kuartal II 2026, termasuk kerugian belum terealisasi $8,32 miliar pada aset digitalnya.

cryptonews.ru1j yang lalu

Boom Bitcoin Memanas: Pernyataan Baru Saylor Picu Spekulasi Pembelian

cryptonews.ru1j yang lalu

Pola 'Kepala dan Bahu' pada Grafik Bitcoin Menjanjikan Kenaikan ke $67.200

Meskipun mengalami penurunan lambat di awal Agustus, pola pembalikan mulai terbentuk pada grafik harga Bitcoin. Saat ini, BTC berfluktuasi di sekitar $63.200, membentuk bahu kanan dari pola "head and shoulders" terbalik. Analis TechCharts, Axel Kibbar, melihat ini sebagai satu-satunya alasan nyata untuk optimisme jangka pendek bagi para bull. Pertanyaan utamanya adalah apakah pembeli memiliki kekuatan untuk mendorong BTC ke level kunci $67.000. Sementara itu, dalam pasangan ETH/BTC, pola dasar pembalikan serupa telah berhasil ditembus ke atas. ETH menguat dalam tren naik, menuju target teknis 0.0312, menunjukkan bahwa modal besar saat ini lebih memilih berinvestasi di Ethereum daripada di Bitcoin. Rotasi likuiditas ini menguras BTC dan menghilangkan volume yang dibutuhkan untuk awal yang cepat. Untuk Ethereum terhadap dolar AS, altcoin ini dengan hati-hati menguji level support $1.875. Jika bertahan, jalan terbuka menuju $2.163. Kekuatan relatif ETH ini adalah sinyal positif bagi pasar secara keseluruhan. Namun, bagi pemegang Bitcoin, situasinya tegang: BTC harus dengan cepat mengikuti kenaikan ETH dan melampaui $67.200 untuk mengonfirmasi pembalikan klasik. Menurut Kibbar, jika tidak ada serangan ke garis leher dalam beberapa hari ke depan, bear akan kembali mengendalikan dan mengarahkan BTC ke level support $60.000 dan $58.000.

cryptonews.ru1j yang lalu

Pola 'Kepala dan Bahu' pada Grafik Bitcoin Menjanjikan Kenaikan ke $67.200

cryptonews.ru1j yang lalu

Saham Perusahaan yang Bergerak di Bidang Kecerdasan Buatan Diperdagangkan Seperti 'Meme Coin', Sementara Bitcoin Hampir Tak Berubah Harganya — Tinjauan Mingguan

Tinjauan minggu ini menyoroti dominasi berita pasar saham tradisional dan makroekonomi atas berita kripto. Peringatan keamanan mendesak dikeluarkan untuk pengguna Coldcard terkait potensi kompromi kunci pribadi. Sementara itu, Bitcoin relatif stabil di sekitar $64.000, perhatian pasar justru terfokus pada volatilitas ekstrem di saham AI dan pasar Asia, terutama Korea Selatan yang mengalami penurunan signifikan. Likuidasi besar oleh dana "Situational Awareness" diduga berkontribusi pada penurunan ini. Di sektor kripto, tren bearish berlanjut dengan beberapa perusahaan seperti BitMart dan Storj Labs mengumumkan penutupan atau kebangkrutan. Perusahaan yang masih beroperasi, seperti Coinbase, mengalami tekanan dengan penurunan harga saham dan gelombang PHK di industri. Di sisi lain, MicroStrategy terus menambah cadangan kasnya dan membeli kembali sahamnya. Ekosistem DeFi menghadapi tantangan potensial dari kesuksesan proyek seperti Trade.xyz dan Pump.fun, yang dapat memutuskan untuk beroperasi secara mandiri. Isu perdagangan orang dalam juga mencuat di platform Hyperliquid. Sementara itu, token AI seperti Bittensor (TAO) menarik perhatian investor venture capital, meski disertai peringatan agar investor retail berhati-hati. Artikel ditutup dengan penekanan kembali pada pentingnya kewaspadaan keamanan, khususnya dalam penyimpanan aset kripto secara mandiri, di tengah potensi meningkatnya kerentanan perangkat keras dompet digital.

cryptonews.ru1j yang lalu