Baru saja, Claude Sonnet 5 datang!
Kode nama Fennec, rubah Fennec, rubah terkecil di Gurun Sahara.
Ini adalah model Sonnet dengan kemampuan Agent terkuat dari Anthropic sejauh ini, dan performanya mendekati model flagship Opus 4.8.
Mulai hari ini, Sonnet 5 menjadi model default untuk semua pengguna Free dan Pro.


Ia mampu merencanakan secara mandiri, memanggil browser, dan menggunakan alat terminal.
Hanya beberapa bulan lalu, ini masih membutuhkan biaya besar untuk memanggil model super besar. Sekarang, Sonnet dengan mudah meraihnya.
Dibandingkan dengan generasi sebelumnya Sonnet 4.6, Sonnet 5 menunjukkan peningkatan performa yang signifikan dalam tugas penalaran, penggunaan alat, pemrograman, dan pekerjaan berbasis pengetahuan.
Poin penting:
Skor SWE-bench Pro 63.2%, melampaui GPT-5.5 yang 58.6%, sedikit kalah dari Opus 4.8 yang 69.2%
Skor 'Ujian Terakhir Manusia' 57.4%, hanya selisih 0.5 poin persentase dengan Opus 4.8
Harga standar per juta token input $3/output $15, hanya enam puluh persen dari Opus 4.8
Pertahanan injeksi browser 0.93%, mengalahkan Mythos 5 dan Opus 4.8

Yang menarik, Fable 5 juga diungkapkan akan kembali di hari yang sama. Namun imbalannya adalah verifikasi identitas wajib, dan kemungkinan besar hanya untuk pengguna AS.
Sementara Sonnet 5 mengusung tema tanpa batasan, pengguna global bisa langsung menggunakannya hari ini.

Menyamai Opus 4.8 di Semua Lini, Serangan Dadakan AI Pekerja Terkuat
Kali ini, peluncuran mendadak Sonnet 5 juga mengisi kekosongan kekecewaan orang-orang yang tidak bisa menggunakan Fable 5.
Bagi banyak pengembang, tahun pertama era Agent dimulai dari Sonnet.
Claude Sonnet 3.5, 3.6, 3.7, adalah model-model pertama yang menunjukkan kemampuan luar biasa dalam menulis kode dan menggunakan alat.
Dengan kata lain, urusan 'membuat AI bekerja sendiri' yang pertama kali berjalan lancar adalah seri Sonnet 'ukuran sedang' ini.
Tapi selama lebih dari setahun ini, lompatan kemampuan terhebat terkonsentrasi di garis flagship Opus. Sonnet, langsung tertinggal di belakang.
Tugas Sonnet 5 adalah menutup kesenjangan ini!
Anthropic memberi penegasan dengan satu kalimat — Claude Sonnet 5 adalah Sonnet paling 'bekerja' sepanjang masa.
Dilihat dari hasil performa nyata, inilah yang paling menjelaskannya.

Di bidang pemrograman yang menjadi kekuatan tradisional, Sonnet 5 meraih 63.2% di SWE-bench Pro. Sementara generasi sebelumnya Sonnet 4.6 hanya 58.1%, dan Opus 4.8 masih memimpin sementara dengan 69.2%.
Sebagai perbandingan, pesaing lama OpenAI, flagship GPT-5.5 hanya mendapat 58.6% di daftar yang sama, dan Gemini 3.5 Flash dari Google juga hanya 55.1%.
Terminal-Bench 2.1 bahkan lebih garang, Sonnet 5 langsung melesat ke 80.4%, meninggalkan jauh Sonnet 4.6 yang hanya 67.0%, melonjak 13 poin persentase. Jarak dengan Opus 4.8 yang 82.7%, kurang dari 2 poin.
Di benchmark penalaran lintas disiplin yang dijuluki 'Ujian Terakhir Manusia' (Humanity's Last Exam), Sonnet 5 dengan alat meraih 57.4%, Opus 4.8 adalah 57.9%, selisih hanya 0.5 poin persentase. GPT-5.5 dalam tes yang sama hanya 52.2%, Gemini 3.1 Pro adalah 51.4%.
Dalam hal kemampuan mengontrol komputer, skor Sonnet 5 di OSWorld-Verified adalah 81.2%, juga melampaui GPT-5.5 yang 78.7%, mendekati Opus 4.8 yang 83.4%.
Yang lebih mengejutkan adalah pekerjaan berbasis pengetahuan, Sonnet 5 bahkan mendapat skor 1618 di GDPval-AA v2, langsung melampaui Opus 4.8 yang 1615.
Dalam performa pencarian agen cerdas dan penggunaan alat, Sonnet 5 mampu menyediakan kemampuan setara Opus 4.8 dengan biaya terendah.


Bisa dikatakan, hampir di setiap benchmark, Sonnet 5 berada di interval 90% hingga 100% dari Opus 4.8.
Layaknya membeli otak Opus sembilan puluh persen, dengan harga Sonnet.
Promo Terbatas $2, Tapi Ada Jebakan Besar
Harga, adalah 'senjata pamungkas' kali ini.
Dalam hal penetapan harga API, Anthropic memberikan promo besar untuk waktu terbatas: input $2 per juta tokens, output $10 per juta tokens.
Setelah tanggal 31 Agustus, harga akan kembali ke harga asli $3 untuk input dan $15 untuk output.
Sebagai perbandingan, Opus 4.8 adalah $5 dan $25, GPT-5.5 versi standar adalah $5 dan $30.
Selama periode promo, harga input dan output hanya empat puluh persen dari Opus 4.8. Setelah kembali ke harga standar, hanya enam puluh persen.

Namun, meski Anthropic tampak sangat tulus, ada detail kecil yang tersembunyi.
Alasannya adalah Sonnet 5 menggunakan tokenizer baru yang sama sekali berbeda, jumlah token untuk input yang sama bisa membengkak 1.0 hingga 1.35 kali.
Saat periode promo berakhir, harga asli $3/$15 ditambah efek pembengkakan tokenizer, pengeluaran uang sungguhan pasti akan lebih menyakitkan sedikit dibandingkan menggunakan Sonnet 4.6.
Tapi meski begitu, dibandingkan dengan Opus, perbedaannya tetap sangat besar.
Mengalahkan Semua Flagship Keluarga
System Card menyimpan sisi Sonnet 5 yang paling diremehkan.
Tingkat keberhasilan serangan injeksi prompt 0.19%, sejajar dengan Opus 4.8. GPT-5.5 adalah 3.08%, Gemini 3.5 Flash adalah 6.66%.

Dalam pertahanan injeksi browser, tingkat keberhasilan serangan hanya 0.93%, sementara Mythos 5 adalah 29.7%, Opus 4.8 adalah 31.5%.
Model mid-range seharga $2, mengalahkan semua flagship keluarga, turun langsung ke 0% setelah langkah perlindungan diaktifkan.
Dalam injeksi kode berbahaya, tingkat keberhasilan serangan Sonnet 4.6 mencapai 45.26%, Sonnet 5 turun menjadi 0.29%, perbaikan 150 kali lipat.
Dalam tes pemanfaatan kerentanan Firefox 147, Mythos 5 mampu menulis 88.4% exploit yang dapat digunakan, Opus 4.8 adalah 8.8%, Sonnet 5 adalah 0.0%. Mampu menulis kode bisnis tingkat tinggi, tetapi tidak bisa menulis satu program eksploitasi yang dapat digunakan.

Efek sampingnya adalah skor perilaku tidak selaras 2.53 (skala 10), lebih baik dari Sonnet 4.6 yang 2.89, tetapi lebih tinggi dari Opus 4.8 yang 2.10 dan Mythos Preview yang 1.95.
Menjadi lebih kuat, juga menjadi lebih berpendirian.

Bukan Mengejar Mahkota, Fokus Menyerang Posisi Menengah
Sonnet 5 berada di posisi yang sangat tepat, kemampuan ke atas mendekati Opus 4.8 dan GPT-5.5, harga ke bawah mendekati level Gemini 3.5 Flash.
OpenAI baru saja menggandakan harga dibandingkan generasi sebelumnya, Anthropic langsung menekan harga masuk Sonnet 5 menjadi $3.
Bagi para pengembang yang sebelumnya ragu-ragu membayar untuk flagship, sekarang ada opsi pengganti yang sangat mematikan.
Saat semua orang fokus menyerang puncak, Anthropic menembak di posisi menengah.
Dompet Pengembang, Malam Ini Telah Memberikan Suara
Sekarang, performa Sonnet 5 sudah masuk ke wilayah flagship, sebagian besar pekerjaan memperbaiki bug, melengkapi tes, melakukan refactoring bisa diselesaikan sekali jalan.
Kesulitan dulu merasa Opus terlalu mahal tidak tega pakai, Sonnet tidak cukup baik, hari ini hilang.
Harganya lebih menguntungkan. Anggaran yang sama dulu hanya bisa menjalankan satu Agent setara Opus, sekarang bisa menjalankan dua sampai tiga Sonnet secara paralel.
Ambang batas biaya arsitektur multi-Agent, ditendang rendah oleh Sonnet 5.
Kapan Fable 5 benar-benar kembali masih menjadi misteri.
Tapi Sonnet 5 saat ini telah berdiri dengan kokoh di sini, performanya langsung menekan ambang pintu Opus.
Bagi sebagian besar pengembang, dialah Claude yang paling tangguh dan paling mudah digunakan di tangan untuk jangka waktu yang cukup lama ke depan.
Referensi:
https://x.com/claudeai/status/2072017450611142835
https://www.anthropic.com/news/claude-sonnet-5
Artikel ini berasal dari akun WeChat publik "新智元", penulis: ASI启示录





