Pada bulan April, Anthropic meluncurkan versi pratinjau model Mythos. Model ini tidak dibuka untuk publik, karena dalam pengujian ia menunjukkan kemampuan keamanan siber dan penemuan kerentanan yang sangat kuat, mampu menemukan ribuan kerentanan zero-day berisiko tinggi secara mandiri. Jika bocor, mudah disalahgunakan untuk serangan jahat.
Untuk mengunci kemampuan ini dalam skenario pertahanan, Anthropic meluncurkan Proyek Glasswing (Project Glasswing), yang hanya membuka akses ke 12 mitra keamanan inti seperti Apple, Google, Microsoft, dan lebih dari 40 penyedia infrastruktur kritis, dengan penggunaan yang terkontrol sepenuhnya.
Menguncinya dulu baru merilisnya, serangkaian operasi ini sendiri menciptakan topik pembicaraan.
Dua bulan kemudian, pada dini hari 10 Juni waktu Beijing, Anthropic secara resmi meluncurkan Fable 5 dan Mythos 5.
Dari segi skor benchmark, mereka hampir mendapatkan nilai tertinggi di semua tes patokan, terutama dalam rekayasa perangkat lunak dan eksekusi tugas panjang, membuat jarak yang jelas dengan model lain.
Tapi diskusi seputar model ini, dengan cepat tidak hanya tentang seberapa kuatnya.
Fable 5 dan Mythos 5 sebenarnya berbagi model dasar yang sama. Perbedaannya adalah, Fable 5 ditujukan untuk pengguna biasa, sedangkan Mythos 5 tetap terkunci di tangan mitra keamanan tepercaya. Model yang sama, dua set aturan, untuk dua kelompok, ini adalah pertama kalinya dalam lini produk Anthropic.
Dan, pengguna biasa juga tidak mendapatkan versi lengkapnya. Anthropic menambahkan pengklasifikasi keamanan di lapisan luar Fable 5. Begitu permintaan menyentuh arah sensitif seperti keamanan siber, biokimia, distilasi model, sistem akan secara otomatis beralih ke model generasi sebelumnya yang lebih lemah, Opus 4.8, untuk merespons.
Penetapan harga juga patut diperhatikan, input 10 dolar, output 50 dolar per juta Token, menurut keterangan resmi kira-kira dua kali lipat dari Opus 4.8. Mulai 23 Juni, Fable 5 juga akan dihapus dari paket berlangganan seperti Pro, Max, dll. Pengguna yang ingin terus menggunakannya perlu mengonsumsi credits tambahan.
Serangkaian 'pukulan' ini jika dipisah terlihat masuk akal. Kemampuan terlalu kuat jadi diberi batasan keamanan, biaya lebih tinggi jadi dinaikkan harganya, sensitif terhadap risiko jadi dirilis secara bertingkat. Tapi jika digabungkan, sinyal yang dilepaskan menjadi halus. Ini berbeda dengan logika persaingan perusahaan model besar beberapa tahun terakhir yang mengutamakan kecepatan dan keterbukaan, di mana semua pihak berusaha membuat model mereka menjangkau lebih banyak pengguna, sementara Anthropic memilih untuk secara aktif mempersempit pintu masuk, menjadikan pembatasan sebagai bagian dari strategi produk.
Lalu, apakah model "terkuat" yang diklaim belum pernah ada ini, telah didewakan?
01. Peningkatan Kemampuan Nyata, Penurunan Tingkat Otomatis Jadi Kontroversi
Tingkat demi tingkat, mari lihat seberapa kuat sebenarnya.
Rekayasa perangkat lunak adalah sorotan inti pembaruan Anthropic kali ini. Dalam tes SWE-Bench Pro, Fable 5 mendapat skor 80,3%. Tes ini terutama melihat apakah model dapat menemukan bug di repositori GitHub nyata, memahami konteks, dan menulis kode perbaikan yang dapat digunakan. 80,3% berarti setiap 5 masalah rekayasa nyata, Fable 5 dapat menyelesaikan 4.
Di peringkat Terminal-Bench 2.1, Fable 5 mencetak skor 88,0%, melampaui Codex CLI dari Open AI. Perlu dicatat, Fable 5 adalah model umum, sedangkan Codex CLI adalah alat vertikal yang dibuat khusus untuk skenario pemrograman, perbedaan keduanya lebih mencerminkan kekuatan pemrogramannya.
Tapi yang benar-benar bisa menunjukkan perbedaan adalah FrontierCode Diamond. Tes ini menguji apakah kode yang dihasilkan model dapat mencapai standar kualitas basis kode tingkat produksi. Fable 5 mendapatkan 29,3%, Opus 4.8 hanya 13,4%, GPT-5.5 hanya 5,7%. Ketiga data berasal dari publikasi resmi Anthropic, data GPT-5.5 adalah hasil pengujian internalnya.
Beberapa tahun terakhir, kemampuan model AI menulis kode terus berkembang, tetapi lama tersangkut di hambatan: kode bisa dijalankan, tapi tidak mudah dipelihara; bisa lulus tes patokan, tapi tetap sering bermasalah saat diterapkan di proyek nyata.
Terobosan Fable 5 dalam dimensi ini menunjukkan bahwa Anthropic kali ini tidak hanya meningkatkan kemampuan memecahkan masalah, tetapi juga mendorong model ke arah pengiriman rekayasa yang sebenarnya.
Pemrogram Li Xia (nama samaran) mengatakan kepada "AIX Finance", kode yang dihasilkan AI sangat mudah bermasalah dengan koherensi konteks. Pada tahap awal bisa memahami kebutuhan dengan tepat, mudah melupakan informasi dalam tugas panjang, biaya pemeliharaan tahap akhir sangat tinggi.
Menurutnya, koherensi logis Fable 5 dalam tugas panjang menunjukkan kemajuan yang jelas, tugas pengkodean serupa dapat diselesaikan sekaligus, akurasinya lebih tinggi. Tapi, dibandingkan Opus4.8, kecepatan pembangkitan Fable 5 lebih lambat, rantai pemikirannya lebih panjang, kecepatan respons keseluruhan agak menurun.
Kemampuan visual juga meningkat. Anthropic menyatakan, Fable 5 dapat mengekstrak angka tepat dari bagan ilmiah kompleks, juga dapat merekonstruksi kode sumber aplikasi langsung dari tangkapan layar halaman web. Demo kasus praktek resmi juga ditunjukkan, Fable 5 hanya mengandalkan tangkapan layar permainan "Pokémon FireRed" untuk menembus level, tidak perlu dilengkapi alat bantu. Model generasi sebelumnya saat melakukan tugas serupa, masih perlu dilengkapi dengan sistem bantu yang kompleks.
Tentang konteks panjang dan memori, penjelasan resmi yang diberikan adalah, semakin panjang dan kompleks tugasnya, keunggulan Fable 5 semakin jelas.
Selain itu, ilmu kehidupan adalah arah lain yang ditekankan. Anthropic mengungkapkan model analisis data sel tunggal yang dibangun berdasarkan Mythos 5, mencakup 138 spesies, kinerjanya lebih baik daripada model sejenis yang baru-baru ini diterbitkan "Science", tetapi parameter modelnya hanya seperseratus dari yang terakhir.
Hanya dari skor benchmark, kemampuan komprehensifnya memang naik satu tingkat.
Mari lihat di luar skor benchmark.
Fable 5 dilengkapi dengan pengklasifikasi keamanan. Asalkan permintaan pengguna menyangkut arah keamanan siber, biokimia, atau distilasi model, sistem akan secara otomatis beralih ke Opus 4.8 untuk merespons, dan memberitahu pengguna bahwa terjadi penurunan tingkat model. Menurut keterangan resmi, lebih dari 95% percakapan sehari-hari tidak akan memicunya, tugas seperti menulis, pemrograman, analisis sebagian besar tidak terpengaruh. Namun, pengalaman nyata mungkin berbeda-beda tergantung skenario penggunaan.
Dalam penggunaan nyata, batasan ini sebenarnya mudah terpicu. Li Xia menyebutkan, dia ingin merasakan fungsionalitas AI Siri Apple di Mac di dalam negeri, perlu memodifikasi beberapa parameter nomor seri tingkat sistem, Fable 5 langsung menolak operasi. Saat ini, pengaturan pengklasifikasi relatif konservatif, ada kesalahan penilaian, pihak resmi menyatakan akan terus menyesuaikannya ke depan.
Tapi Anthropic juga mengungkapkan lapisan pembatasan lain. Untuk permintaan terkait pengembangan model besar, seperti membangun alur pra-latihan, merancang infrastruktur pelatihan terdistribusi, dll., model akan secara aktif menurunkan kualitas keluaran di latar belakang, dan tidak akan memberitahu pengguna.
Secara keseluruhan, Fable 5 memang menunjukkan kemajuan dalam berbagai indikator keras, namun mekanisme penurunan otomatis sampai batas tertentu memengaruhi pengalaman penggunaan.
02. Model Terkuat, Tidak Semua Orang Bisa Menggunakannya
Pembaruan model Anthropic kali ini, menggunakan model dasar yang sama, dikemas menjadi dua produk, untuk dua kelompok.
Mythos 5 tetap dalam kerangka Proyek Glasswing, hanya dibuka untuk 12 mitra keamanan inti seperti Apple, Google, Microsoft, dan lebih dari 40 penyedia infrastruktur kunci, pembatasan keamanan siber dan arah biologi dihapus. Fable 5 ditujukan untuk pengguna berlangganan C-end.
Ke depan Anthropic juga berencana membuka saluran tepercaya arah biologi untuk peneliti yang telah melewati audit, menyediakan versi Fable 5 yang telah menghilangkan pembatasan biologi dan kimia.
Ini menyangkut masalah yang belum dihadapi industri model besar sebelumnya. Ketika kemampuan model cukup untuk menemukan kerentanan secara mandiri, rilis penuh menjadi sebuah risiko.
Sumber gambar / pexels
Ini menjelaskan mengapa Fable 5 dan Mythos 5 harus dipisah menjadi dua versi. Dulu pembagian tingkat model bergantung pada parameter, perbedaan ukuran adalah perbedaan kemampuan. Sekarang model dengan parameter yang sama juga harus dibagi tingkat, yang dibagi adalah ambang batas kepercayaan.
Pengembang independen Zhan Bo berpendapat, dari sudut pandang keamanan logika ini sangat masuk akal. Kemampuan penemuan kerentanan tingkat Mythos jika dibuka untuk individu tanpa batasan, akan sangat menurunkan biaya serangan, mudah disalahgunakan untuk serangan jahat. Menguncinya dulu, lalu secara bertahap membuka akses tepercaya, adalah jalur paling aman saat ini.
Tapi keamanan hanya menjelaskan mengapa harus berlapis. Masalah lain adalah, apakah pengguna biasa yang bisa menggunakan Fable 5, semuanya mendapat manfaat darinya?
Dari skor benchmark dan kasus yang dirilis Anthropic, peningkatan kali ini, mengutamakan pelayanan untuk pemrogram dan tim rekayasa.
Zhan Bo menggunakan Fable 5 untuk membantu mengoptimalkan proyek bahasa interpretatif yang ditulisnya dalam Rust. Dalam skenario layanan Web yang setara, dia membandingkannya dengan FastAPI berbasis Python dan Hono berbasis Node.js. Interpreter yang menggunakan Fable 5 hanya menggunakan memori residen 9,8MB, sedangkan FastAPI dan Hono masing-masing 43,3MB dan 63,0MB, indikator throughput dan latensi juga unggul.
Menurutnya, tugas yang sama, menggunakan Fable 5 mungkin cepat selesai, dan hasilnya lebih baik. Dibandingkan dengan harga, pengembang lebih mementingkan kualitas keluaran. Selama model dapat secara signifikan meningkatkan efek proyek, harga tinggi dapat diterima.
Li Xia juga menyebutkan, bagi pemrogram, kualitas hasil model berbanding lurus dengan pendapatan. Semakin tinggi kualitas keluaran, semakin jelas peningkatan efisiensi, imbalannya semakin besar. Peningkatan kemampuan model dapat langsung dikonversi menjadi kualitas proyek dan penghematan waktu, kemauan membayar tentu akan lebih kuat.
Tapi jika berganti skenario penggunaan, kesimpulannya berbeda.
Blogger AI Xu Zilong mengambil penggunaan sehari-harinya sebagai contoh. Pekerjaan sehari-harinya dibagi menjadi menulis kode, melakukan analisis data, dan menulis makalah. Menurutnya, kemampuan kode model besar saat ini berlebihan, kemampuan tulis kurang. Bagi kelompok seperti pekerja riset, pencipta konten, praktisi hukum dan keuangan, kebutuhan inti terhadap AI terkonsentrasi pada pemahaman bahasa Tionghoa, penulisan naskah panjang, dan pemrosesan dokumen.
Zhan Bo menyebutkan, tren saat ini bukan pengguna memilih model, tapi model yang memilih pengguna. Pengguna berat pemrograman disaring oleh model high-end, pengguna ringan sehari-hari didorong ke alternatif yang lebih bernilai. Ini menunjukkan, AI bukan lagi alat yang memakmurkan semua orang, melainkan menyaring lapis demi lapis pengguna dengan kemampuan bayar dan intensitas penggunaan yang berbeda.
Bahkan model terkuat sekalipun, harus berada di tangan orang yang membutuhkan agar bernilai.
03. Era Tidak Mampu Membayar AI, Apakah Akan Tiba?
Penetapan harga API Fable 5 adalah input 10 dolar, output 50 dolar per juta Token, dua kali lipat dari Opus 4.8, dan juga yang termahal di antara model frontier yang tersedia untuk publik secara global saat ini.
Perbandingan harga API model besar mainstream
Tapi yang benar-benar patut diperhatikan bukanlah harganya yang naik dua kali lipat, melainkan cara pembayarannya yang berubah.
Setelah Fable 5 diluncurkan, pengguna berlangganan Pro, Max, Team, dll. dapat menggunakannya secara gratis selama dua minggu. Mulai 23 Juni, model akan dihapus dari paket berlangganan, untuk terus menggunakannya perlu membeli credits tambahan, diselesaikan sesuai tarif API. Menggunakan Fable 5 dalam periode berlangganan, kuota penggunaan yang dikonsumsi juga dua kali lipat dari Opus 4.8.
Coba gratis dulu lalu hapus dari langganan, juga melepaskan sinyal, mendorong pengguna dari biaya bulanan tetap ke pembayaran sesuai pemakaian. Keuntungan sistem berlangganan adalah kepastian, pengguna tahu berapa yang dibayar setiap bulan; pembayaran sesuai pemakaian lebih menguntungkan platform, semakin banyak digunakan semakin banyak bayar, batas atas pengeluaran pengguna terbuka. Singkatnya, Anthropic ingin memberi tahu pengguna: hal tercanggih, seharusnya tidak disewakan bulanan.
Titik waktu terjadinya perubahan ini juga patut diperhatikan. Pada 1 Juni, Anthropic baru saja mengajukan prospektus IPO secara rahasia ke SEC, valuasi mencapai 9650 miliar dolar, target melantai paling awal Oktober tahun ini. Dari awal tahun hingga akhir Mei, pendapatan tahunan Anthropic tumbuh dari 9 miliar dolar menjadi 47 miliar dolar, di mana Claude Code menyumbang lebih dari 2,5 miliar dolar, klien perusahaan menyumbang sebagian besar pendapatan.
Sebuah perusahaan yang akan melantai, perlu membuktikan kemampuan pertumbuhan pendapatan dan hak penetapan harga ke pasar modal. Memisahkan model terkuat dari langganan tetap, membimbing pengguna bernilai tinggi membayar sesuai pemakaian, dari sudut narasi keuangan logikanya masuk akal.
Sementara model domestik Tiongkok sedang melakukan hal yang sebaliknya.
Pada akhir Mei, DeepSeek mengumumkan API V4-Pro turun harga permanen 75%. Xiaomi langsung menyusul, MiMo-V2.5-Pro turun hingga 99%, harganya hampir menyamai DeepSeek.
Satu sisi DeepSeek memukul harga hingga lantai, sisi lain Anthropic mengangkat plafon ke atas, pemain berbeda memiliki strategi berbeda.
Penurunan harga model domestik Tiongkok di satu sisi adalah pelepasan bonus teknologi, arsitektur dasar berubah, ruang yang dihemat digunakan untuk menukar pasar yang lebih besar.
Logika Anthropic justru sebaliknya. Ia tidak perlu merebut pasar dengan harga murah, harga tinggi itu sendiri juga penyaring, meninggalkan pengguna bernilai tinggi yang bersedia membayar untuk kemampuan frontier.
Xu Zilong berpendapat di masa depan AI akan semakin mahal, karena ekspansi permintaan jauh lebih besar daripada ekspansi pasokan, komputasi melibatkan listrik, chip, pelatihan model, pertumbuhannya terlalu lambat. Komputasi AI di masa depan akan menjadi infrastruktur seperti 5G, tetapi berbeda dengan 5G, pasokan komputasi jauh lebih ketat daripada bandwidth, harga pun tumbuh sesuai.
Dari sudut model bisnis, industri AI sedang muncul struktur berlapis mirip awal komputasi awan. Lapisan dasar adalah kemampuan umum yang sangat terstandarisasi, harganya mendekati nol, siapa pun bisa memanggil, menghasilkan uang dari volume besar; lapisan atas adalah kemampuan frontier yang dikuasai sedikit produsen, hak penetapan harga terkonsentrasi, menghasilkan uang dari harga per klien. Harga kemampuan umum akan terus ditekan, namun premium kemampuan frontier akan tetap ada untuk waktu lama.
Dari pembagian tingkat kemampuan hingga pembayaran berlapis, industri AI sedang menyalin jalan yang pernah ditempuh komputasi awan. Model murah semakin banyak, model terbaik semakin mahal.
*Atas permintaan responden, nama Li Xia dalam artikel adalah nama samaran.
Artikel ini berasal dari akun WeChat "AIX Finance", penulis: Lei Jing, editor: Jin Yufan









