Mythos yang telah lama disimpan oleh Anthropic selama dua bulan, akhirnya turun ke bumi—
Model flagship paling kuat sepanjang sejarah mereka, disajikan dalam dua versi: Claude Fable 5 dan Claude Mythos 5.
Fable 5 adalah versi Mythos dengan "jaring pengaman" tambahan, terbuka untuk semua pengguna.
Begitu pertanyaan pengguna memicu pengklasifikasi risiko (misalnya mencoba membuatnya menulis malware), sistem secara otomatis akan menurunkan level dan memanggil Claude Opus 4.8 generasi sebelumnya untuk menjawab.
Mythos 5 adalah versi "Mythos" asli dan penuh, tetapi hanya diberikan kepada sedikit pengguna tepercaya.
Model ini melepas batasan keamanan di bidang seperti keamanan siber, dan situs web resmi menyebutnya memiliki "kemampuan murni terdepan di dunia dalam serangan dan pertahanan keamanan siber serta penelitian biologi".
Secara resmi dinyatakan, waktu operasi mandiri Fable 5 dan Mythos 5 lebih lama daripada model Claude mana pun sebelumnya.
Menghela napas kecil? AI terdepan, mulai memasuki era perizinan.
Dan itu terjadi hanya dua hari setelah Anthropic secara serius menyerukan agar semua penelitian AI segera dihentikan......
Tidak mengerti mengapa Dario juga mulai menempuh jalan lama Sam Altman yang setiap kali mempromosikan model baru, produk baru mereka lebih awal, dan dengan skala yang cukup besar pula.
(Saya tahu Anthropic punya alasannya sendiri, tetapi saya tetap memberikan senyuman).
Tapi tetap ada kabar yang menggembirakan bagi pengembang di luar aspek teknis, harga API untuk dua flagship baru ini langsung memotong lebih dari setengah dari harga versi preview sebelumnya:
Hanya $10 per juta Token input, $50 per juta Token output.
Baiklah, mari kita dengan cepat masuk ke bagian teknis terkait, ayo—
Dual Version Mythos Tiba! Resmi Menyoroti "Efisiensi Token"
Pertama, beri tahu sebuah situasi.
Dalam catatan rilis resmi dan evaluasi industri, tidak seperti pengenalan Fable 5, untuk Mythos 5 tidak ada daftar panjang benchmark standar dan terbuka (seperti MMLU, GSM8K, SWE-bench, dll.) yang dicantumkan.
Namun mengingat keduanya adalah model dengan dasar yang sama, sebenarnya mereka dapat dianggap sebagai "cerminan" dari inti yang sama, dengan indikator teknis dasar yang sepenuhnya identik.
Jadi untuk sementara kita hanya bisa melihat kinerja Fable 5 yang terutama dipublikasikan melalui saluran resmi saat ini.
Menurut pernyataan Anthropic sendiri, Claude Fable 5 adalah Claude publik terkuat saat ini, dan juga pertama kalinya seri Fable memasuki tingkat kemampuan Mythos.
Keunggulannya terutama terkonsentrasi pada beberapa arah: rekayasa perangkat lunak, pekerjaan pengetahuan kompleks, visual, konteks panjang, kemampuan memori, serta penelitian ilmu kehidupan.
Yang lebih krusial adalah, semakin panjang dan kompleks tugasnya, semakin jelas keunggulan Fable5 dibandingkan Claude sebelumnya—menunjukkan bahwa fokus Fable5 bukanlah membuat pertanyaan jawaban tunggal lebih cantik, tetapi mampu menangani tugas siklus panjang.
Mari kita gunakan data dan Demo keras untuk mengurai kekuatan dominasi model tingkat mitos generasi ini:
Rekayasa Perangkat Lunak: Tolak Ukur Kesulitan Tinggi Ditembus, dari "Perbaikan Bug" ke "Pasukan Otomatis Penuh"
Dalam evaluasi SWE-bench Pro yang mengukur kemampuan model menyelesaikan masalah rekayasa perangkat lunak kompleks di dunia nyata, Claude Fable 5 mencetak skor tinggi 80,3%.
Sebagai perbandingan, model utama pesaing, GPT-5.5, mencetak skor 58,6%.
Dalam evaluasi Frontier Code Cognition—evaluasi ini lebih menekankan apakah model dapat menyelesaikan tugas pemrograman sulit sekaligus memenuhi standar basis kode produksi berkualitas tinggi—Fable 5 mendapatkan skor tertinggi di antara model frontier bahkan dalam intensitas penalaran sedang.
Benchmark FrontierCode ini sangat sulit untuk mencapai saturasi.
Namun bahkan dalam mode "usaha sedang (Medium effort)", skor Fable 5 tetap tertinggi di antara semua model frontier.
Contoh kasus pertama yang diberikan resmi berasal dari Stripe.
Dalam sebuah basis kode Ruby dengan 50 juta baris, Fable 5 menyelesaikan migrasi seluruh basis. Pekerjaan ini jika dilakukan secara manual oleh sebuah tim teknik, awalnya membutuhkan waktu lebih dari dua bulan.
Fable 5? Hanya butuh satu hari.
Selain itu, pada tolok ukur pengembangan front-end ujung-ke-ujung ViBench (Vibe-coding benchmark), Fable 5 hampir langsung memenuhi kasus penggunaan pengembangan dasar, mencapai generasi aplikasi "one-shot" yang sesungguhnya.
Visual Asli: Tanpa Scaffolding, Bermain Game "Pokémon" Buta
Media teknologi terkenal VentureBeat dalam artikelnya "Anthropic brings Mythos to the masses with Claude Fable 5, its most powerful generally available model ever" mengungkapkan, pada tes tolok ukur GDPpdf yang berfokus pada penalaran file visual, Fable 5 dan Mythos 5 meraih skor 29,8% tanpa menggunakan alat eksternal.
Sebagai perbandingan, Opus 4.8 mencetak skor 22,5%, GPT-5.5 24,9%, dan Gemini 3.1 Pro 16,7%.
Anthropic secara resmi juga menduga bahwa melihat banyak data akan membosankan, sehingga merilis Demo Fable 5 bermain game, yang memberikan efek visual lebih langsung.
Model Claude sebelumnya jika ingin memainkan game RPG "Pokémon FireRed", harus dilengkapi dengan serangkaian "scaffolding" yang sangat kompleks di eksternal (termasuk bantuan navigasi peta, pembacaan status memori game, dll.).
Sekarang, Fable 5 mencapai "buta visual asli murni".
Hanya dengan tangkapan layar game mentah satu per satu, tanpa modifikasi peta apa pun, ia sepenuhnya secara mandiri menyimpulkan, merencanakan strategi, dan memainkan game hingga selesai.
Lebih dari itu, karena konsentrasi urutan superpanjangnya, ketika dikonfigurasi dengan memori tingkat file yang persisten, saat memainkan game kartar roguelike "Slay the Spire", kinerjanya langsung melonjak 3 kali lipat, kemungkinan mencapai bintang akhir juga melonjak 3 kali lipat.
Konteks Panjang dan Kemampuan Memori Ditingkatkan, Sekaligus Menekankan "Efisiensi Token"
Konteks panjang dan kemampuan memori juga menjadi fokus peningkatan kali ini.
Anthropic menyatakan, Fable 5 dapat tetap fokus dalam tugas jangka panjang jutaan Token, dan dapat menggunakan catatannya sendiri untuk meningkatkan output.
Resmi menguji dengan SlaytheSpire, setelah model diberi akses ke memori file persisten, peningkatan kinerja Fable5 tiga kali lipat dari Opus4.8, frekuensi mencapai bab akhir juga meningkat tiga kali lipat.
Ini sebenarnya adalah bagian yang sangat mendasar dalam kemampuan Agen.
AI yang dapat bekerja lama, harus dapat mengingat apa yang telah dilakukannya, apa yang terlewatkan, mengapa langkah selanjutnya dilakukan seperti itu. Tanpa memori yang stabil, tugas mandiri dengan mudah berubah menjadi adegan kehilangan memori besar-besaran.
Untuk itu Anthropic juga secara khusus menekankan efisiensi Token (ini juga merupakan arah kunci model generasi ini).
Semakin lama model dapat bekerja mandiri, semakin banyak Token yang akan dikonsumsi.
Jika di satu sisi model sangat kuat, di sisi lain sangat "boros kata", biaya dengan cepat akan menjadi sangat tinggi hingga menyulitkan perusahaan.
Penekanan Fable 5 pada efisiensi Token, pada dasarnya adalah menyelesaikan masalah pembukuan dalam implementasi Agen.
Keuangan, Hukum, dan Operasional: Lubang Hitam Logika yang Pertama Kali Menembus Batas 90%
Dalam tes tolok ukur keuangan Hebbia (Finance Benchmark for senior-level reasoning) yang menguji kemampuan penalaran analitis tingkat lanjut, Fable 5 meraih skor tertinggi di industri.
Dalam penalaran dokumen panjang, interpretasi bagan dan tabel kompleks, serta analisis akar penyebab multi-langkah, Fable 5 mencapai pertumbuhan lompatan dua digit.
Dalam pengujian nyata perusahaan perdagangan kuantitatif besar IMC dan Optiver, Fable 5 hampir mengambil seluruh bobot evaluasi analisis perdagangan mereka (termasuk pengambilan fakta, penalaran konseptual, dan perhitungan nilai yang diharapkan), dan menunjukkan stabilitas yang menakjubkan—dalam beberapa kali menjalankan berulang, skor hasil output sepenuhnya konsisten.
Platform analisis data Hex memberikan evaluasi seperti ini:
Fable 5 adalah model pertama dalam industri yang menembus batas skor 90% pada tolok ukur analisis inti kami (mencakup tugas analisis siklus panjang yang sangat kompleks), 10 poin persentase lebih tinggi dari Opus. Dalam pertanyaan paling sulit, ia menunjukkan penilaian mikro setara ahli manusia.
Penelitian Terdepan: Mythos Versi Penuh "Mengalahkan" Model 100 Kali Lebih Besar
Dalam penelitian fisika terdepan, perusahaan rintisan VibeCAD dan lembaga penelitian fisika menguji menunjukkan bahwa Fable 5 hanya menggunakan 1/3 Token penalaran, dan dalam 36 jam menghasilkan hasil penelitian fisika yang mendekati kinerja GPT-5.5 yang membutuhkan waktu empat hari.
Serta Myhtos yang masih sedikit disembunyikan akhirnya muncul di bagian ini.
Anthropic menyatakan, di bidang biofarmasi, Mythos 5 versi penuh tanpa bantuan manusia sama sekali, sudah dapat secara mandiri menjalankan seluruh alur kerja seorang ahli biologi: memilih situs pengikatan protein, secara mandiri menjadwalkan dan menjalankan berbagai alat bioinformatika, bahkan Debug sendiri saat mengalami kegagalan eksekusi.
Dari 14 kompleks protein target yang dirancangnya, 9 telah masuk ke dalam saluran pengembangan obat nyata di laboratorium.
Anthropic juga menekankan, Mythos 5 adalah "model pertama kami yang secara konsisten dapat menghasilkan hipotesis ilmiah baru dan menarik".
Dalam perbandingan langsung buta dengan model seri Opus, ilmuwan dalam 80% kasus lebih memilih hipotesis biologi molekuler Mythos, dan beberapa hipotesis telah dimajukan ke tahap verifikasi eksperimental.
Sementara itu, satu hipotesis Mythos—mekanisme baru tentang protein Escherichia coli—dikonfirmasi dalam penelitian laboratorium independen lain yang meneliti masalah yang sama "A newly identified detoxification system protects uropathogenic Escherichia coli from reactive chlorine species".
Lebih ekstrem lagi dalam penelitian genomik, Mythos 5 bekerja mandiri selama lebih dari seminggu, menyatukan data sel tunggal dari 138 spesies, dan secara mandiri merancang serta melatih sebuah model pembelajaran mesin mini khusus.
Model mini yang dilatih oleh AI ini, dengan volume 100 kali lebih kecil, secara langsung mengalahkan hasil penelitian terbaru yang baru saja diterbitkan di majalah "Science".
Setelah Menyerukan Penghentian Penelitian AI, "Kemampuan Berbahaya" Tampaknya Dijadikan Mekanisme Produk
Tempat paling menarik kali ini, seharusnya adalah jaring pengaman yang dipasang Anthropic untuk Fable 5.
Tepatnya, Fable 5 memiliki satu set pengklasifikasi independen di belakangnya.
Pengklasifikasi ini akan mendeteksi apakah permintaan pengguna melibatkan serangan keamanan siber, risiko biologi dan kimia, serta distilasi model.
Begitu terpicu, Fable 5 akan menolak menjawab sendiri, kemudian secara otomatis meneruskan permintaan ke Claude Opus 4.8, dan memberi tahu pengguna bahwa telah terjadi penurunan level.
Agak menarik ya.
Model besar sebelumnya di bidang keamanan, biasanya membuat model menolak, mengatakan hal seperti "Maaf, saya tidak dapat membantu Anda", "Maaf saya tidak bisa menjawab", "Maaf saya tidak mengerti maksud Anda", dan sebagainya.
Fable 5 mengambil pendekatan berbeda.
Ia tidak melakukan penolakan sederhana lagi, tetapi melakukan perutean model.
Pertanyaan umum ditangani oleh Fable 5, begitu teridentifikasi ada pertanyaan berisiko tinggi, model segera dialihkan ke Opus4.8.
Maksud Anthropic adalah, Opus4.8 sendiri juga model yang kuat, pengalaman jawaban tingkat lebih rendah tentu lebih baik daripada langsung ditolak, kan?~
Desain ini sebenarnya memisahkan kemampuan dan keamanan.
Yang Anda gunakan sehari-hari adalah kemampuan tingkat Mythos.
Tapi ketika menghadapi beberapa pertanyaan sensitif, ofensif, upaya jailbreak, dll., Anthropic dengan mulus beralih ke model versi lama untuk melayani Anda, membuat alat yang nyaman di tangan Anda tiba-tiba menjadi kurang nyaman.
(Terutama untuk mencegah beberapa masalah di bidang keamanan siber, biokimia, dan distilasi model)
Anthropic memberikan data—
Kabar baik, lebih dari 95% sesi Fable 5 tidak memicu penurunan level.
Artinya, untuk sebagian besar tugas menulis, kode, analisis, penelitian, dan kantor, pengalaman yang didapatkan pengguna pada dasarnya mendekati Mythos 5.
Tapi masih ada kurang dari 5% permintaan sisanya, yang akan masuk ke jalur keamanan yang lebih ketat.
Situs web resmi menunjukkan, ada tiga kategori utama bidang berisiko tinggi.
Kategori pertama adalah keamanan siber, kedua adalah biologi dan kimia, ketiga adalah distilasi model.
Mekanisme ini sebenarnya adalah perubahan bentuk produk model terdepan.
Keamanan tidak lagi hanya pernyataan tanggung jawab sebelum model menjawab, atau hanya deskripsi kebijakan yang tertulis di kartu sistem.
Ia berubah menjadi arsitektur produk yang terdiri dari pengklasifikasi, perutean model, tingkat izin, penyimpanan data, dan pengujian tim merah bersama-sama.
Tentu, konsekuensinya datang.
Pengklasifikasi Fable 5 diatur cukup konservatif, permintaan normal juga mungkin terkena dampak negatif.
Misalnya, ahli biologi yang meneliti virus, insinyur keamanan yang melakukan latihan serangan dan pertahanan yang berwenang, mungkin memicu penurunan level dalam tugas yang wajar.
Anthropic sendiri juga mengakui, bahwa penghalang saat ini lebih ketat daripada kondisi ideal, dan akan mengurangi tingkat kesalahan di kemudian hari.
Biaya lain adalah penyimpanan data.
Mulai dari Fable 5, Mythos 5, dan model setara berikutnya, Anthropic mengharuskan semua lalu lintas model tingkat Mythos disimpan selama 30 hari, mencakup skenario penggunaan pihak pertama dan pihak ketiga.
Resmi menekankan bahwa data ini tidak akan digunakan untuk pelatihan, hanya untuk pemantauan keamanan, termasuk mengidentifikasi serangan kompleks, jailbreak baru, dan serangan lintas permintaan.
Bagi pengguna biasa, ini mungkin hanya satu baris dalam ketentuan.
Tapi bagi pelanggan perusahaan, ini adalah masalah tata kelola data yang sangat nyata.
Ingin menggunakan kemampuan terkuat, harus menerima pemeriksaan keamanan dan penyimpanan data tingkat lebih tinggi.
Tidak terhindarkan, biaya model terdepan, tidak hanya tercermin dalam tagihan API.
Dalam hal harga, Fable5 dan Mythos5 memiliki harga tetap per juta Token input $10, per juta Token output $50.
Memang, lebih murah dibandingkan Claude Mythos Preview, tetapi tetap model harga tinggi.
Satu kalimat, Fable5 memang kuat, tetapi tidak akan murah sampai bisa dibakar sembarangan.
Ini juga menjelaskan mengapa Anthropic secara bersamaan menekankan kemampuan, keamanan, dan efisiensi Token.
Pengalaman Uji Internal AI Scholar: Semakin Kuat AI, Manusia Semakin Mirip Pemberi Tugas
Ahli AI terkenal, profesor Wharton School of Business, Ethan Mollick, setelah mendapatkan izin pengujian lebih dulu, menulis sebuah artikel panjang.
Logika tulisannya langsung mengenai inti esensi revolusi teknologi ini—
Paradigma kolaborasi antara manusia dan model besar, telah mengalami perubahan mendasar dan tidak dapat diubah.
Dia meminta Fable 5 membuat peta isokron.
Tugas ini terdengar tidak terlalu misterius, tetapi benar-benar melakukannya sangat merepotkan.
Harus memeriksa penerbangan, jadwal kereta api, menilai kecepatan jalan, serta menangani hubungan antara negara berbeda, cara transportasi berbeda, dan biaya waktu berbeda.
Fable 5 sendiri meluncurkan beberapa agen untuk mencari informasi, mendapatkan lebih dari 2200 informasi penerbangan spesifik, juga mengambil data kereta TGV, Shinkansen, serta informasi kecepatan jalan di berbagai negara.
Akhirnya, ia mengintegrasikan informasi ini ke dalam sebuah proyek peta yang dapat digunakan.
Poin penting dari hal ini adalah Fable 5 membagi tujuan kabur menjadi beberapa tautan seperti penelitian, pengumpulan informasi, desain, pengkodean, verifikasi, dan maju sendiri.
Ini sangat berbeda dengan pengalaman model besar sebelumnya.
Kemudian, Mollick mengajukan wawasan yang mendalam.
Di masa lalu, manusia menggunakan model besar seperti seorang "penyihir (Wizard)", Anda harus membimbingnya, mengemudikannya (Steer) tangan ke tangan, memahat setiap Prompt dengan teliti, melalui petunjuk percakapan berulang untuk "membaca mantra", AI baru bisa menghasilkan trik sulap dengan susah payah.
Dan ketika menghadapi model tingkat Mythos, manusia sedang merosot menjadi "sponsor (Patron, di sini saya rasa diterjemahkan sebagai "pemberi tugas" lebih sesuai?)" atau "pemberi mandat".
Profesor Mollick bekerja dengan Fable5, merasa sudah tidak seperti mengoperasikan alat, lebih mirip mempercayakan sebuah studio kecil.
Selain itu, dalam pengujian nyata Mollick, ia tidak perlu lagi bekerja di lapisan instruksi yang paling mikro.
Dia langsung memberikan dokumen desain proyek yang sangat kompleks sepanjang 15 halaman ke Fable 5, kemudian meninggalkan deskripsi kebutuhan makro.
Selama 9 jam lebih berikutnya, Fable 5 beroperasi sepenuhnya mandiri (Autonomous) di latar belakang.
Ia sendiri menghasilkan alur kerja Agen, secara internal menjadwalkan beberapa Agen kecil untuk melakukan penelitian, menulis garis besar, saling mengoreksi, menggulingkan asumsi yang salah, memperbaiki kesalahan dan memulai kembali.
Manusia bahkan tidak perlu ikut campur dalam alur kerja ini setengah langkah pun.
9 jam kemudian, sebuah produk berkualitas tinggi langsung disampaikan kepada Mollick.
Inilah yang disebut metafora "studio".
Dulu, kita menggunakan model besar adalah mempekerjakan seorang freelancer sementara yang perlu berkomunikasi berulang kali; sekarang, Anda menggunakan Fable 5, sama dengan Anda menggunakan Token beberapa dolar, secara instan mempekerjakan seluruh perusahaan desain kelas Hollywood, atau sebuah lembaga penelitian terkemuka.
Anda tidak perlu peduli berapa banyak keputusan mikro yang dibuatnya dalam kotak hitam, Anda hanya perlu memainkan peran "pemberi tugas" yang menandatangani produk akhir.
Kombinasi konteks teks panjang (Context) dan logika mandiri model besar ini, membuat Context tidak lagi hanya menjadi "wadah konten", tetapi sepenuhnya mengendap menjadi "sistem operasi cerdas baru" yang dapat menyimpulkan dan berjalan lama secara mandiri.
Dengan kata lain, semakin AI mirip kontraktor, semakin manusia mirip pemberi tugas yang perlu memiliki kemampuan verifikasi penerimaan.
Selingan, untuk menunjukkan lebih intuitif dan menarik, profesor juga memintanya menghasilkan serangkaian game untuk dicoba semua orang.
Game-game ini didasarkan pada petunjuk awal Claude Code, Fable 5 perlu menghasilkan beberapa program yang layak berdasarkan petunjuk kabur yang saya berikan, setelah itu saya akan memberikan beberapa petunjuk tambahan, dan memberikan beberapa dorongan (misalnya "lakukan lebih baik") atau umpan balik.
Karena Claude Code tidak dapat menghasilkan gambar, semua karya seni atau objek 3D sepenuhnya dihasilkan melalui operasi matematika, tanpa menggunakan sumber eksternal apa pun.
Di sini ada demo game lempar koin:
Setelah menguji Fable 5 lebih awal, profesor akhirnya menyatakan "hasil akhirnya mengesankan".
Tetapi, terutama ketika menangani proyek yang lebih serius, profesor sering merasa menggunakan alat ini menyenangkan sekaligus mengganggu.
Yang menyenangkan adalah, saya hanya perlu mengajukan permintaan, dan itu bisa mewujudkannya. Yang mengganggu juga adalah, saya hanya perlu mengajukan permintaan, dan itu bisa mewujudkannya.
Memang.
Kembali ke rilis Anthropic kali ini.
Beberapa orang menganggap yang terpenting adalah Mythos akhirnya setengah terbuka, beberapa orang menganggap yang terpenting adalah produk AI terdepan sedang memasuki bentuk baru.
Sebuah model yang lebih kuat telah disajikan.
Tapi Anthropic pertama-tama memasang sabuk pengamannya, baru kemudian memberikan kuncinya kepada semua orang.
Ada yang bersorak, ada yang cemas, ada yang menyetel kode semalaman, hanya untuk mengejar kurva kecerdasan yang terus berlari ke depan, bahkan telah mulai meninggalkan pandangan mikro manusia.
Tiga Hal Lain
1. Perhatikan periode jendela. Dari hari ini hingga 22 Juni, pengguna Pro, Max, Team, dan Enterprise dapat menggunakan Fable 5 secara gratis.
Tapi mulai 23 Juni, jika masih ingin menggunakan Fable 5, harus membeli usage credits tambahan.
2. Anthropic mengatakan, setelah kapasitas produksi mengikuti, Fable 5 akan kembali dijadikan standar langganan.
Klien API dan perusahaan pembayaran sesuai pemakaian tidak terpengaruh oleh irama ini, mulai hari ini panggilan seperti biasa.
Referensi:
[1]https://www.anthropic.com/news/claude-fable-5-mythos-5
[2]https://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos
[3]https://www.biorxiv.org/content/10.64898/2026.03.12.711259v1
Artikel ini berasal dari akun WeChat "Qubit", penulis: Heng Yu



















