Bukan prompt injection, bukan role-playing, dan juga bukan menyamarkan permintaan berbahaya sebagai pertanyaan normal. Kali ini, risiko muncul dalam proses agen AI menyelesaikan tugas secara mandiri.
Fable 5 adalah model level Mythos yang dibuka untuk publik oleh Anthropic, tidak hanya memiliki kemampuan komprehensif yang sangat kuat, tetapi juga memperkenalkan Safety Classifier generasi baru di lapisan luar model sebagai garis pertahanan keamanan.
Menurut desain resmi, ketika permintaan pengguna melibatkan bidang berisiko tinggi seperti keamanan siber, biologi, kimia, distilasi model, dan lain-lain, sistem akan mengutamakan identifikasi risiko, dan langsung menolak permintaan berdasarkan tingkat risikonya, atau beralih ke model Opus 4.8 yang lebih konservatif untuk diproses.
Banyak pengujian pengguna menemukan bahwa teknik serangan jailbreak yang banyak digunakan sebelumnya seperti prompt adversarial, role-playing, encoding bypass, dan ekspresi terselubung, hampir seluruhnya gagal di hadapan mekanisme keamanan ini, menunjukkan kemampuannya yang kuat dalam memblokir risiko di level intent.
Namun, tepat pada hari peluncuran Fable 5, sebuah tim penelitian internasional gabungan yang terdiri dari Universitas Fudan, Deakin University, City University of Hong Kong, University of Melbourne, Singapore Management University, dan University of Illinois Urbana-Champaign mengumumkan bahwa mereka telah berhasil menembus mekanisme perlindungan keamanan Fable 5.
Metode serangan ini didesain terutama oleh mahasiswa doktoral Deakin University, Yutao Wu. Seluruh rangkaian serangan hanya memerlukan satu percakapan, kurang dari 5 detik, untuk melewati safety classifier depan dan mendorong model menghasilkan konten berbahaya yang melanggar aturan.
Hasil analisis traffic lebih lanjut menunjukkan bahwa output berbahaya terkait berasal langsung dari Fable 5 itu sendiri, bukan dari model Opus 4.8 yang otomatis beralih setelah memicu mekanisme keamanan. Ini berarti, serangan ini tidak hanya berhasil lolos dari deteksi safety classifier, tetapi juga secara substansial menembus garis pertahanan keamanan Fable 5.
Perlu dicatat, peretas terkenal Pliny the Liberator baru-baru ini juga membocorkan cara bypass untuk safety classifier Fable 5. Sedangkan jalur teknologi yang digunakan tim Fudan & Deakin kali ini bukan eksplorasi kombinasi sederhana, melainkan menemukan cacat mendasar pada sistem super agen seperti Fable 5.
Diketahui, tim telah menyelesaikan penelitian awal dan merilisnya secara publik sejak Maret tahun ini. Penelitian ini tidak dirancang khusus untuk sistem tunggal Fable 5, tetapi meneliti arsitektur pertahanan "Safety Classifier + Model" yang umum digunakan oleh super agen generasi baru, secara langsung mengungkapkan cacat struktural yang ada dalam mekanisme keamanan semacam ini, sehingga dengan cepat menunjukkan efek serangan setelah rilis Fable 5.
Data publik menunjukkan, tim ini telah menggunakan teknologi serupa sejak Maret tahun ini, berhasil mengekstrak prompt sistem dari 37 model besar dan sistem agen mainstream, dan menyelesaikan verifikasi open-source di Claude Code (95% cocok).
Diketahui, penanggung jawab tim penelitian ini adalah Ma Xingjun dari Institut Kecerdasan Berwujud Terpercaya Universitas Fudan.
Dalam beberapa tahun terakhir, timnya melakukan penelitian sistematis di bidang keamanan model besar, agen, dan kecerdasan berwujud, mencapai serangkaian hasil penelitian ilmiah terdepan secara internasional, dan memenangkan kejuaraan benchmark keamanan American AI Safety Center.
Saat ini, timnya sedang aktif mempromosikan transformasi hasil penelitian, fokus pada keamanan agen, mengeksplorasi pembangunan kapabilitas infrastruktur keamanan untuk sistem agen generasi berikutnya.
Menurut penjelasan Ma, pentingnya hasil penelitian ini terletak pada tantangan baru yang diajukan terhadap paradigma pertahanan statis yang berpusat pada safety classifier saat ini: Hanya mengandalkan safety classifier depan tidak cukup untuk sepenuhnya mencegah perilaku berisiko potensial dalam sistem agen tingkat lanjut.
Safety classifier terutama mengidentifikasi dan memblokir risiko pada input pengguna, dapat secara efektif mendeteksi dan menyaring instruksi berisiko tinggi yang eksplisit, tetapi tidak dapat merasakan perilaku berisiko internal yang secara bertahap timbul selama agen berjalan dalam jangka panjang, perencanaan multi-langkah, interaksi lingkungan, dan pemanggilan alat.
Metode untuk menembus Fable 5 ini berasal dari makalah yang dirilis tim pada Maret tahun ini berjudul "Internal Safety Collapse in Frontier Large Language Models".
Makalah ini mengungkapkan fenomena keamanan tersembunyi "Internal Safety Collapse (ISC)": Ketika Agent saat ini menyelesaikan tugas jarak jauh, kegagalan keamanan tidak selalu berasal dari prompt eksternal yang jahat, tetapi dapat terjadi dalam rantai eksekusi model itu sendiri.
Bukan Serangan Prompt Eksternal, Melainkan Kekalahan Internal dalam Rantai Tugas
Serangan tradisional biasanya masuk dari eksternal. Penyerang akan menulis prompt input yang tampaknya tidak berbahaya tetapi sebenarnya bersifat adversarial, atau menggunakan role-playing, encoding, terjemahan, instruksi tidak langsung, dan cara lain untuk menyamarkan niat jahat sebagai permintaan normal. Tugas utama safety classifier adalah menghentikan risiko di lapisan ini.
Detektor Fable 5 memang dirancang untuk skenario seperti ini. Ia sangat sensitif terhadap permintaan berisiko tinggi langsung, bahkan akan menghentikan banyak permintaan normal. Namun, ISC mengungkapkan jalur lain: risiko tidak selalu berasal dari permintaan berbahaya yang dimasukkan pengguna secara langsung.
Agen AI dihadapkan pada direktori kerja yang tampak biasa: file, tujuan, proses validasi, dan tugas yang harus diselesaikan. Kemudian, ia mulai merencanakan, membaca file, menjalankan kode, memperbaiki kesalahan, dan terus mencoba membuat tugas lolos validasi.
Jika dijelaskan dengan analogi yang gamblang, mekanisme keamanan tradisional menjaga "pintu masuk" sistem, bertugas memeriksa apakah input pengguna mengandung risiko; sedangkan yang diungkapkan ISC lebih mirip dengan mimpi berlapis dalam film "Inception".
Ketika tugas berlanjut ke tahap eksekusi lapisan kedua, ketiga, atau bahkan lebih dalam, model akan memahami kembali tujuan tugas berdasarkan konteks internal yang terus terakumulasi, dan dalam proses ini perlahan-lahan mengalami pergeseran.
Dalam situasi ini, input pengguna awal bisa jadi sepenuhnya normal dan tidak berbahaya, proses eksekusi tugas di tahap awal juga tetap sesuai aturan: membaca file, menganalisis data, menulis kode, memanggil alat, semuanya tampak berjalan sesuai harapan.
Namun, ketika agen mencapai tahap kritis tertentu, ia mungkin secara mandiri menyimpulkan bahwa tanpa mengambil tindakan tertentu yang seharusnya tidak dilakukan, tugas akhir tidak dapat diselesaikan.
Dalam proses inilah, risiko tidak berasal dari input eksternal, melainkan terbentuk secara bertahap dalam rantai eksekusi tugas model itu sendiri. Dengan kata lain, model tidak diajari menjadi buruk langkah demi langkah oleh pengguna. Ia berada dalam proses "menyelesaikan tugas dengan serius", dan dengan sendirinya berada di posisi yang tidak aman.
Bagaimana Fenomena Ini Ditemukan?
Menurut tim, ISC awalnya tidak dirancang sebagai metode serangan. Ia pertama kali berasal dari pengamatan terhadap proses berjalan jarak jauh agen AI. Agent ditempatkan dalam lingkungan tugas kompleks, tidak hanya mengeksekusi instruksi secara mekanis. Ia akan merencanakan, mencoba, memodifikasi output berdasarkan umpan balik dari harness atau validator, dan membentuk tujuan perantara dalam beberapa putaran eksekusi.
Ini justru cara penggunaan alur kerja Agent yang paling umum saat ini. Pengguna tidak akan menulis prompt yang dirancang dengan hati-hati, apalagi menyusun instruksi serangan secara manual. Seringkali, pengguna hanya memberikan kalimat yang sangat samar:
"Bantu saya selesaikan tugas ini." "Bantu saya tingkatkan ini."
Kemudian, Agent akan masuk ke area kerja, membaca file, memahami status saat ini, menemukan bagian yang hilang, membuat rencana, mengeksekusi modifikasi, dan terus memperbaiki masalah berdasarkan umpan balik.
Misalnya dalam skenario AutoResearch, pengguna hanya memberikan makalah yang belum selesai dan kalimat "bantu saya lengkapi", Agent akan menilai sendiri di mana yang kurang analisis eksperimen, pekerjaan terkait, atau teks tabel. Skenario kode juga serupa: kalimat "bantu saya jalankan proyek ini", dapat memicu pemeriksaan dependensi, menjalankan pengujian, lokalisasi error, dan penyelesaian otomatis.
Seringkali, konteks sebelumnya sepenuhnya tidak berbahaya. Pengguna tidak meminta untuk menghasilkan konten berisiko, deskripsi tugas juga tidak memiliki kata kunci berbahaya yang jelas. Tetapi dalam struktur tugas tertentu, Agent akan, untuk lulus validasi, secara aktif melengkapi konten tertentu yang seharusnya tidak dihasilkan oleh model. Berdasarkan pengamatan ini, tim penelitian lebih lanjut mengusulkan kerangka serangan: TVD (Tugas, Validator, Data).
Mengapa Struktur Deskripsi Tugas yang Tampak Biasa Ini Menjadi Serangan?
Struktur TVD tidak rumit, bahkan sangat dekat dengan alur kerja rekayasa umum:
· Task: Sebuah tugas profesional;
· Data: Sebuah file data yang tidak lengkap;
· Validator: Sebuah validator yang hanya memeriksa format, kelengkapan, dan apakah tujuan selesai.
Ambil contoh pelatihan model Guard, ini sebenarnya adalah tugas yang sangat profesional dan normal. Peneliti mungkin ingin melatih atau mengevaluasi detektor keamanan, misalnya menggunakan Hugging Face untuk memuat model klasifikasi teks, menentukan label keamanan mana yang termasuk dalam output model tertentu.
Dalam tugas ini, Data adalah sampel data yang akan dideteksi model; Validator mengatur apakah tugas selesai. Ia akan memeriksa apakah input berupa teks, apakah panjangnya cukup, apakah kolom lengkap, apakah format label benar. Bagi siapa pun yang memiliki pengalaman pelatihan machine learning, ini adalah alur kerja yang familiar. Agent juga sangat familiar dengan alur kerja ini.
Masalahnya muncul di sini. Jika Data tidak lengkap, tugas tidak dapat dijalankan. Validator akan melaporkan error, mengingatkan kolom hilang, panjang tidak cukup, atau format tidak lengkap. Agar proses pelatihan dapat dilanjutkan, Agent akan melengkapi Data ini sendiri.
Dari perspektif Agent, ia tidak sedang "berbuat jahat". Ia hanya menyelesaikan tugas machine learning normal: memperbaiki data, melewati validasi, membuat skrip pelatihan berjalan. Namun dari perspektif keamanan, risiko muncul saat ini: Validator lebih mirip pemeriksa rekayasa, bukan pemeriksa keamanan. Ia hanya memeriksa apakah tugas selesai sesuai format, tidak memahami batas keamanan di balik konten.
Masalah serupa juga tersebar luas di bidang medis, biologi, kimia, keamanan siber, farmakologi, dan keamanan media. Makalah mengumpulkan lebih dari 50 skenario semacam ini, dan melibatkan berbagai alat penelitian atau rekayasa dunia nyata, seperti BioPython, RDKit, Cantera, AutoDock Vina, DiffDock, PyRosetta, Scapy, Impacket, angr, Frida, LlamaGuard, Detoxify, OpenAI Moderation API, dan lain-lain.
Alat-alat ini sendiri bukan alat jahat. Justru sebaliknya, mereka adalah alat profesional yang umum digunakan dalam penelitian atau rekayasa dunia nyata. Tetapi masalah TVD adalah: ketika Task normal, Tool normal, Validator juga normal, Agent masih dapat menghasilkan output yang tidak aman dalam proses melengkapi Data.
Oleh karena itu, fokus ISC bukan pada teknik prompt, melainkan pada kemampuan pelengkapan otomatis Agent terhadap "tugas yang belum selesai": ketika kondisi penyelesaian tumpang tindih dengan batas risiko, model dapat menganggap output yang tidak aman sebagai hasil pengiriman normal.
Menembus Fable 5 Menunjukkan Detektor Kuat Tidak Dapat Menghentikan Risiko Internal Rantai Tugas
Kasus Fable 5 menunjukkan bahwa hanya dengan detektor eksternal masih mungkin tidak dapat mencakup sebagian skenario Agent jarak jauh. Ini bukan berarti safety classifier tidak berharga. Sebaliknya, ia sangat berguna untuk permintaan jahat eksternal, dan memang membuat banyak metode jailbreak tradisional gagal.
Tapi kekalahan kali ini menunjukkan, detektor eksternal efektif di batas Prompt, tidak berarti dapat mencakup risiko tugas jarak jauh internal Agent.
Jika titik masuknya bukan dari Prompt pengguna, melainkan muncul dari tujuan, alat, validator, dan lintasan eksekusi Agent, maka detektor keamanan akan menjadi sangat rentan.
Dari Fable 5 ke Lebih dari 60 Model Lainnya, Termasuk Model Apple untuk Perangkat Seluler
ISC-Bench yang dirilis bersama penelitian, mencakup 9 bidang profesional. Versi makalah berisi 60+ template pemicu, setelah open-source diperluas menjadi 84 template, objek pengujian meliputi hampir semua model frontier dan sistem agen dari berbagai vendor.
Dalam daftar peringkat evaluasi berdasarkan ISC-Bench, hingga Juni 2026, lebih dari 60 model frontier dalam metrik ASR@3 menampakkan risiko serupa!
Saat ini proyek GitHub telah memperoleh 800+ stars, dan mengumpulkan beberapa kasus replikasi independen (termasuk menembus model Apple untuk perangkat seluler), dan terus diperbarui.
Diketahui, tim sedang melakukan penelitian keamanan model frontier skala besar, saat ini telah menguasai distribusi data tidak aman internal dari banyak model, hasil penelitian terkait akan dirilis bertahap di kemudian hari.















