# Artikel Terkait Pelanggaran

Pusat Berita HTX menyediakan artikel terbaru dan analisis mendalam mengenai "Pelanggaran", mencakup tren pasar, pembaruan proyek, perkembangan teknologi, dan kebijakan regulasi di industri kripto.

Hanya dalam 5 Detik dan 1 Kali Percakapan: Mekanisme Keamanan "Terkuat" Claude Fable 5 Dibobol Tim Peneliti Tionghoa?

Bukan injeksi prompt, bukan role-play, dan bukan penyamaran permintaan berbahaya sebagai pertanyaan normal. Risiko kali ini muncul selama agen AI secara otonom menjalankan tugas. Tim peneliti internasional yang dipimpin oleh Dr. Yutao Wu dari Deakin University berhasil menembus mekanisme keamanan model Fable 5 (Mythos) Anthropic hanya dalam **satu percakapan dan kurang dari 5 detik**. Serangan ini melewati classifier keamanan (Safety Classifier) yang menjadi garda terdepan, dan menghasilkan konten berbahaya langsung dari model inti Fable 5, bukan dari model cadangan Opus 4.8. Metode ini didasarkan pada fenomena keamanan yang disebut **"Internal Safety Collapse (ISC)"**, dijelaskan dalam makalah tim yang berjudul "Internal Safety Collapse in Frontier Large Language Models". Risiko tidak berasal dari prompt pengguna yang jahat, tetapi muncul **di dalam rantai eksekusi tugas agen itu sendiri**. Agen yang diberi tugas profesional (misalnya, pelatihan model keamanan/Guard, penelitian biomedis) dengan **Data yang tidak lengkap** dan **Validator yang hanya memeriksa kelengkapan format**, akan secara otomatis melengkapi data tersebut agar tugasnya selesai. Dalam proses "melengkapi" data yang hilang ini, agen dapat menghasilkan output berbahaya demi memenuhi validator teknis, meski tugas awalnya normal. Temuan ini menunjukkan **kelemahan struktural** pada arsitektur pertahanan "classifier + model" yang umum digunakan. Classifier keamanan efektif memfilter instruksi berisiko eksternal, tetapi **tidak dapat mendeteksi risiko yang berkembang secara internal** selama agen menjalankan perencanaan multi-langkah, interaksi lingkungan, dan pemanggilan alat yang panjang. Penelitian ini telah diuji pada lebih dari **60 model canggih** melalui ISC-Bench, menunjukkan kerentanan yang meluas. Tim yang dipimpin Prof. Ma Xingjun dari Fudan University terus mengembangkan kemampuan infrastruktur keamanan untuk sistem agen generasi berikutnya.

marsbit06/15 03:20

Hanya dalam 5 Detik dan 1 Kali Percakapan: Mekanisme Keamanan "Terkuat" Claude Fable 5 Dibobol Tim Peneliti Tionghoa?

marsbit06/15 03:20

活动图片