Protokol MCP sedang mendorong AI Agent untuk menjalankan tugas secara otonom, tetapi risiko keamanan melonjak. Penelitian menemukan bahwa penyerang dapat menggunakan 12 metode seperti pembingungan nama alat, kesalahan palsu, untuk menipu Agent menjalankan operasi berbahaya, bahkan model terkemuka pun sulit menghindarinya. Tim dari Beijing University of Posts and Telecommunications merilis tolok ukur keamanan MSB, melalui pengujian lingkungan nyata mengungkap: model yang lebih kuat justru lebih rentan terhadap serangan. Metrik baru NRP pertama kali menyeimbangkan keamanan dan utilitas, memberikan tolok ukur kunci untuk memperkuat pertahanan AI Agent.
Baru-baru ini, proyek AI Agent sumber terbuka seperti OpenClaw menjadi viral di kalangan komunitas pengembang. Hanya dengan satu kalimat, Agent dapat secara otomatis membantu Anda menulis kode, mencari informasi, mengoperasikan file lokal, bahkan mengambil alih komputer.
Di balik otonomi menakjubkan Agent ini, tidak lepas dari kemampuan yang disediakan oleh pemanggilan alat, dan MCP (Model Context Protocol) adalah antarmuka yang menyatukan ekosistem alat AI. Seperti USB-C yang memungkinkan komputer terhubung ke berbagai perangkat, MCP memungkinkan model AI memanggil alat eksternal seperti sistem file, browser, basis data dengan cara terstandarisasi.
Menghadapi ekosistem yang begitu besar, bahkan OpenClaw yang mengusung command line asli, juga mengadopsi adapter untuk mengintegrasikan MCP, guna mendapatkan kemampuan alat yang lebih luas.
Namun, ketika "tangan" AI semakin menjangkau jauh, bahaya pun datang. Bagaimana jika alat yang dipanggil Agent sendiri diracuni oleh peretas? Bagaimana jika informasi kesalahan yang dikembalikan alat menyembunyikan instruksi berbahaya?
Ketika model AI tanpa perlindungan menjalankan instruksi ini, data privasi Anda, file lokal, bahkan izin server, akan menjadi incaran peretas.
Untuk mengisi kekosongan evaluasi keamanan ekosistem MCP, tim peneliti dari Beijing University of Posts and Telecommunications dan lembaga lainnya meluncurkan tolok ukur keamanan khusus untuk protokol MCP: MSB (MCP Security Bench). Temuan penelitian: serangan terhadap setiap tahap MCP memiliki efektivitas. Model yang lebih kuat justru lebih mudah diserang. Makalah ini telah diterima oleh ICLR 2026.
Tautan makalah: https://openreview.net/pdf?id=irxxkFMrry
Kode: https://github.com/dongsenzhang/MSB
Risiko Keamanan MCP di Balik Agent
Gambar 1: Kerangka kerja serangan MCP
MCP sangat memperluas kemampuan Agent, sekaligus sangat memperluas permukaan serangan. Dalam sistem MCP, alur kerja pemanggilan alat Agent biasanya mencakup tiga tahap:
1. Perencanaan Tugas (Task Planning): Agent memilih alat yang sesuai berdasarkan kueri pengguna, melalui nama dan deskripsi alat.
2. Pemanggilan Alat (Tool Invocation): Agent mengirimkan permintaan ke alat yang dipilih, dan meneruskan parameter yang sesuai untuk menjalankan operasi spesifik.
3. Penanganan Respons (Response Handling): Agent mengurai hasil respons alat, dan berdasarkan itu melanjutkan penalaran atau menghasilkan jawaban akhir.
Setiap tahap, dapat menjadi pintu masuk serangan. MSB mencakup tahap lengkap penggunaan alat MCP, khusus digunakan untuk mengevaluasi keamanan Agent berbasis penggunaan alat MCP, memiliki tiga keunggulan inti:
Sistem Klasifikasi Serangan MCP
Dalam alur kerja MCP, Agent berinteraksi dengan alat melalui pengenal alat (nama dan deskripsi), parameter, serta respons alat, yang semuanya dapat menjadi jalur serangan. MSB mengklasifikasikan jenis serangan berdasarkan jalur serangan dan tahap interaksi ini:
Tool Signature Attack: Pada tahap perencanaan tugas, menggunakan nama dan deskripsi alat untuk menyerang, termasuk:
Konflik Nama (Name Collision, NC): Memalsukan alat berbahaya dengan nama yang mirip dengan alat resmi, menginduksi Agent untuk memilih.
Manipulasi Preferensi (Preference Manipulation, PM): Menyuntikkan kalimat promosi ke dalam deskripsi alat, menginduksi Agent untuk memilih.
Suntikan Perintah (Prompt Injection, PI): Menyuntikkan instruksi berbahaya ke dalam deskripsi alat.
Tool Parameter Attack: Pada tahap pemanggilan alat, menggunakan parameter alat untuk menyerang, termasuk:
Parameter Di Luar Cakupan (Out-of-Scope Parameter, OP): Mengatur parameter alat yang melampaui fungsi normal, menyebabkan kebocoran informasi melalui penerusan parameter.
Tool Response Attack: Pada tahap penanganan respons, menggunakan respons alat untuk menyerang, termasuk:
Penyamaran Pengguna (User Impersonation, UI): Menyamar sebagai pengguna untuk memberikan instruksi berbahaya.
Kesalahan Palsu (False Error, FE): Memberikan informasi kesalahan eksekusi alat yang palsu, meminta Agent mengikuti instruksi berbahaya agar dapat berhasil memanggil alat.
Pengalihan Alat (Tool Transfer, TT): Menginstruksikan Agent untuk memanggil alat berbahaya.
Retrieval Injection Attack: Pada tahap penanganan respons, menggunakan sumber daya eksternal untuk menyerang, termasuk:
Suntikan Pencarian (Retrieval Injection, RI): Sumber daya eksternal yang menyematkan instruksi berbahaya merusak konteks melalui respons alat.
Mixed Attack: Pada beberapa tahap, menggunakan beberapa komponen alat secara bersamaan untuk menyerang, termasuk kombinasi dari serangan di atas.
Suite Eksekusi Berbasis Lingkungan Nyata
MSB menolak evaluasi simulasi yang hanya di atas kertas, dilengkapi dengan server MCP nyata, mencakup 10 skenario dunia nyata, 405 alat nyata dan 2.000 contoh serangan. Semua contoh dijalankan melalui eksekusi alat nyata oleh MCP, benar-benar mencerminkan lingkungan operasi nyata, untuk secara langsung mengamati tingkat kerusakan serangan terhadap keadaan lingkungan.
Metrik NRP yang Menyeimbangkan Kinerja dan Keamanan
Dalam evaluasi keamanan Agent, hanya melihat tingkat keberhasilan serangan (ASR, Attack Success Rate) sangat menipu, jika sebuah Agent menolak untuk menjalankan pemanggilan alat apa pun untuk menghindari risiko, ASR-nya mungkin mendekati 0, tetapi pada saat yang sama juga tidak dapat menyelesaikan tugas pengguna, kehilangan nilai aplikasi praktis.
Untuk itu, MSB mengusulkan metrik Kinerja Tahan Bersih NRP (Net Resilient Performance):
NRP = PUA ⋅ (1 − ASR)
Di mana, PUA (Performance Under Attack) adalah proporsi Agent menyelesaikan tugas pengguna dalam lingkungan permusuhan, ASR adalah tingkat keberhasilan serangan. NRP bertujuan untuk mengevaluasi kemampuan ketahanan keseluruhan Agent dalam menangkis serangan sambil mempertahankan kinerja, memberikan standar kuantitatif komprehensif yang menyeimbangkan kinerja dan keamanan.
Gambar 2: NRP vs ASR, NRP vs PUA.
Semua Metode Serangan Efektif
Gambar 3: Hasil eksperimen utama.
Tim peneliti menggunakan MSB untuk menguji 10 model utama termasuk GPT-5, DeepSeek-V3.1, Claude 4 Sonnet, Qwen3 dalam skala besar, semua metode serangan menunjukkan efektivitas, rata-rata ASR keseluruhan adalah 40,35%. Di antaranya serangan baru yang diperkenalkan MCP lebih agresif, dibandingkan dengan serangan PI dan RI yang sudah ada dalam function calling, serangan berbasis MCP seperti UI dan FE memiliki tingkat keberhasilan yang lebih tinggi. Serangan campuran menunjukkan peningkatan sinergis, tingkat keberhasilan serangan campuran lebih tinggi daripada serangan tunggal yang membentuknya.
Model yang Lebih Kuat, Justru Lebih Rentan
Hubungan antara metrik yang berbeda mengungkapkan kesimpulan yang kontra-intuitif: model yang lebih mampu justru lebih mudah diserang.
Gambar 4: PUA vs ASR.
Dalam MSB, menyelesaikan tugas serangan masih memerlukan Agent memanggil alat, misalnya menggunakan alat pembacaan file untuk mendapatkan informasi pribadi. LLM dengan utilitas yang lebih tinggi, karena kemampuan pemanggilan alat dan kepatuhan instruksi yang lebih baik, menunjukkan ASR yang lebih tinggi. Temuan ini mengungkapkan risiko praktis yang besar dari kerentanan keamanan MCP.
Kerusakan Lingkungan Tahap Penuh, Multi-Alat
Gambar 5: ASR pada tahapan dan konfigurasi alat yang berbeda.
Analisis lebih lanjut dari sudut pandang alur kerja MCP dan konfigurasi alat menemukan bahwa pada semua tahap MCP, Agent rentan diserang, pada tahap pemanggilan alat keamanan model terendah.
Selain itu, bahkan dalam lingkungan multi-alat yang mengandung alat tidak berbahaya, serangan masih efektif. Skenario dunia nyata biasanya menyediakan paket alat untuk Agent, bahkan jika ada alat tidak berbahaya, metode induksi seperti NC, PM, dan TT masih menyebabkan keberhasilan serangan yang signifikan.
Kesimpulan
Keviralan OpenClaw, membuat orang secara intuitif melihat masa depan Agent: model AI tidak hanya menjawab pertanyaan, tetapi mulai benar-benar melakukan pekerjaan. MSB diusulkan dalam latar belakang seperti ini, secara sistematis mengungkapkan permukaan serangan potensial dalam ekosistem MCP, dan menyediakan tolok ukur evaluasi sistem yang dapat direproduksi dan terukur untuk penelitian keamanan Agent.
Penelitian keamanan model AI sebelumnya terutama berfokus pada risiko tingkat bahasa seperti suntikan perintah, sedangkan MSB menunjukkan bahwa ketika AI memanggil alat dan berinteraksi dengan sistem nyata, permukaan serangan juga sedang berkembang dari ruang teks ke ekosistem alat. Seiring Agent secara bertahap menjadi paradigma baru aplikasi AI, keamanan mungkin menjadi ambang batas yang harus dilalui dalam lompatan teknologi ini.
Referensi:
https://openreview.net/pdf?id=irxxkFMrry
Artikel ini dari akun WeChat publik "新智元", penulis: 新智元











