OpenClaw Viral, Ungkap 12 Jenis Ancaman Mematikan, Tolok Ukur Keamanan Protokol MCP Dirilis

marsbitDipublikasikan tanggal 2026-04-16Terakhir diperbarui pada 2026-04-16

Abstrak

OpenClaw dan proyek AI Agent lainnya semakin populer, memicu kekhawatiran akan risiko keamanan dalam protokol MCP (Model Context Protocol) yang mendukungnya. Penelitian dari Beijing University of Posts and Telecommunications mengungkap 12 jenis serangan yang memanfaatkan kerentanan dalam proses perencanaan tugas, pemanggilan alat, dan penanganan respons. Serangan seperti Name Collision, False Error, dan Tool Transfer terbukti efektif, bahkan terhadap model AI canggih seperti GPT-5 dan Claude 4 Sonnet. Tim peneliti meluncurkan MSB (MCP Security Bench), benchmark keamanan pertama yang mengevaluasi risiko dalam ekosistem MCP. MSB menggunakan lingkungan eksekusi nyata dengan 2.000 contoh serangan dan memperkenalkan metrik NRP (Net Resilient Performance) untuk mengukur keseimbangan antara keamanan dan kinerja. Hasilnya menunjukkan bahwa model AI yang lebih kuat justru lebih rentan terhadap serangan, dan serangan campuran (mixed attack) memiliki tingkat keberhasilan lebih tinggi. Temuan ini menekankan pentingnya memperkuat pertahanan AI Agent di masa depan.

Protokol MCP sedang mendorong AI Agent untuk menjalankan tugas secara otonom, tetapi risiko keamanan melonjak. Penelitian menemukan bahwa penyerang dapat menggunakan 12 metode seperti pembingungan nama alat, kesalahan palsu, untuk menipu Agent menjalankan operasi berbahaya, bahkan model terkemuka pun sulit menghindarinya. Tim dari Beijing University of Posts and Telecommunications merilis tolok ukur keamanan MSB, melalui pengujian lingkungan nyata mengungkap: model yang lebih kuat justru lebih rentan terhadap serangan. Metrik baru NRP pertama kali menyeimbangkan keamanan dan utilitas, memberikan tolok ukur kunci untuk memperkuat pertahanan AI Agent.

Baru-baru ini, proyek AI Agent sumber terbuka seperti OpenClaw menjadi viral di kalangan komunitas pengembang. Hanya dengan satu kalimat, Agent dapat secara otomatis membantu Anda menulis kode, mencari informasi, mengoperasikan file lokal, bahkan mengambil alih komputer.

Di balik otonomi menakjubkan Agent ini, tidak lepas dari kemampuan yang disediakan oleh pemanggilan alat, dan MCP (Model Context Protocol) adalah antarmuka yang menyatukan ekosistem alat AI. Seperti USB-C yang memungkinkan komputer terhubung ke berbagai perangkat, MCP memungkinkan model AI memanggil alat eksternal seperti sistem file, browser, basis data dengan cara terstandarisasi.

Menghadapi ekosistem yang begitu besar, bahkan OpenClaw yang mengusung command line asli, juga mengadopsi adapter untuk mengintegrasikan MCP, guna mendapatkan kemampuan alat yang lebih luas.

Namun, ketika "tangan" AI semakin menjangkau jauh, bahaya pun datang. Bagaimana jika alat yang dipanggil Agent sendiri diracuni oleh peretas? Bagaimana jika informasi kesalahan yang dikembalikan alat menyembunyikan instruksi berbahaya?

Ketika model AI tanpa perlindungan menjalankan instruksi ini, data privasi Anda, file lokal, bahkan izin server, akan menjadi incaran peretas.

Untuk mengisi kekosongan evaluasi keamanan ekosistem MCP, tim peneliti dari Beijing University of Posts and Telecommunications dan lembaga lainnya meluncurkan tolok ukur keamanan khusus untuk protokol MCP: MSB (MCP Security Bench). Temuan penelitian: serangan terhadap setiap tahap MCP memiliki efektivitas. Model yang lebih kuat justru lebih mudah diserang. Makalah ini telah diterima oleh ICLR 2026.

Tautan makalah: https://openreview.net/pdf?id=irxxkFMrry

Kode: https://github.com/dongsenzhang/MSB

Risiko Keamanan MCP di Balik Agent

Gambar 1: Kerangka kerja serangan MCP

MCP sangat memperluas kemampuan Agent, sekaligus sangat memperluas permukaan serangan. Dalam sistem MCP, alur kerja pemanggilan alat Agent biasanya mencakup tiga tahap:

1. Perencanaan Tugas (Task Planning): Agent memilih alat yang sesuai berdasarkan kueri pengguna, melalui nama dan deskripsi alat.

2. Pemanggilan Alat (Tool Invocation): Agent mengirimkan permintaan ke alat yang dipilih, dan meneruskan parameter yang sesuai untuk menjalankan operasi spesifik.

3. Penanganan Respons (Response Handling): Agent mengurai hasil respons alat, dan berdasarkan itu melanjutkan penalaran atau menghasilkan jawaban akhir.

Setiap tahap, dapat menjadi pintu masuk serangan. MSB mencakup tahap lengkap penggunaan alat MCP, khusus digunakan untuk mengevaluasi keamanan Agent berbasis penggunaan alat MCP, memiliki tiga keunggulan inti:

Sistem Klasifikasi Serangan MCP

Dalam alur kerja MCP, Agent berinteraksi dengan alat melalui pengenal alat (nama dan deskripsi), parameter, serta respons alat, yang semuanya dapat menjadi jalur serangan. MSB mengklasifikasikan jenis serangan berdasarkan jalur serangan dan tahap interaksi ini:

Tool Signature Attack: Pada tahap perencanaan tugas, menggunakan nama dan deskripsi alat untuk menyerang, termasuk:

Konflik Nama (Name Collision, NC): Memalsukan alat berbahaya dengan nama yang mirip dengan alat resmi, menginduksi Agent untuk memilih.

Manipulasi Preferensi (Preference Manipulation, PM): Menyuntikkan kalimat promosi ke dalam deskripsi alat, menginduksi Agent untuk memilih.

Suntikan Perintah (Prompt Injection, PI): Menyuntikkan instruksi berbahaya ke dalam deskripsi alat.

Tool Parameter Attack: Pada tahap pemanggilan alat, menggunakan parameter alat untuk menyerang, termasuk:

Parameter Di Luar Cakupan (Out-of-Scope Parameter, OP): Mengatur parameter alat yang melampaui fungsi normal, menyebabkan kebocoran informasi melalui penerusan parameter.

Tool Response Attack: Pada tahap penanganan respons, menggunakan respons alat untuk menyerang, termasuk:

Penyamaran Pengguna (User Impersonation, UI): Menyamar sebagai pengguna untuk memberikan instruksi berbahaya.

Kesalahan Palsu (False Error, FE): Memberikan informasi kesalahan eksekusi alat yang palsu, meminta Agent mengikuti instruksi berbahaya agar dapat berhasil memanggil alat.

Pengalihan Alat (Tool Transfer, TT): Menginstruksikan Agent untuk memanggil alat berbahaya.

Retrieval Injection Attack: Pada tahap penanganan respons, menggunakan sumber daya eksternal untuk menyerang, termasuk:

Suntikan Pencarian (Retrieval Injection, RI): Sumber daya eksternal yang menyematkan instruksi berbahaya merusak konteks melalui respons alat.

Mixed Attack: Pada beberapa tahap, menggunakan beberapa komponen alat secara bersamaan untuk menyerang, termasuk kombinasi dari serangan di atas.

Suite Eksekusi Berbasis Lingkungan Nyata

MSB menolak evaluasi simulasi yang hanya di atas kertas, dilengkapi dengan server MCP nyata, mencakup 10 skenario dunia nyata, 405 alat nyata dan 2.000 contoh serangan. Semua contoh dijalankan melalui eksekusi alat nyata oleh MCP, benar-benar mencerminkan lingkungan operasi nyata, untuk secara langsung mengamati tingkat kerusakan serangan terhadap keadaan lingkungan.

Metrik NRP yang Menyeimbangkan Kinerja dan Keamanan

Dalam evaluasi keamanan Agent, hanya melihat tingkat keberhasilan serangan (ASR, Attack Success Rate) sangat menipu, jika sebuah Agent menolak untuk menjalankan pemanggilan alat apa pun untuk menghindari risiko, ASR-nya mungkin mendekati 0, tetapi pada saat yang sama juga tidak dapat menyelesaikan tugas pengguna, kehilangan nilai aplikasi praktis.

Untuk itu, MSB mengusulkan metrik Kinerja Tahan Bersih NRP (Net Resilient Performance):

NRP = PUA ⋅ (1 − ASR)

Di mana, PUA (Performance Under Attack) adalah proporsi Agent menyelesaikan tugas pengguna dalam lingkungan permusuhan, ASR adalah tingkat keberhasilan serangan. NRP bertujuan untuk mengevaluasi kemampuan ketahanan keseluruhan Agent dalam menangkis serangan sambil mempertahankan kinerja, memberikan standar kuantitatif komprehensif yang menyeimbangkan kinerja dan keamanan.

Gambar 2: NRP vs ASR, NRP vs PUA.

Semua Metode Serangan Efektif

Gambar 3: Hasil eksperimen utama.

Tim peneliti menggunakan MSB untuk menguji 10 model utama termasuk GPT-5, DeepSeek-V3.1, Claude 4 Sonnet, Qwen3 dalam skala besar, semua metode serangan menunjukkan efektivitas, rata-rata ASR keseluruhan adalah 40,35%. Di antaranya serangan baru yang diperkenalkan MCP lebih agresif, dibandingkan dengan serangan PI dan RI yang sudah ada dalam function calling, serangan berbasis MCP seperti UI dan FE memiliki tingkat keberhasilan yang lebih tinggi. Serangan campuran menunjukkan peningkatan sinergis, tingkat keberhasilan serangan campuran lebih tinggi daripada serangan tunggal yang membentuknya.

Model yang Lebih Kuat, Justru Lebih Rentan

Hubungan antara metrik yang berbeda mengungkapkan kesimpulan yang kontra-intuitif: model yang lebih mampu justru lebih mudah diserang.

Gambar 4: PUA vs ASR.

Dalam MSB, menyelesaikan tugas serangan masih memerlukan Agent memanggil alat, misalnya menggunakan alat pembacaan file untuk mendapatkan informasi pribadi. LLM dengan utilitas yang lebih tinggi, karena kemampuan pemanggilan alat dan kepatuhan instruksi yang lebih baik, menunjukkan ASR yang lebih tinggi. Temuan ini mengungkapkan risiko praktis yang besar dari kerentanan keamanan MCP.

Kerusakan Lingkungan Tahap Penuh, Multi-Alat

Gambar 5: ASR pada tahapan dan konfigurasi alat yang berbeda.

Analisis lebih lanjut dari sudut pandang alur kerja MCP dan konfigurasi alat menemukan bahwa pada semua tahap MCP, Agent rentan diserang, pada tahap pemanggilan alat keamanan model terendah.

Selain itu, bahkan dalam lingkungan multi-alat yang mengandung alat tidak berbahaya, serangan masih efektif. Skenario dunia nyata biasanya menyediakan paket alat untuk Agent, bahkan jika ada alat tidak berbahaya, metode induksi seperti NC, PM, dan TT masih menyebabkan keberhasilan serangan yang signifikan.

Kesimpulan

Keviralan OpenClaw, membuat orang secara intuitif melihat masa depan Agent: model AI tidak hanya menjawab pertanyaan, tetapi mulai benar-benar melakukan pekerjaan. MSB diusulkan dalam latar belakang seperti ini, secara sistematis mengungkapkan permukaan serangan potensial dalam ekosistem MCP, dan menyediakan tolok ukur evaluasi sistem yang dapat direproduksi dan terukur untuk penelitian keamanan Agent.

Penelitian keamanan model AI sebelumnya terutama berfokus pada risiko tingkat bahasa seperti suntikan perintah, sedangkan MSB menunjukkan bahwa ketika AI memanggil alat dan berinteraksi dengan sistem nyata, permukaan serangan juga sedang berkembang dari ruang teks ke ekosistem alat. Seiring Agent secara bertahap menjadi paradigma baru aplikasi AI, keamanan mungkin menjadi ambang batas yang harus dilalui dalam lompatan teknologi ini.

Referensi:

https://openreview.net/pdf?id=irxxkFMrry

Artikel ini dari akun WeChat publik "新智元", penulis: 新智元

Pertanyaan Terkait

QApa itu MSB (MCP Security Bench) dan mengapa penting untuk keamanan AI Agent?

AMSB (MCP Security Bench) adalah tolok ukur keamanan yang dirancang khusus untuk mengevaluasi keamanan Agent AI yang menggunakan protokol MCP (Model Context Protocol). Ini penting karena MCP memungkinkan Agent AI mengakses alat eksternal seperti sistem file dan database, tetapi juga memperluas permukaan serangan. MSB mengungkap 12 jenis kerentanan yang memungkinkan penyerang menipu Agent untuk melakukan operasi berbahaya, bahkan pada model AI tingkat atas.

QApa saja tiga tahap dalam proses pemanggilan alat MCP yang rentan terhadap serangan?

ATiga tahap dalam proses pemanggilan alat MCP yang rentan terhadap serangan adalah: 1. Perencanaan Tugas (Task Planning): Agent memilih alat berdasarkan nama dan deskripsi. 2. Pemanggilan Alat (Tool Invocation): Agent mengirim permintaan dengan parameter. 3. Penanganan Respons (Response Handling): Agent memparsing hasil dari alat. Setiap tahap dapat menjadi titik masuk untuk serangan seperti Name Collision atau False Error.

QApa itu indikator NRP (Net Resilient Performance) dan bagaimana cara kerjanya?

ANRP (Net Resilient Performance) adalah metrik baru yang diperkenalkan MSB untuk mengukur keseimbangan antara kinerja dan keamanan Agent AI. Rumusnya adalah NRP = PUA ⋅ (1 − ASR), di mana PUA (Performance Under Attack) adalah persentase penyelesaian tugas pengguna dalam lingkungan serangan, dan ASR (Attack Success Rate) adalah tingkat keberhasilan serangan. NRP memberikan penilaian komprehensif tentang kemampuan Agent untuk menolak serangan sambil tetap melakukan tugasnya.

QMengapa model AI yang lebih kuat justru lebih rentan terhadap serangan MCP?

AModel AI yang lebih kuat, seperti GPT-5 atau Claude 4 Sonnet, lebih rentan terhadap serangan MCP karena kemampuan mereka yang superior dalam memanggil alat dan mengikuti instruksi. Dalam MSB, menyelesaikan tugas serangan masih memerlukan Agent untuk menggunakan alat (misalnya, membaca file). Model dengan utilitas tinggi lebih mungkin menjalankan perintah berbahaya secara tidak sengaja, yang mengakibatkan tingkat keberhasilan serangan (ASR) yang lebih tinggi.

QApa saja jenis serangan Tool Response Attack dalam kerangka kerja MCP?

ATool Response Attack adalah serangan yang terjadi pada tahap penanganan respons, di mana penyerang memanfaatkan respons dari alat. Jenisnya termasuk: 1. User Impersonation (UI): Meniru pengguna untuk memberikan perintah berbahaya. 2. False Error (FE): Memberikan informasi error palsu yang memaksa Agent mengikuti instruksi jahat. 3. Tool Transfer (TT): Mengarahkan Agent untuk memanggil alat berbahaya. Serangan ini sangat efektif karena langsung memanipulasi output yang diterima Agent.

Bacaan Terkait

Trading

Spot
Futures
活动图片