Le protocole MCP permet aux agents IA d'exécuter des tâches de manière autonome, mais les risques de sécurité explosent. Une étude révèle que des attaquants peuvent, par des techniques telles que l'obfuscation des noms d'outils ou de fausses erreurs (12 méthodes au total), tromper l'agent pour qu'il exécute des opérations malveillantes, et même les modèles les plus avancés n'y échappent pas. L'équipe de l'Université des Postes et Télécommunications de Beijing publie le benchmark de sécurité MSB, qui révèle grâce à des tests en environnement réel : plus un modèle est performant, plus il est vulnérable aux attaques. Le nouvel indicateur NRP équilibre pour la première fois sécurité et utilité, offrant une mesure cruciale pour renforcer la défense des agents IA.
Récemment, des projets open source d'agents IA comme OpenClaw ont connu un immense succès dans la communauté des développeurs. Avec une simple phrase, l'agent peut automatiquement vous aider à écrire du code, rechercher des informations, manipuler des fichiers locaux, voire prendre le contrôle de votre ordinateur.
Derrière cette autonomie impressionnante des agents se trouve la capacité fournie par l'appel d'outils, et le MCP (Model Context Protocol, protocole de contexte de modèle) est justement l'interface qui unifie l'écosystème des outils IA. Tout comme l'USB-C permet à un ordinateur de se connecter à divers périphériques, le MCP permet aux grands modèles d'appeler des outils externes (système de fichiers, navigateur, base de données, etc.) de manière standardisée.
Face à un écosystème si vaste, même OpenClaw, qui mise sur les commandes natives, a intégré le M via un adaptateur pour accéder à des capacités outils plus étendues.
Cependant, à mesure que le « bras » de l'IA s'allonge, le danger augmente aussi. Et si l'outil appelé par l'Agent était lui-même empoisonné par un pirate ? Et si les messages d'erreur renvoyés par l'outil contenaient des instructions malveillantes ?
Lorsque le grand modèle exécute ces instructions sans méfiance, vos données privées, vos fichiers locaux et même les droits d'accès à vos serveurs deviennent la proie des hackers.
Pour combler le vide en matière d'évaluation de la sécurité de l'écosystème MCP, une équipe de recherche de l'Université des Postes et Télécommunications de Beijing, entre autres, a lancé un benchmark de sécurité spécifique au protocole MCP : le MSB (MCP Security Bench). L'étude révèle que : les attaques à chaque étape du MCP sont efficaces. Plus le modèle est performant, plus il est susceptible d'être attaqué. L'article a été accepté à l'ICLR 2026.
Lien de l'article : https://openreview.net/pdf?id=irxxkFMrry
Code : https://github.com/dongsenzhang/MSB
Les risques de sécurité MCP derrière les Agents
Figure 1 : Framework d'attaque MCP
Le MCP élargit considérablement les capacités des Agents, mais aussi considérablement la surface d'attaque. Dans l'écosystème MCP, le flux d'appel d'outils d'un Agent comprend généralement trois étapes :
1. Planification de la tâche (Task Planning) : L'Agent sélectionne l'outil approprié en fonction de la requête utilisateur, via le nom et la description de l'outil.
2. Appel de l'outil (Tool Invocation) : L'Agent envoie une requête à l'outil sélectionné et transmet les paramètres correspondants pour exécuter l'opération spécifique.
3. Traitement de la réponse (Response Handling) : L'Agent analyse le résultat renvoyé par l'outil et continue son raisonnement ou génère la réponse finale en conséquence.
Chaque étape peut devenir un nouveau point d'entrée d'attaque. Le MSB couvre toutes les étapes de l'appel d'outils MCP et est spécialement conçu pour évaluer la sécurité des Agents basés sur l'utilisation d'outils MCP. Il présente trois points forts principaux :
Système de classification des attaques MCP
Dans le flux de travail MCP, l'Agent interagit avec les outils via leur identifiant (nom et description), les paramètres et les réponses des outils, qui peuvent tous devenir des vecteurs d'attaque. Le MSB classe les types d'attaque en fonction de ces vecteurs et des phases d'interaction :
Attaque sur la signature d'outil (Tool Signature Attack) : Lors de la phase de planification de tâche, utilisation du nom et de la description de l'outil pour attaquer, incluant :
Collision de noms (Name Collision, NC) : Création d'un outil malveillant au nom similaire à un outil officiel pour induire l'Agent en erreur.
Manipulation des préférences (Preference Manipulation, PM) : Injection de phrases promotionnelles dans la description de l'outil pour inciter l'Agent à le choisir.
Injection d'invite (Prompt Injection, PI) : Injection d'instructions malveillantes dans la description de l'outil.
Attaque sur les paramètres d'outil (Tool Parameter Attack) : Lors de la phase d'appel d'outil, utilisation des paramètres de l'outil pour attaquer, incluant :
Paramètre hors scope (Out-of-Scope Parameter, OP) : Définition de paramètres d'outil dépassant les fonctionnalités normales, provoquant une fuite d'information via les paramètres.
Attaque sur la réponse d'outil (Tool Response Attack) : Lors de la phase de traitement de la réponse, utilisation de la réponse de l'outil pour attaquer, incluant :
Usurpation d'utilisateur (User Impersonation, UI) : Se faire passer pour l'utilisateur pour donner des instructions malveillantes.
Fausse erreur (False Error, FE) : Fourniture de fausses informations d'erreur d'exécution d'outil, exigeant que l'Agent suive des instructions malveillantes pour réussir l'appel.
Redirection d'outil (Tool Transfer, TT) : Ordonner à l'Agent d'appeler un outil malveillant.
Attaque par injection de récupération (Retrieval Injection Attack) : Lors de la phase de traitement de la réponse, utilisation de ressources externes pour attaquer, incluant :
Injection de récupération (Retrieval Injection, RI) : Des ressources externes intégrant des instructions malveillantes corrompent le contexte via la réponse de l'outil.
Attaque mixte (Mixed Attack) : Sur plusieurs étapes, utilisation simultanée de multiples composants d'outil pour attaquer, incluant des combinaisons des attaques ci-dessus.
Suite d'exécution basée sur un environnement réel
Le MSB refuse les évaluations simulées théoriques. Il est équipé de vrais serveurs MCP, couvrant 10 scénarios réalistes, 405 outils réels et 2 000 instances d'attaque. Toutes les instances exécutent de vrais outils via MCP, reflétant fidèlement un environnement opérationnel réel, afin d'observer directement le degré de dommage causé par l'attaque à l'état de l'environnement.
L'indicateur NRP équilibrant performance et sécurité
Dans l'évaluation de la sécurité des Agents, se fier uniquement au taux de réussite des attaques (ASR, Attack Success Rate) est très trompeur. Si un Agent refuse d'exécuter tout appel d'outil pour éviter les risques, son ASR pourrait être proche de 0, mais il deviendrait inutile pour accomplir les tâches utilisateur, perdant ainsi sa valeur pratique.
Pour cela, le MSB propose l'indicateur de Performance Résiliente Nette NRP (Net Resilient Performance) :
NRP = PUA ⋅ (1 − ASR)
Où PUA (Performance Under Attack) est la proportion de tâches utilisateur que l'Agent accomplit dans un environnement hostile, et ASR est le taux de réussite des attaques. Le NRP vise à évaluer la capacité globale de résistance aux risques de l'Agent, à la fois à résister aux attaques et à maintenir ses performances, fournissant une norme quantitative complète équilibrant performance et sécurité.
Figure 2 : NRP vs ASR, NRP vs PUA.
Toutes les méthodes d'attaque sont efficaces
Figure 3 : Résultats principaux de l'expérience.
L'équipe de recherche a utilisé le MSB pour tester à grande échelle 10 modèles principaux, dont GPT-5, DeepSeek-V3.1, Claude 4 Sonnet, Qwen3. Toutes les méthodes d'attaque se sont avérées efficaces, avec un ASR moyen global de 40,35%. Parmi elles, les nouvelles attaques introduites par le MCP sont plus agressives ; comparées aux attaques PI et RI déjà existantes dans les function calling, les attaques basées sur le MCP comme UI et FE ont un taux de réussite plus élevé. Les attaques mixtes, quant à elles, montrent un effet synergique : leur taux de réussite est supérieur à celui des attaques simples qui les composent.
Plus le modèle est puissant, plus il est fragile
La relation entre les différents indicateurs révèle une conclusion contre-intuitive : plus un modèle est capable, plus il est souvent vulnérable aux attaques.
Figure 4 : PUA vs ASR.
Dans le MSB, accomplir une tâche d'attaque nécessite toujours que l'Agent appelle des outils, par exemple utiliser un outil de lecture de fichier pour obtenir des informations personnelles. Les LLM ayant une plus grande utilité, grâce à leurs meilleures capacités d'appel d'outils et de suivi d'instructions, présentent un ASR plus élevé. Cette découverte révèle l'énorme risque pratique des vulnérabilités de sécurité du MCP.
Compromission de l'environnement à toutes les étapes et dans des environnements multi-outils
Figure 5 : ASR selon les étapes et configurations d'outils.
Une analyse plus approfondie sous l'angle du flux de travail MCP et de la configuration des outils révèle que l'Agent est vulnérable aux attaques à toutes les étapes du MCP, la sécurité du modèle étant la plus faible lors de la phase d'appel d'outil.
De plus, même dans des environnements multi-outils contenant des outils inoffensifs, les attaques restent efficaces. Les scénarios réels fournissent généralement une boîte à outils à l'Agent. Même en présence d'outils inoffensifs, des techniques d'induction comme NC, PM et TT entraînent toujours des taux de attaque significatifs.
Conclusion
Le succès fulgurant d'OpenClaw a permis de voir concrètement l'avenir des Agents : les grands modèles ne se contentent plus de répondre aux questions, ils commencent à agir réellement. C'est dans ce contexte que le MSB a été proposé. Il révèle systématiquement les surfaces d'attaque potentielles dans l'écosystème MCP et fournit à la recherche sur la sécurité des Agents un benchmark d'évaluation systématique, reproductible et quantifiable.
Par le passé, la recherche sur la sécurité des grands modèles se concentrait principalement sur les risques au niveau linguistique, comme l'injection d'invite. Le MSB montre que lorsque l'IA appelle des outils et interagit avec des systèmes réels, la surface d'attaque s'étend également de l'espace textuel à l'écosystème des outils. Alors que les Agents deviennent progressivement le nouveau paradigme des applications IA, la sécurité devient peut-être le seuil incontournable à franchir pour cette transition technologique.
Références :
https://openreview.net/pdf?id=irxxkFMrry
Cet article provient du compte WeChat public «新智元» (New Zhi Yuan), auteur : 新智元











