OpenClaw fait un tabac, exposant 12 types de risques mortels, le benchmark de sécurité du protocole MCP est publié

marsbitPublié le 2026-04-16Dernière mise à jour le 2026-04-16

Résumé

L'essor des agents IA comme OpenClaw, reposant sur le protocole MCP (Model Context Protocol), expose des risques de sécurité critiques. Une recherche de l'Université des Postes et Télécommunications de Pékin révèle 12 vulnérabilités exploitables, telles que l'usurpation d'outils, les fausses erreurs et les injections de prompt. Le benchmark MSB (MCP Security Bench), testé en environnement réel, montre que toutes ces attaques sont efficaces, avec un taux de réussite moyen de 40,35%. Paradoxalement, les modèles les plus performants (comme GPT-5 ou Claude 4) sont les plus vulnérables. Un nouvel indicateur, le NRP (Net Resilient Performance), est proposé pour équilibrer sécurité et utilité pratique. Cette étude, acceptée à ICLR 2026, alerte sur l'urgence de sécuriser l'écosystème MCP alors que les agents IA gagnent en autonomie.

Le protocole MCP permet aux agents IA d'exécuter des tâches de manière autonome, mais les risques de sécurité explosent. Une étude révèle que des attaquants peuvent, par des techniques telles que l'obfuscation des noms d'outils ou de fausses erreurs (12 méthodes au total), tromper l'agent pour qu'il exécute des opérations malveillantes, et même les modèles les plus avancés n'y échappent pas. L'équipe de l'Université des Postes et Télécommunications de Beijing publie le benchmark de sécurité MSB, qui révèle grâce à des tests en environnement réel : plus un modèle est performant, plus il est vulnérable aux attaques. Le nouvel indicateur NRP équilibre pour la première fois sécurité et utilité, offrant une mesure cruciale pour renforcer la défense des agents IA.

Récemment, des projets open source d'agents IA comme OpenClaw ont connu un immense succès dans la communauté des développeurs. Avec une simple phrase, l'agent peut automatiquement vous aider à écrire du code, rechercher des informations, manipuler des fichiers locaux, voire prendre le contrôle de votre ordinateur.

Derrière cette autonomie impressionnante des agents se trouve la capacité fournie par l'appel d'outils, et le MCP (Model Context Protocol, protocole de contexte de modèle) est justement l'interface qui unifie l'écosystème des outils IA. Tout comme l'USB-C permet à un ordinateur de se connecter à divers périphériques, le MCP permet aux grands modèles d'appeler des outils externes (système de fichiers, navigateur, base de données, etc.) de manière standardisée.

Face à un écosystème si vaste, même OpenClaw, qui mise sur les commandes natives, a intégré le M via un adaptateur pour accéder à des capacités outils plus étendues.

Cependant, à mesure que le « bras » de l'IA s'allonge, le danger augmente aussi. Et si l'outil appelé par l'Agent était lui-même empoisonné par un pirate ? Et si les messages d'erreur renvoyés par l'outil contenaient des instructions malveillantes ?

Lorsque le grand modèle exécute ces instructions sans méfiance, vos données privées, vos fichiers locaux et même les droits d'accès à vos serveurs deviennent la proie des hackers.

Pour combler le vide en matière d'évaluation de la sécurité de l'écosystème MCP, une équipe de recherche de l'Université des Postes et Télécommunications de Beijing, entre autres, a lancé un benchmark de sécurité spécifique au protocole MCP : le MSB (MCP Security Bench). L'étude révèle que : les attaques à chaque étape du MCP sont efficaces. Plus le modèle est performant, plus il est susceptible d'être attaqué. L'article a été accepté à l'ICLR 2026.

Lien de l'article : https://openreview.net/pdf?id=irxxkFMrry

Code : https://github.com/dongsenzhang/MSB

Les risques de sécurité MCP derrière les Agents

Figure 1 : Framework d'attaque MCP

Le MCP élargit considérablement les capacités des Agents, mais aussi considérablement la surface d'attaque. Dans l'écosystème MCP, le flux d'appel d'outils d'un Agent comprend généralement trois étapes :

1. Planification de la tâche (Task Planning) : L'Agent sélectionne l'outil approprié en fonction de la requête utilisateur, via le nom et la description de l'outil.

2. Appel de l'outil (Tool Invocation) : L'Agent envoie une requête à l'outil sélectionné et transmet les paramètres correspondants pour exécuter l'opération spécifique.

3. Traitement de la réponse (Response Handling) : L'Agent analyse le résultat renvoyé par l'outil et continue son raisonnement ou génère la réponse finale en conséquence.

Chaque étape peut devenir un nouveau point d'entrée d'attaque. Le MSB couvre toutes les étapes de l'appel d'outils MCP et est spécialement conçu pour évaluer la sécurité des Agents basés sur l'utilisation d'outils MCP. Il présente trois points forts principaux :

Système de classification des attaques MCP

Dans le flux de travail MCP, l'Agent interagit avec les outils via leur identifiant (nom et description), les paramètres et les réponses des outils, qui peuvent tous devenir des vecteurs d'attaque. Le MSB classe les types d'attaque en fonction de ces vecteurs et des phases d'interaction :

Attaque sur la signature d'outil (Tool Signature Attack) : Lors de la phase de planification de tâche, utilisation du nom et de la description de l'outil pour attaquer, incluant :

Collision de noms (Name Collision, NC) : Création d'un outil malveillant au nom similaire à un outil officiel pour induire l'Agent en erreur.

Manipulation des préférences (Preference Manipulation, PM) : Injection de phrases promotionnelles dans la description de l'outil pour inciter l'Agent à le choisir.

Injection d'invite (Prompt Injection, PI) : Injection d'instructions malveillantes dans la description de l'outil.

Attaque sur les paramètres d'outil (Tool Parameter Attack) : Lors de la phase d'appel d'outil, utilisation des paramètres de l'outil pour attaquer, incluant :

Paramètre hors scope (Out-of-Scope Parameter, OP) : Définition de paramètres d'outil dépassant les fonctionnalités normales, provoquant une fuite d'information via les paramètres.

Attaque sur la réponse d'outil (Tool Response Attack) : Lors de la phase de traitement de la réponse, utilisation de la réponse de l'outil pour attaquer, incluant :

Usurpation d'utilisateur (User Impersonation, UI) : Se faire passer pour l'utilisateur pour donner des instructions malveillantes.

Fausse erreur (False Error, FE) : Fourniture de fausses informations d'erreur d'exécution d'outil, exigeant que l'Agent suive des instructions malveillantes pour réussir l'appel.

Redirection d'outil (Tool Transfer, TT) : Ordonner à l'Agent d'appeler un outil malveillant.

Attaque par injection de récupération (Retrieval Injection Attack) : Lors de la phase de traitement de la réponse, utilisation de ressources externes pour attaquer, incluant :

Injection de récupération (Retrieval Injection, RI) : Des ressources externes intégrant des instructions malveillantes corrompent le contexte via la réponse de l'outil.

Attaque mixte (Mixed Attack) : Sur plusieurs étapes, utilisation simultanée de multiples composants d'outil pour attaquer, incluant des combinaisons des attaques ci-dessus.

Suite d'exécution basée sur un environnement réel

Le MSB refuse les évaluations simulées théoriques. Il est équipé de vrais serveurs MCP, couvrant 10 scénarios réalistes, 405 outils réels et 2 000 instances d'attaque. Toutes les instances exécutent de vrais outils via MCP, reflétant fidèlement un environnement opérationnel réel, afin d'observer directement le degré de dommage causé par l'attaque à l'état de l'environnement.

L'indicateur NRP équilibrant performance et sécurité

Dans l'évaluation de la sécurité des Agents, se fier uniquement au taux de réussite des attaques (ASR, Attack Success Rate) est très trompeur. Si un Agent refuse d'exécuter tout appel d'outil pour éviter les risques, son ASR pourrait être proche de 0, mais il deviendrait inutile pour accomplir les tâches utilisateur, perdant ainsi sa valeur pratique.

Pour cela, le MSB propose l'indicateur de Performance Résiliente Nette NRP (Net Resilient Performance) :

NRP = PUA ⋅ (1 − ASR)

Où PUA (Performance Under Attack) est la proportion de tâches utilisateur que l'Agent accomplit dans un environnement hostile, et ASR est le taux de réussite des attaques. Le NRP vise à évaluer la capacité globale de résistance aux risques de l'Agent, à la fois à résister aux attaques et à maintenir ses performances, fournissant une norme quantitative complète équilibrant performance et sécurité.

Figure 2 : NRP vs ASR, NRP vs PUA.

Toutes les méthodes d'attaque sont efficaces

Figure 3 : Résultats principaux de l'expérience.

L'équipe de recherche a utilisé le MSB pour tester à grande échelle 10 modèles principaux, dont GPT-5, DeepSeek-V3.1, Claude 4 Sonnet, Qwen3. Toutes les méthodes d'attaque se sont avérées efficaces, avec un ASR moyen global de 40,35%. Parmi elles, les nouvelles attaques introduites par le MCP sont plus agressives ; comparées aux attaques PI et RI déjà existantes dans les function calling, les attaques basées sur le MCP comme UI et FE ont un taux de réussite plus élevé. Les attaques mixtes, quant à elles, montrent un effet synergique : leur taux de réussite est supérieur à celui des attaques simples qui les composent.

Plus le modèle est puissant, plus il est fragile

La relation entre les différents indicateurs révèle une conclusion contre-intuitive : plus un modèle est capable, plus il est souvent vulnérable aux attaques.

Figure 4 : PUA vs ASR.

Dans le MSB, accomplir une tâche d'attaque nécessite toujours que l'Agent appelle des outils, par exemple utiliser un outil de lecture de fichier pour obtenir des informations personnelles. Les LLM ayant une plus grande utilité, grâce à leurs meilleures capacités d'appel d'outils et de suivi d'instructions, présentent un ASR plus élevé. Cette découverte révèle l'énorme risque pratique des vulnérabilités de sécurité du MCP.

Compromission de l'environnement à toutes les étapes et dans des environnements multi-outils

Figure 5 : ASR selon les étapes et configurations d'outils.

Une analyse plus approfondie sous l'angle du flux de travail MCP et de la configuration des outils révèle que l'Agent est vulnérable aux attaques à toutes les étapes du MCP, la sécurité du modèle étant la plus faible lors de la phase d'appel d'outil.

De plus, même dans des environnements multi-outils contenant des outils inoffensifs, les attaques restent efficaces. Les scénarios réels fournissent généralement une boîte à outils à l'Agent. Même en présence d'outils inoffensifs, des techniques d'induction comme NC, PM et TT entraînent toujours des taux de attaque significatifs.

Conclusion

Le succès fulgurant d'OpenClaw a permis de voir concrètement l'avenir des Agents : les grands modèles ne se contentent plus de répondre aux questions, ils commencent à agir réellement. C'est dans ce contexte que le MSB a été proposé. Il révèle systématiquement les surfaces d'attaque potentielles dans l'écosystème MCP et fournit à la recherche sur la sécurité des Agents un benchmark d'évaluation systématique, reproductible et quantifiable.

Par le passé, la recherche sur la sécurité des grands modèles se concentrait principalement sur les risques au niveau linguistique, comme l'injection d'invite. Le MSB montre que lorsque l'IA appelle des outils et interagit avec des systèmes réels, la surface d'attaque s'étend également de l'espace textuel à l'écosystème des outils. Alors que les Agents deviennent progressivement le nouveau paradigme des applications IA, la sécurité devient peut-être le seuil incontournable à franchir pour cette transition technologique.

Références :

https://openreview.net/pdf?id=irxxkFMrry

Cet article provient du compte WeChat public «新智元» (New Zhi Yuan), auteur : 新智元

Questions liées

QQu'est-ce que le protocole MCP et quel est son rôle dans les agents IA ?

ALe MCP (Model Context Protocol) est un protocole qui standardise la façon dont les modèles d'IA peuvent interagir avec des outils externes tels que le système de fichiers, les navigateurs ou les bases de données. Il agit comme une interface unifiée pour l'écosystème des outils d'IA, permettant aux agents d'exécuter des tâches de manière autonome, comme écrire du code, rechercher des informations ou manipuler des fichiers locaux.

QQuels sont les trois principaux points forts du benchmark de sécurité MSB ?

ALe benchmark de sécurité MSB présente trois points forts principaux : 1) Un système de classification des attaques couvrant les vulnérabilités du protocole MCP, 2) Une suite d'exécution en environnement réel avec de vrais serveurs MCP, scénarios et outils, et 3) Un nouvel indicateur appelé NRP (Net Resilient Performance) qui évalue l'équilibre entre la performance et la sécurité des agents.

QQu'est-ce que l'indicateur NRP et pourquoi est-il important ?

ALe NRP (Net Resilient Performance) est un indicateur qui mesure la capacité globale d'un agent à résister aux attaques tout en maintenant ses performances. Il est calculé par la formule NRP = PUA ⋅ (1 − ASR), où PUA est la performance sous attaque (capacité à accomplir les tâches) et ASR est le taux de réussite des attaques. Il est crucial car il évalue simultanément l'efficacité et la sécurité, évitant qu'un agent trop restrictif soit considéré comme 'sécurisé' simplement parce qu'il refuse toute exécution.

QQuel est le résultat contre-intuitif concernant la puissance des modèles et leur vulnérabilité ?

AL'étude révèle un résultat contre-intuitif : les modèles d'IA les plus puissants et performants sont paradoxalement les plus vulnérables aux attaques. Leur capacité supérieure à comprendre les instructions et à utiliser les outils les rend également plus susceptibles d'être trompés et de suivre des instructions malveillantes intégrées dans les outils ou leurs réponses, ce qui entraîne un taux de réussite d'attaque (ASR) plus élevé.

QQu'est-ce qu'une 'False Error (FE)' dans le cadre des attaques MCP ?

AUne 'False Error' (Fausse Erreur, FE) est un type d'attaque qui se produit pendant la phase de traitement de la réponse. L'outil malveillant renvoie délibérément un message d'erreur frauduleux à l'agent, lui indiquant que l'appel de l'outil a échoué. Ce message d'erreur contient des instructions malveillantes que l'agent est incité à suivre pour soi-disant corriger l'erreur et réussir l'appel, le conduisant ainsi à exécuter des actions non désirées.

Lectures associées

Near fait son retour sur la scène de l'IA : Transformation en blockchain publique après des difficultés de paie, les Agents et la confidentialité deviennent les nouvelles opportunités de croissance

Near, fondé en 2017 par Illia Polosukhin (co-auteur de l'article Transformer) et Alexander Skidanov, est né d'un problème pratique : une startup IA ne pouvait pas payer ses développeurs internationaux en raison des limites des systèmes de paiement transfrontalier. Cette contrainte a conduit à la création d'une blockchain performante. Après des débuts difficiles dans un paysage concurrentiel, Near a trouvé un nouvel élan en 2024, recentrant sa stratégie sur l'IA et l'abstraction inter-chaînes via son système "Near Intents". Ce mécanisme permet aux utilisateurs (ou aux agents IA) d'exprimer simplement leur intention de transaction (ex: échanger du BTC contre de l'ETH sur une autre chaîne), tandis qu'un réseau de "solveurs" calcule et exécute le meilleur parcours. Cette innovation a généré plus de 200 milliards de dollars de volume transfrontalier et plus de 33 millions de dollars de frais. Parallèlement, Near a introduit des "Intentions Confidentielles" pour les échanges privés, répondant à la demande croissante de confidentialité en DeFi. Ces transactions, qui masquent les montants et les directions avant règlement, représentent déjà plus de 40% du volume récent sur le réseau, attirant les gros investisseurs mais soulevant aussi des questions potentielles de régulation. Ainsi, Near revient à ses racines liées à l'IA, en combinant abstraction des chaînes, intents et confidentialité pour se positionner dans l'économie des agents intelligents et construire un nouvel écosystème.

marsbitIl y a 1 h

Near fait son retour sur la scène de l'IA : Transformation en blockchain publique après des difficultés de paie, les Agents et la confidentialité deviennent les nouvelles opportunités de croissance

marsbitIl y a 1 h

Des "CROPS" d'Ethereum à l'IA : ce que Vitalik souligne sans cesse, ces "variables lentes", qu'est-ce que c'est ?

Ces dernières semaines, Vitalik Buterin a introduit et mis en avant le concept de **CROPS**. Il s'agit d'un cadre de valeurs fondamentales pour Ethereum, défini dans un document de l'Ethereum Foundation (EF Mandate), qui guide le développement à long terme du protocole. CROPS est l'acronyme de : * **C**ensorship Resistance (Résistance à la censure) * **C**apture Resistance (Résistance à la capture) * **O**pen Source (Open source) * **P**rivacy (Vie privée) * **S**ecurity (Sécurité) Pour Ethereum, il ne s'agit pas seulement d'être rapide et peu coûteux, mais de fournir une infrastructure où les utilisateurs peuvent détenir des actifs, interagir et se coordonner sans dépendre d'une plateforme unique, sans céder le contrôle final et sans être arbitrairement bloqués. L'intérêt de CROPS s'amplifie avec l'essor de l'**IA**, en particulier des agents autonomes. Ces derniers risquent de devenir le principal intermédiaire pour les opérations numériques des utilisateurs, y compris la gestion d'actifs sur la blockchain. Si ces agents fonctionnent dans des "boîtes noires" centralisées, ils pourraient compromettre la vie privée, la sécurité et le contrôle des utilisateurs. C'est pourquoi Vitalik évoque désormais la convergence entre le **"CROPS Ethereum access layer"** et le **"CROPS AI"**. L'objectif est de développer des outils où l'accès aux données de la blockchain (via des RPC) et l'utilisation de modèles d'IA (comme les LLM) puissent se faire de manière **privée, vérifiable et décentralisée**. Des technologies comme les preuves à connaissance nulle (ZK) pourraient permettre d'utiliser des services distants sans révéler ses informations personnelles ou ses intentions. En résumé, CROPS n'est pas un simple slogan mais un principe directeur crucial. Il pose une question essentielle pour l'ère de l'IA : alors que les systèmes numériques deviennent plus puissants et autonomes, **les utilisateurs peuvent-ils conserver la souveraineté sur leurs actifs, leurs données et leurs actions ?** La réponse, pour Ethereum et l'écosystème Web3, passe par la construction d'infrastructures et d'expériences utilisateur alignées sur ces valeurs de résistance, d'ouverture, de vie privée et de sécurité.

marsbitIl y a 1 h

Des "CROPS" d'Ethereum à l'IA : ce que Vitalik souligne sans cesse, ces "variables lentes", qu'est-ce que c'est ?

marsbitIl y a 1 h

Token pas économique, Économie pas Token

L'industrie de l'IA traverse une transformation profonde, marquée par deux tendances : un besoin massif de financement et la scission des actifs d'IA au sein des grandes entreprises. La course aux capacités de calcul (compute) est devenue un concours d'actifs lourds, où la croissance des utilisateurs alourdit les coûts plutôt que de générer des profits, créant une pression intense sur les flux de trésorerie. Des pratiques comme la "comptabilité circulaire" (où les investissements sont échangés contre des services cloud) masquent les défis sous-jacents. Parallèlement, la scission d'unités d'IA (comme Kling de Kuaishou ou Kunlunxin de Baidu) permet une réévaluation spectaculaire. D'un "centre de coûts" au sein d'un groupe, elles deviennent des "centres de valeur" indépendants, évaluées sur leur potentiel de croissance et leur rareté plutôt que sur leur rentabilité immédiate, multipliant parfois leur valorisation par trois. Le récit de l'industrie évolue structurellement : on passe d'une "vénération des modèles" à une exigence de "matérialisation de la valeur". La contradiction entre des investissements énormes et un retour sur investissement encore limité signale la douloureuse transition vers une phase de commercialisation. Le centre de gravité se déplace également de la seule puissance des GPU vers l'efficacité systémique (CPU, orchestration), déterminante pour la profitabilité. En somme, 2026 est l'année où l'industrie de l'IA, confrontée aux limites du financement par la croissance, doit répondre à une question fondamentale : quelle est la valeur économique réelle de cette technologie ? La réponse définira le paysage de puissance pour la décennie à venir.

marsbitIl y a 2 h

Token pas économique, Économie pas Token

marsbitIl y a 2 h

Le « rebond » du Bitcoin est-il terminé, marquant le début de la phase tardive d'un marché baissier ?

Bitcoin a chuté de 13% cette semaine, confirmant des caractéristiques typiques d'une phase tardive de marché baissier. Le prix est retombé en dessous de la moyenne du marché réel (77,8k $), un niveau historique de séparation entre tendances haussières et baissières, et la base de coût des détenteurs à court terme a franchi ce seuil pour la première fois depuis janvier 2022. Le ratio réalisé profit/pertes s'est effondré à 0.29, indiquant une domination des ventes à perte. Les pertes réalisées quotidiennes ont bondi à 1,35 milliard de dollars, dont 770 millions proviennent de détenteurs à long terme vendant au prix coûtant, signe d'une redistribution active des bitcoins. Le rallye s'est arrêté net au niveau du prix moyen d'acquisition des ETF spot américains (83k $), transformant ce soutien précédent en une forte résistance et replongeant les investisseurs ETF dans la perte latente. Sur le marché au comptant, les flux se sont nettement détériorés, avec un delta de volume négatif atteignant son niveau le plus faible depuis février, montrant que les vendeurs dominent à nouveau. Les marchés d'options continuent de tarifer une volatilité future élevée et une prime de risque pour les puts (options de vente), reflétant une demande persistante de protection contre les baisses, sans panique extrême cependant. Dans l'ensemble, malgré un événement de liquidation de levier important, l'absence de demande d'achat au comptant durable et la pression de vente continue des investisseurs en perte suggèrent que le marché reste vulnérable et pourrait connaître davantage de corrections ou de consolidation dans le cadre du marché baissier actuel.

marsbitIl y a 2 h

Le « rebond » du Bitcoin est-il terminé, marquant le début de la phase tardive d'un marché baissier ?

marsbitIl y a 2 h

Trading

Spot
Futures
活动图片