El protocolo MCP está impulsando que los agentes de IA ejecuten tareas de forma autónoma, pero los riesgos de seguridad se disparan. Un estudio revela que los atacantes pueden engañar a los agentes para que ejecuten operaciones maliciosas mediante 12 técnicas, como la confusión de nombres de herramientas y errores falsos, y hasta los modelos más avanzados son vulnerables. El equipo de la Universidad de Beijing de Correos y Telecomunicaciones ha publicado el estándar de seguridad MSB, que mediante pruebas en entornos reales muestra: cuanto más potente es el modelo, más susceptible es a los ataques. El nuevo indicador NRP equilibra por primera vez la seguridad y la utilidad, proporcionando una métrica clave para fortalecer las defensas de los agentes de IA.
Recientemente, proyectos de agentes de IA de código abierto como OpenClaw se han vuelto extremadamente populares en la comunidad de desarrolladores. Con solo una frase, el agente puede escribir código automáticamente, buscar información, manipular archivos locales e incluso tomar el control de la computadora.
Detrás de esta sorprendente autonomía de los agentes está la capacidad proporcionada por la invocación de herramientas, y el MCP (Model Context Protocol, Protocolo de Contexto del Modelo) es precisamente la interfaz que unifica el ecosistema de herramientas de IA. Al igual que el USB-C permite conectar diversos dispositivos a una computadora, el MCP permite que los modelos de lenguaje grande invoquen herramientas externas, como el sistema de archivos, navegadores y bases de datos, de manera estandarizada.
Frente a un ecosistema tan vasto, incluso OpenClaw, que se centra en la línea de comandos nativa, ha incorporado el MCP a través de un adaptador para obtener una mayor gama de capacidades de herramientas.
Sin embargo, cuanto más se extiende la "mano" de la IA, mayor es el peligro. ¿Y si las herramientas que invoca el agente están envenenadas por hackers? ¿Y si los mensajes de error que devuelven las herramientas ocultan instrucciones maliciosas?
Cuando el modelo de lenguaje grande ejecuta estas instrucciones sin ninguna precaución, sus datos privados, archivos locales e incluso los permisos del servidor se convertirán en botín para los hackers.
Para llenar el vacío en la evaluación de seguridad del ecosistema MCP, un equipo de investigación de la Universidad de Beijing de Correos y Telecomunicaciones, entre otras instituciones, ha presentado un estándar de seguridad específico para el protocolo MCP: MSB (MCP Security Bench). El estudio revela que: los ataques en cada fase del MCP son efectivos. Cuanto más potente es el modelo, más susceptible es a los ataques. El artículo ha sido aceptado en ICLR 2026.
Enlace al artículo: https://openreview.net/pdf?id=irxxkFMrry
Código: https://github.com/dongsenzhang/MSB
Riesgos de seguridad del MCP detrás de los agentes
Figura 1: Marco de ataque MCP
El MCP amplía enormemente las capacidades de los agentes, pero también amplía enormemente la superficie de ataque. Bajo el sistema MCP, el flujo de invocación de herramientas de un agente generalmente incluye tres fases:
1. Planificación de tareas (Task Planning): El agente, según la consulta del usuario, selecciona la herramienta adecuada mediante el nombre y la descripción de la herramienta.
2. Invocación de herramientas (Tool Invocation): El agente envía una solicitud a la herramienta seleccionada y pasa los parámetros correspondientes para ejecutar operaciones específicas.
3. Procesamiento de respuestas (Response Handling): El agente analiza el resultado de la respuesta de la herramienta y, en base a ello, continúa razonando o genera una respuesta final.
Cada fase puede convertirse en un nuevo punto de entrada para un ataque. MSB cubre todas las fases completas de invocación de herramientas MCP y está específicamente diseñado para evaluar la seguridad de los agentes basados en el uso de herramientas MCP, con tres aspectos destacados:
Sistema de clasificación de ataques MCP
En el flujo de trabajo MCP, el agente interactúa con las herramientas a través de identificadores de herramientas (nombre y descripción), parámetros y respuestas de herramientas, todos los cuales pueden convertirse en vías de ataque. MSB clasifica los tipos de ataque según estas vías y las fases de interacción:
Ataque a la Firma de la Herramienta (Tool Signature Attack): En la fase de planificación de tareas, utiliza el nombre y la descripción de la herramienta para atacar, incluyendo:
Colisión de nombres (Name Collision, NC): Crear una herramienta maliciosa con un nombre similar al de una herramienta oficial para inducir al agente a seleccionarla.
Manipulación de preferencias (Preference Manipulation, PM): Inyectar frases promocionales en la descripción de la herramienta para inducir al agente a seleccionarla.
Inyección de prompt (Prompt Injection, PI): Inyectar instrucciones maliciosas en la descripción de la herramienta.
Ataque a los Parámetros de la Herramienta (Tool Parameter Attack): En la fase de invocación de herramientas, utiliza los parámetros de la herramienta para atacar, incluyendo:
Parámetro fuera de alcance (Out-of-Scope Parameter, OP): Establecer parámetros de herramienta que exceden la funcionalidad normal, provocando fugas de información mediante la transferencia de parámetros.
Ataque a la Respuesta de la Herramienta (Tool Response Attack): En la fase de procesamiento de respuestas, utiliza la respuesta de la herramienta para atacar, incluyendo:
Suplantación de usuario (User Impersonation, UI): Suplantar al usuario para emitir instrucciones maliciosas.
Error falso (False Error, FE): Proporcionar información falsa de error en la ejecución de la herramienta, requiriendo que el agente siga instrucciones maliciosas para invocar la herramienta con éxito.
Redireccionamiento de herramienta (Tool Transfer, TT): Indicar al agente que invoque una herramienta maliciosa.
Ataque de Inyección en Recuperación (Retrieval Injection Attack): En la fase de procesamiento de respuestas, utiliza recursos externos para atacar, incluyendo:
Inyección en recuperación (Retrieval Injection, RI): Recursos externos que incrustan instrucciones maliciosas corrompen el contexto a través de la respuesta de la herramienta.
Ataque Mixto (Mixed Attack): En múltiples fases, utiliza simultáneamente múltiples componentes de herramientas para atacar, incluyendo combinaciones de los ataques anteriores.
Suite de ejecución basada en entorno real
MSB rechaza las evaluaciones simuladas teóricas; está equipado con servidores MCP reales, abarcando 10 escenarios realistas, 405 herramientas reales y 2,000 instancias de ataque. Todas las instancias se ejecutan a través de MCP con ejecución real de herramientas, reflejando fielmente el entorno operativo real para observar directamente el grado de daño al estado del ambiente causado por los ataques.
Indicador NRP que equilibra rendimiento y seguridad
En la evaluación de seguridad de agentes, confiar únicamente en la tasa de éxito de ataques (ASR, Attack Success Rate) es engañoso. Si un agente se niega a ejecutar cualquier invocación de herramienta para evitar riesgos, su ASR podría acercarse a 0, pero al mismo tiempo no podría completar las tareas del usuario, perdiendo valor práctico.
Por ello, MSB propone el indicador de Rendimiento Neto Resiliente NRP (Net Resilient Performance):
NRP = PUA ⋅ (1 − ASR)
Donde PUA (Performance Under Attack) es la proporción en que el agente completa las tareas del usuario en un entorno adverso, y ASR es la tasa de éxito de los ataques. El NRP tiene como objetivo evaluar la capacidad general de resistencia al riesgo del agente, manteniendo el rendimiento mientras resiste los ataques, proporcionando un estándar de medición integral que equilibra el rendimiento y la seguridad.
Figura 2: NRP vs ASR, NRP vs PUA.
Todos los métodos de ataque son efectivos
Figura 3: Resultados experimentales principales.
El equipo de investigación utilizó MSB para realizar pruebas a gran escala en 10 modelos principales, incluidos GPT-5, DeepSeek-V3.1, Claude 4 Sonnet, Qwen3, etc. Todos los métodos de ataque demostraron ser efectivos, con una ASR promedio general del 40.35%. Entre ellos, los nuevos ataques introducidos por MCP son más agresivos. En comparación con los ataques PI y RI ya existentes en function calling, los ataques basados en MCP, como UI y FE, tienen una tasa de éxito más alta. Los ataques mixtos muestran una sinergia de mejora, la tasa de éxito de los ataques mixtos es mayor que la de los ataques individuales que los componen.
Cuanto más potente es el modelo, más frágil es
La relación entre los diferentes indicadores revela una conclusión contraintuitiva: los modelos más capaces suelen ser más susceptibles a los ataques.
Figura 4: PUA vs ASR.
En MSB, completar una tarea de ataque aún requiere que el agente invoque herramientas, por ejemplo, usar una herramienta de lectura de archivos para obtener información personal. Los LLM con mayor utilidad, debido a su mejor capacidad de invocación de herramientas y seguimiento de instrucciones, muestran una ASR más alta. Este hallazgo revela el enorme riesgo práctico de las vulnerabilidades de seguridad del MCP.
Compromiso ambiental en todas las fases y múltiples herramientas
Figura 5: ASR en diferentes fases y configuraciones de herramientas.
Un análisis más profundo desde la perspectiva del flujo de trabajo MCP y la configuración de herramientas revela que el agente es susceptible a ataques en todas las fases del MCP, siendo la seguridad del modelo más baja en la fase de invocación de herramientas.
Además, incluso en entornos de múltiples herramientas que incluyen herramientas inofensivas, los ataques siguen siendo efectivos. Los escenarios reales suelen proporcionar paquetes de herramientas a los agentes; incluso si hay herramientas inofensivas, métodos de inducción como NC, PM y TT aún pueden provocar un éxito significativo de los ataques.
Resumen
La popularidad de OpenClaw ha permitido vislumbrar intuitivamente el futuro de los agentes: los modelos de lenguaje grande ya no solo responden preguntas, sino que comienzan a realizar tareas reales. MSB se propone en este contexto, revelando sistemáticamente las posibles superficies de ataque en el ecosistema MCP y proporcionando un estándar de evaluación sistemático, reproducible y cuantificable para la investigación de seguridad de agentes.
Investigaciones anteriores sobre seguridad de modelos de lenguaje grande se centraban principalmente en riesgos a nivel de lenguaje, como la inyección de prompts. MSB demuestra que cuando la IA invoca herramientas e interactúa con sistemas reales, la superficie de ataque también se está expandiendo desde el espacio textual al ecosistema de herramientas. A medida que los agentes se convierten gradualmente en el nuevo paradigma de las aplicaciones de IA, la seguridad podría convertirse en un umbral que debe superarse en este salto tecnológico.
Referencias:
https://openreview.net/pdf?id=irxxkFMrry
Este artículo proviene del WeChat público "新智元" (New Wisdom Yuan), autor: 新智元











