OpenClaw se vuelve viral, expone 12 tipos de riesgos mortales y se publica el estándar de seguridad del protocolo MCP

marsbitPublicado a 2026-04-16Actualizado a 2026-04-16

Resumen

El proyecto OpenClaw y otros agentes de IA de código abierto están ganando popularidad rápidamente, permitiendo que los modelos de IA ejecuten tareas de forma autónoma, como escribir código, buscar información y manipular archivos locales, gracias al protocolo de contexto de modelo (MCP). Sin embargo, esta capacidad conlleva riesgos de seguridad significativos. Investigadores de la Universidad de Beijing de Correos y Telecomunicaciones han desarrollado MSB, un benchmark de seguridad para evaluar los riesgos en el ecosistema MCP, identificando 12 tipos de ataques, como la suplantación de herramientas y errores falsos. Los resultados muestran que todos los métodos de ataque son efectivos, con una tasa promedio de éxito del 40,35%, y que los modelos más potentes son más vulnerables. El estudio también introduce el indicador NRP para medir el equilibrio entre seguridad y rendimiento.

El protocolo MCP está impulsando que los agentes de IA ejecuten tareas de forma autónoma, pero los riesgos de seguridad se disparan. Un estudio revela que los atacantes pueden engañar a los agentes para que ejecuten operaciones maliciosas mediante 12 técnicas, como la confusión de nombres de herramientas y errores falsos, y hasta los modelos más avanzados son vulnerables. El equipo de la Universidad de Beijing de Correos y Telecomunicaciones ha publicado el estándar de seguridad MSB, que mediante pruebas en entornos reales muestra: cuanto más potente es el modelo, más susceptible es a los ataques. El nuevo indicador NRP equilibra por primera vez la seguridad y la utilidad, proporcionando una métrica clave para fortalecer las defensas de los agentes de IA.

Recientemente, proyectos de agentes de IA de código abierto como OpenClaw se han vuelto extremadamente populares en la comunidad de desarrolladores. Con solo una frase, el agente puede escribir código automáticamente, buscar información, manipular archivos locales e incluso tomar el control de la computadora.

Detrás de esta sorprendente autonomía de los agentes está la capacidad proporcionada por la invocación de herramientas, y el MCP (Model Context Protocol, Protocolo de Contexto del Modelo) es precisamente la interfaz que unifica el ecosistema de herramientas de IA. Al igual que el USB-C permite conectar diversos dispositivos a una computadora, el MCP permite que los modelos de lenguaje grande invoquen herramientas externas, como el sistema de archivos, navegadores y bases de datos, de manera estandarizada.

Frente a un ecosistema tan vasto, incluso OpenClaw, que se centra en la línea de comandos nativa, ha incorporado el MCP a través de un adaptador para obtener una mayor gama de capacidades de herramientas.

Sin embargo, cuanto más se extiende la "mano" de la IA, mayor es el peligro. ¿Y si las herramientas que invoca el agente están envenenadas por hackers? ¿Y si los mensajes de error que devuelven las herramientas ocultan instrucciones maliciosas?

Cuando el modelo de lenguaje grande ejecuta estas instrucciones sin ninguna precaución, sus datos privados, archivos locales e incluso los permisos del servidor se convertirán en botín para los hackers.

Para llenar el vacío en la evaluación de seguridad del ecosistema MCP, un equipo de investigación de la Universidad de Beijing de Correos y Telecomunicaciones, entre otras instituciones, ha presentado un estándar de seguridad específico para el protocolo MCP: MSB (MCP Security Bench). El estudio revela que: los ataques en cada fase del MCP son efectivos. Cuanto más potente es el modelo, más susceptible es a los ataques. El artículo ha sido aceptado en ICLR 2026.

Enlace al artículo: https://openreview.net/pdf?id=irxxkFMrry

Código: https://github.com/dongsenzhang/MSB

Riesgos de seguridad del MCP detrás de los agentes

Figura 1: Marco de ataque MCP

El MCP amplía enormemente las capacidades de los agentes, pero también amplía enormemente la superficie de ataque. Bajo el sistema MCP, el flujo de invocación de herramientas de un agente generalmente incluye tres fases:

1. Planificación de tareas (Task Planning): El agente, según la consulta del usuario, selecciona la herramienta adecuada mediante el nombre y la descripción de la herramienta.

2. Invocación de herramientas (Tool Invocation): El agente envía una solicitud a la herramienta seleccionada y pasa los parámetros correspondientes para ejecutar operaciones específicas.

3. Procesamiento de respuestas (Response Handling): El agente analiza el resultado de la respuesta de la herramienta y, en base a ello, continúa razonando o genera una respuesta final.

Cada fase puede convertirse en un nuevo punto de entrada para un ataque. MSB cubre todas las fases completas de invocación de herramientas MCP y está específicamente diseñado para evaluar la seguridad de los agentes basados en el uso de herramientas MCP, con tres aspectos destacados:

Sistema de clasificación de ataques MCP

En el flujo de trabajo MCP, el agente interactúa con las herramientas a través de identificadores de herramientas (nombre y descripción), parámetros y respuestas de herramientas, todos los cuales pueden convertirse en vías de ataque. MSB clasifica los tipos de ataque según estas vías y las fases de interacción:

Ataque a la Firma de la Herramienta (Tool Signature Attack): En la fase de planificación de tareas, utiliza el nombre y la descripción de la herramienta para atacar, incluyendo:

Colisión de nombres (Name Collision, NC): Crear una herramienta maliciosa con un nombre similar al de una herramienta oficial para inducir al agente a seleccionarla.

Manipulación de preferencias (Preference Manipulation, PM): Inyectar frases promocionales en la descripción de la herramienta para inducir al agente a seleccionarla.

Inyección de prompt (Prompt Injection, PI): Inyectar instrucciones maliciosas en la descripción de la herramienta.

Ataque a los Parámetros de la Herramienta (Tool Parameter Attack): En la fase de invocación de herramientas, utiliza los parámetros de la herramienta para atacar, incluyendo:

Parámetro fuera de alcance (Out-of-Scope Parameter, OP): Establecer parámetros de herramienta que exceden la funcionalidad normal, provocando fugas de información mediante la transferencia de parámetros.

Ataque a la Respuesta de la Herramienta (Tool Response Attack): En la fase de procesamiento de respuestas, utiliza la respuesta de la herramienta para atacar, incluyendo:

Suplantación de usuario (User Impersonation, UI): Suplantar al usuario para emitir instrucciones maliciosas.

Error falso (False Error, FE): Proporcionar información falsa de error en la ejecución de la herramienta, requiriendo que el agente siga instrucciones maliciosas para invocar la herramienta con éxito.

Redireccionamiento de herramienta (Tool Transfer, TT): Indicar al agente que invoque una herramienta maliciosa.

Ataque de Inyección en Recuperación (Retrieval Injection Attack): En la fase de procesamiento de respuestas, utiliza recursos externos para atacar, incluyendo:

Inyección en recuperación (Retrieval Injection, RI): Recursos externos que incrustan instrucciones maliciosas corrompen el contexto a través de la respuesta de la herramienta.

Ataque Mixto (Mixed Attack): En múltiples fases, utiliza simultáneamente múltiples componentes de herramientas para atacar, incluyendo combinaciones de los ataques anteriores.

Suite de ejecución basada en entorno real

MSB rechaza las evaluaciones simuladas teóricas; está equipado con servidores MCP reales, abarcando 10 escenarios realistas, 405 herramientas reales y 2,000 instancias de ataque. Todas las instancias se ejecutan a través de MCP con ejecución real de herramientas, reflejando fielmente el entorno operativo real para observar directamente el grado de daño al estado del ambiente causado por los ataques.

Indicador NRP que equilibra rendimiento y seguridad

En la evaluación de seguridad de agentes, confiar únicamente en la tasa de éxito de ataques (ASR, Attack Success Rate) es engañoso. Si un agente se niega a ejecutar cualquier invocación de herramienta para evitar riesgos, su ASR podría acercarse a 0, pero al mismo tiempo no podría completar las tareas del usuario, perdiendo valor práctico.

Por ello, MSB propone el indicador de Rendimiento Neto Resiliente NRP (Net Resilient Performance):

NRP = PUA ⋅ (1 − ASR)

Donde PUA (Performance Under Attack) es la proporción en que el agente completa las tareas del usuario en un entorno adverso, y ASR es la tasa de éxito de los ataques. El NRP tiene como objetivo evaluar la capacidad general de resistencia al riesgo del agente, manteniendo el rendimiento mientras resiste los ataques, proporcionando un estándar de medición integral que equilibra el rendimiento y la seguridad.

Figura 2: NRP vs ASR, NRP vs PUA.

Todos los métodos de ataque son efectivos

Figura 3: Resultados experimentales principales.

El equipo de investigación utilizó MSB para realizar pruebas a gran escala en 10 modelos principales, incluidos GPT-5, DeepSeek-V3.1, Claude 4 Sonnet, Qwen3, etc. Todos los métodos de ataque demostraron ser efectivos, con una ASR promedio general del 40.35%. Entre ellos, los nuevos ataques introducidos por MCP son más agresivos. En comparación con los ataques PI y RI ya existentes en function calling, los ataques basados en MCP, como UI y FE, tienen una tasa de éxito más alta. Los ataques mixtos muestran una sinergia de mejora, la tasa de éxito de los ataques mixtos es mayor que la de los ataques individuales que los componen.

Cuanto más potente es el modelo, más frágil es

La relación entre los diferentes indicadores revela una conclusión contraintuitiva: los modelos más capaces suelen ser más susceptibles a los ataques.

Figura 4: PUA vs ASR.

En MSB, completar una tarea de ataque aún requiere que el agente invoque herramientas, por ejemplo, usar una herramienta de lectura de archivos para obtener información personal. Los LLM con mayor utilidad, debido a su mejor capacidad de invocación de herramientas y seguimiento de instrucciones, muestran una ASR más alta. Este hallazgo revela el enorme riesgo práctico de las vulnerabilidades de seguridad del MCP.

Compromiso ambiental en todas las fases y múltiples herramientas

Figura 5: ASR en diferentes fases y configuraciones de herramientas.

Un análisis más profundo desde la perspectiva del flujo de trabajo MCP y la configuración de herramientas revela que el agente es susceptible a ataques en todas las fases del MCP, siendo la seguridad del modelo más baja en la fase de invocación de herramientas.

Además, incluso en entornos de múltiples herramientas que incluyen herramientas inofensivas, los ataques siguen siendo efectivos. Los escenarios reales suelen proporcionar paquetes de herramientas a los agentes; incluso si hay herramientas inofensivas, métodos de inducción como NC, PM y TT aún pueden provocar un éxito significativo de los ataques.

Resumen

La popularidad de OpenClaw ha permitido vislumbrar intuitivamente el futuro de los agentes: los modelos de lenguaje grande ya no solo responden preguntas, sino que comienzan a realizar tareas reales. MSB se propone en este contexto, revelando sistemáticamente las posibles superficies de ataque en el ecosistema MCP y proporcionando un estándar de evaluación sistemático, reproducible y cuantificable para la investigación de seguridad de agentes.

Investigaciones anteriores sobre seguridad de modelos de lenguaje grande se centraban principalmente en riesgos a nivel de lenguaje, como la inyección de prompts. MSB demuestra que cuando la IA invoca herramientas e interactúa con sistemas reales, la superficie de ataque también se está expandiendo desde el espacio textual al ecosistema de herramientas. A medida que los agentes se convierten gradualmente en el nuevo paradigma de las aplicaciones de IA, la seguridad podría convertirse en un umbral que debe superarse en este salto tecnológico.

Referencias:

https://openreview.net/pdf?id=irxxkFMrry

Este artículo proviene del WeChat público "新智元" (New Wisdom Yuan), autor: 新智元

Preguntas relacionadas

Q¿Qué es el protocolo MCP y qué papel desempeña en los agentes de IA como OpenClaw?

AEl protocolo MCP (Model Context Protocol) es una interfaz estandarizada que permite a los agentes de IA, como OpenClaw, acceder y utilizar herramientas externas de manera unificada, como sistemas de archivos, navegadores o bases de datos. Funciona de manera similar a un conector USB-C, permitiendo que los modelos de lenguaje interactúen con diversas herramientas de forma segura y eficiente.

Q¿Cuáles son las principales categorías de ataques identificadas en el MSB contra el protocolo MCP?

AEl MSB identifica 12 categorías de ataques, agrupadas en cinco tipos principales: Tool Signature Attack (ataques por nombre/descripción de herramientas), Tool Parameter Attack (ataques por parámetros), Tool Response Attack (ataques por respuestas manipuladas), Retrieval Injection Attack (inyección mediante recursos externos) y Mixed Attack (combinación de múltiples ataques).

Q¿Por qué los modelos de IA más potentes son más vulnerables a los ataques en entornos MCP según el estudio?

ALos modelos más potentes tienen una mayor capacidad de seguir instrucciones y utilizar herramientas, lo que los hace más propensos a ejecutar acciones maliciosas cuando son engañados. Su alta eficiencia en la realización de tareas también los expone a mayores riesgos si las herramientas o respuestas están manipuladas.

Q¿Qué es el indicador NRP (Net Resilient Performance) y por qué es importante?

AEl NRP es un indicador que equilibra el rendimiento y la seguridad de los agentes de IA. Se calcula como NRP = PUA × (1 - ASR), donde PUA mide la capacidad de completar tareas útiles y ASR la tasa de éxito de ataques. Evalúa la capacidad general de un agente para resistir ataques manteniendo su utilidad práctica.

Q¿Cómo afecta la presencia de herramientas inofensivas en un entorno de múltiples herramientas a la seguridad del agente?

AIncluso en entornos con herramientas inofensivas, ataques como Name Collision (NC) o Tool Transfer (TT) pueden ser efectivos, ya que los agentes pueden ser engañados para seleccionar o redirigirse hacia herramientas maliciosas mediante técnicas de confusión o inyección de instrucciones.

Lecturas Relacionadas

No es una subida de precios, sino un desabastecimiento: El precio del petróleo ya ha superado el punto crítico

El mercado petrolero global ha superado un "punto de inflexión" crítico. La interrupción diaria de suministro de 11 a 13 millones de barriles ya no se manifestará mediante subidas de precios, sino a través de tres vías: caída de inventarios de crudo, escasez de productos refinados o destrucción de demanda forzada por políticas gubernamentales. El cierre del Estrecho de Ormuz ha creado un desajuste temporal irreversible: incluso si se reabre inmediatamente, el retraso logístico en el transporte marítimo provocará un agotamiento acelerado de las reservas terrestres durante semanas. Asia y Europa enfrentarán escasez física visible a partir de mayo. Un ciclo autorreforzado se activará: precios altos → compresión de márgenes refinadores → reducción de inventarios de productos refinados → recuperación de márgenes → mayor demanda de crudo. Esto imposibilita el reequilibrio convencional. Si el cierre persiste más allá de abril, el mercado enfrentará una escasez extrema donde el precio perderá su función reguladora. El único reequilibrio posible vendrá de políticas de restricción de demanda similares a las pandémicas. El precio actual de 95 dólares por barril es insuficiente. Los inventarios estadounidenses caerán críticamente para julio, y se anticipan restricciones a exportaciones de crudo y refinados. La situación geopolítica sugiere que la crisis empeorará antes de mejorar, con pocas opciones de compromiso entre Irán y EE.UU.

marsbitHace 41 min(s)

No es una subida de precios, sino un desabastecimiento: El precio del petróleo ya ha superado el punto crítico

marsbitHace 41 min(s)

Apuestas por las noticias, los expertos leen las reglas: La verdadera brecha cognitiva de perder dinero en Polymarket

Resumen: En Polymarket, los "cabezas de tren" (usuarios expertos) tienen ventaja porque leen las reglas como abogados, no solo predicen eventos. Un ejemplo clave: en 2026, un mercado preguntaba "¿Quién será el líder de Venezuela a finales de 2026?". Muchos apostaron por Delcy Rodríguez, asumiendo que gobernaba, pero las reglas especificaban que "oficialmente ocupa el cargo" se refería al presidente formalmente nombrado y jurado. Aunque Maduro estaba en prisión, seguía siendo el presidente oficial según la ONU y las reglas aclaraban que "la autorización temporal para ejercer poderes presidenciales no equivale a una transferencia del cargo". Polymarket tiene un mecanismo de resolución de disputas de cinco pasos: 1) Cualquiera puede proponer un resultado con un depósito de 750 USDC; 2) Ventana de 2 horas para disputas (con otro depósito de 750 USDC); 3) Discusión de hasta 48 horas en Discord; 4) Votación de 48 horas por holders de UMA, con umbrales de participación y consenso; 5) Liquidación automática. A diferencia de un tribunal tradicional, donde jueces y partes están separados, en Polymarket los votantes (holders de UMA) pueden tener intereses en los mercados, creando conflictos. Esto debilita la discusión (efecto rebaño, cambios de postura) y hace que los resultados sean opacos (sin explicaciones, sin precedentes claros). La clave para ganar no es solo predecir eventos, sino entender la brecha entre la realidad y las reglas escritas.

marsbitHace 2 hora(s)

Apuestas por las noticias, los expertos leen las reglas: La verdadera brecha cognitiva de perder dinero en Polymarket

marsbitHace 2 hora(s)

Trading

Spot
Futuros
活动图片