Recientemente, la plataforma de agentes de IA de código abierto y autoalojada OpenClaw (conocida coloquialmente como "OpenClaw") se ha vuelto rápidamente popular gracias a su flexible escalabilidad y características de despliegue autónomo y controlado, convirtiéndose en un producto fenomenal en el campo de los agentes de IA personales. Su ecosistema central, Clawhub, funciona como un mercado de aplicaciones que reúne una gran cantidad de complementos de funciones de Skill de terceros, permitiendo a los agentes de IA desbloquear con un clic capacidades avanzadas que van desde la búsqueda web y la creación de contenido, hasta operaciones con carteras cifradas, interacciones en cadena y automatización del sistema, experimentando un crecimiento explosivo en la escala del ecosistema y el número de usuarios.
Pero, ¿cuál es el verdadero límite de seguridad para este tipo de Skills de terceros que se ejecutan en entornos de alto privilegio?
Recientemente, CertiK, la mayor empresa de seguridad Web3 del mundo, publicó una investigación actualizada sobre la seguridad de los Skills. El artículo señala que existe un error de percepción en el mercado respecto a los límites de seguridad del ecosistema de agentes de IA: la industria generalmente considera el "escaneo de Skills" como el límite de seguridad central, pero este mecanismo es casi ineficaz frente a los ataques de hackers.
Si comparamos OpenClaw con el sistema operativo de un dispositivo inteligente, los Skills son como las diversas APPs instaladas en el sistema. A diferencia de las APPs de consumo comunes, algunos Skills en OpenClaw se ejecutan en entornos de alto privilegio, pudiendo acceder directamente a archivos locales, invocar herramientas del sistema, conectarse a servicios externos, ejecutar comandos en el entorno host e incluso operar los activos digitales cifrados del usuario. Una vez que surgen problemas de seguridad, pueden conducir directamente a graves consecuencias como la filtración de información sensible, la toma de control remoto del dispositivo o el robo de activos digitales.
Actualmente, la solución de seguridad general para Skills de terceros en toda la industria es el "escaneo y revisión antes de la publicación". Clawhub de OpenClaw también ha establecido un sistema de protección de revisión de tres capas: combina el escaneo de código de VirusTotal, un motor de detección de código estático y la detección de consistencia lógica por IA, intentando así mantener la seguridad del ecosistema mediante la clasificación de riesgos y el envío de alertas de seguridad a los usuarios. Sin embargo, la investigación y las pruebas de ataque de prueba de concepto de CertiK confirman que este sistema de detección tiene deficiencias en la confrontación real de ataque y defensa, y no puede asumir la responsabilidad central de la protección de seguridad.
La investigación primero desglosa las limitaciones inherentes de los mecanismos de detección existentes:
Las reglas de detección estática son extremadamente fáciles de eludir. El núcleo de este motor depende de la coincidencia de características del código para identificar riesgos, por ejemplo, determinar como comportamiento de alto riesgo la combinación de "leer información sensible del entorno + enviar una solicitud de red". Pero los atacantes solo necesitan hacer ligeras modificaciones sintácticas en el código, manteniendo completamente la lógica maliciosa, para eludir fácilmente la coincidencia de características, como si dieran un conjunto de expresiones sinónimas al contenido peligroso, haciendo que el sistema de seguridad falle por completo.
La revisión por IA tiene puntos ciegos de detección inherentes. El núcleo de la revisión por IA de Clawhub se posiciona como un "detector de consistencia lógica", que solo puede detectar códigos maliciosos evidentes donde "la funcionalidad declarada no coincide con el comportamiento real", pero es incapaz de hacer frente a vulnerabilidades explotables ocultas en la lógica empresarial normal, como la dificultad de encontrar trampas mortales escondidas en lo profundo de los términos de un contrato aparentemente compliant.
Lo más grave es que el proceso de revisión tiene defectos en el diseño subyacente: incluso si los resultados del escaneo de VirusTotal están en estado "pendiente", el Skill que no ha completado todo el proceso de "chequeo" puede publicarse directamente, y los usuarios pueden instalarlo sin advertencias, lo que deja una oportunidad para los atacantes.
Para verificar el daño real del riesgo, el equipo de investigación de CertiK completó pruebas integrales. El equipo desarrolló un Skill llamado "test-web-searcher", que superficialmente es una herramienta de búsqueda web completamente compliant, con una lógica de código que cumple totalmente con las normas de desarrollo convencionales, pero que en realidad implantó una vulnerabilidad de ejecución remota de código en el flujo normal de funcionalidad.
Este Skill eludió la detección del motor estático y la revisión por IA, y se instaló normalmente sin advertencias de seguridad mientras el escaneo de VirusTotal aún estaba pendiente; finalmente, al enviar un comando remoto a través de Telegram, se activó con éxito la vulnerabilidad, logrando la ejecución de comandos arbitrarios en el dispositivo host (en la demostración, se controló el sistema para abrir directamente la calculadora).
CertiK señaló claramente en la investigación que estos problemas no son bugs exclusivos del producto OpenClaw, sino un error de percepción común en toda la industria de agentes de IA: la industria generalmente considera la "revisión y escaneo" como la línea de defensa central de seguridad, pero ignora que la base real de seguridad es el aislamiento forzado en tiempo de ejecución y la gestión detallada de permisos. Esto es similar a cómo la seguridad central del ecosistema iOS de Apple nunca ha sido la estricta revisión de App Store, sino el mecanismo obligatorio de sandbox del sistema y la gestión detallada de permisos, que permite que cada APP se ejecute solo en su "contenedor de aislamiento"专属, sin poder obtener permisos del sistema arbitrariamente. Sin embargo, el mecanismo de sandbox existente en OpenClaw es opcional y no obligatorio, y depende en gran medida de la configuración manual del usuario. La gran mayoría de los usuarios, para garantizar la usabilidad de las funciones del Skill, optan por desactivar el sandbox, lo que finalmente deja al agente de IA en estado "desnudo". Una vez que se instala un Skill con vulnerabilidades o código malicioso, se producen consecuencias desastrosas directamente.
En respuesta a los problemas descubiertos, CertiK también proporcionó orientación sobre seguridad:
● Para los desarrolladores de agentes de IA como OpenClaw, deben establecer el aislamiento de sandbox como configuración obligatoria predeterminada para los Skills de terceros, refinando el modelo de gestión de permisos de los Skills, y nunca permitir que el código de terceros herede por defecto los altos privilegios del host.
● Para los usuarios comunes, los Skills en el mercado con etiqueta "seguro" solo significan que no se han detectado riesgos, no que sean absolutamente seguros. Antes de que el mecanismo subyacente de aislamiento forzado se establezca como configuración predeterminada oficial, se recomienda desplegar OpenClaw en dispositivos inactivos no importantes o en máquinas virtuales, y nunca acercarlo a archivos sensibles, credenciales de contraseñas o activos cifrados de alto valor.
Actualmente, el campo de los agentes de IA está en vísperas de una explosión, y la velocidad de expansión del ecosistema nunca debe superar el ritmo de la construcción de seguridad. La revisión y el escaneo solo pueden detener ataques maliciosos básicos, pero nunca serán el límite de seguridad para los agentes de IA de alto privilegio. Solo cambiando de "buscar una detección perfecta" a "contener el daño asumiendo que el riesgo existe por defecto", y estableciendo límites de aislamiento forzados desde el nivel subyacente en tiempo de ejecución, se puede realmente asegurar el límite de seguridad de los agentes de IA, permitiendo que esta revolución tecnológica avance de manera estable y duradera.





