Recientemente, la plataforma de agentes de IA de código abierto y autoalojada OpenClaw (conocida coloquialmente como "crayfish") se ha vuelto rápidamente popular debido a su flexibilidad y escalabilidad, y a su capacidad de implementación autónoma y controlada, convirtiéndose en un producto fenomenal en el campo de los agentes de IA personales. Su ecosistema central, Clawhub, que actúa como un mercado de aplicaciones, reúne una gran cantidad de complementos de funcionalidad Skill de terceros, permitiendo a los agentes desbloquear con un clic capacidades avanzadas, desde búsquedas web y creación de contenido hasta operaciones con carteras cifradas, interacciones on-chain y automatización del sistema, experimentando un crecimiento explosivo en la escala del ecosistema y el número de usuarios.
Pero, ¿dónde están realmente los límites de seguridad para estos Skills de terceros que se ejecutan en entornos de alto privilegio?
Recientemente, CertiK, la mayor empresa de seguridad Web3 del mundo, publicó una nueva investigación sobre la seguridad de los Skills. El artículo señala que existe una percepción errónea en el mercado sobre los límites de seguridad del ecosistema de agentes de IA: la industria generalmente considera el "escaneo de Skills" como el límite de seguridad central, pero este mecanismo es casi inútil frente a los ataques de hackers.
Si comparamos OpenClaw con el sistema operativo de un dispositivo inteligente, los Skills son las diversas APPs instaladas en el sistema. A diferencia de las APPs de consumo normales, algunos Skills en OpenClaw se ejecutan en entornos de alto privilegio, pudiendo acceder directamente a archivos locales, invocar herramientas del sistema, conectarse a servicios externos, ejecutar comandos en el entorno host e incluso operar con los activos digitales cifrados del usuario. Una vez que surgen problemas de seguridad, pueden conducir directamente a graves consecuencias como la filtración de información sensible, la toma de control remoto del dispositivo o el robo de activos digitales.
Actualmente, la solución de seguridad general para Skills de terceros en toda la industria es el "escaneo y auditoría antes de la publicación". Clawhub de OpenClaw también ha establecido un sistema de protección de auditoría de tres capas: combina el escaneo de código de VirusTotal, un motor de detección de código estático y la detección de coherencia lógica por IA, enviando alertas de seguridad a los usuarios mediante la clasificación de riesgos, intentando así salvaguardar la seguridad del ecosistema. Pero la investigación y las pruebas de concepto de ataque de CertiK confirman que este sistema de detección tiene puntos débiles en la confrontación real de ataque y defensa, y no puede asumir la responsabilidad central de la protección de seguridad.
La investigación primero desglosa las limitaciones inherentes de los mecanismos de detección existentes:
Las reglas de detección estática son extremadamente fáciles de eludir. El núcleo de este motor se basa en la coincidencia de características del código para identificar riesgos, por ejemplo, determinar como comportamiento de alto riesgo la combinación de "leer información sensible del entorno + enviar una solicitud de red". Sin embargo, los atacantes solo necesitan hacer ligeras modificaciones sintácticas en el código y, manteniendo completamente la lógica maliciosa, pueden eludir fácilmente la coincidencia de características, como si cambiaran el contenido peligroso por una expresión sinónima, haciendo que el sistema de seguridad falle por completo.
La auditoría por IA tiene puntos ciegos de detección inherentes. El objetivo central de la auditoría por IA de Clawhub es ser un "detector de coherencia lógica", que solo puede detectar código malicioso evidente donde "la funcionalidad declarada no coincide con el comportamiento real", pero es incapaz de hacer frente a vulnerabilidades explotables ocultas en la lógica de negocio normal, como la dificultad de encontrar una trampa mortal escondida en lo profundo de los términos de un contrato aparentemente compliant.
Lo más grave es que el proceso de auditoría tiene un defecto de diseño subyacente: incluso si los resultados del escaneo de VirusTotal están en estado "pendiente de procesar", un Skill que no ha completado todo el proceso de "chequeo" puede publicarse directamente, y los usuarios pueden instalarlo sin advertencias, lo que deja una oportunidad para los atacantes.
Para verificar el daño real del riesgo, el equipo de investigación de CertiK completó una prueba completa. El equipo desarrolló un Skill llamado "test-web-searcher", que superficialmente es una herramienta de búsqueda web totalmente compliant, con una lógica de código que cumple completamente con las normas de desarrollo convencionales, pero que en realidad implantó una vulnerabilidad de ejecución remota de código dentro del flujo de funcionalidad normal.
Este Skill eludió la detección del motor estático y la auditoría por IA, y se instaló normalmente sin ninguna advertencia de seguridad mientras el escaneo de VirusTotal aún estaba pendiente; finalmente, al enviar un comando remoto a través de Telegram, se activó con éxito la vulnerabilidad, logrando la ejecución de comandos arbitrarios en el dispositivo host (en la demostración, se controló el sistema para abrir directamente la calculadora).
CertiK dejó claro en su investigación que estos problemas no son bugs exclusivos de OpenClaw, sino un error de percepción común en toda la industria de agentes de IA: la industria generalmente considera la "auditoría y escaneo" como la línea de defensa central de seguridad, pero ignora que la base real de la seguridad es el aislamiento forzado en tiempo de ejecución y la gestión precisa de permisos. Esto es similar a cómo la seguridad central del ecosistema iOS de Apple nunca ha sido la estricta auditoría de App Store, sino el mecanismo obligatorio de sandboxing del sistema y la gestión precisa de permisos, que hace que cada APP se ejecute en su propio "contenedor aislado", sin poder obtener permisos del sistema arbitrariamente. Sin embargo, el mecanismo de sandbox existente en OpenClaw es opcional y no obligatorio, y depende en gran medida de la configuración manual del usuario. La gran mayoría de los usuarios, para garantizar la usabilidad de las funciones del Skill, optan por desactivar el sandbox, lo que finalmente deja al agente de IA en estado "desnudo". Una vez que se instala un Skill con vulnerabilidades o código malicioso, se producen consecuencias desastrosas directamente.
En respuesta a los problemas descubiertos, CertiK también proporcionó pautas de seguridad:
● Para los desarrolladores de agentes de IA como OpenClaw, deben establecer el aislamiento mediante sandbox como configuración predeterminada obligatoria para los Skills de terceros, refinando el modelo de gestión de permisos de los Skills, y nunca permitir que el código de terceros herede por defecto los altos privilegios de la máquina host.
● Para los usuarios comunes, los Skills en el mercado con la etiqueta "seguro" solo significan que no se han detectado riesgos, no que sean absolutamente seguros. Antes de que los desarrolladores establezcan el mecanismo de aislamiento forzado subyacente como configuración predeterminada, se recomienda implementar OpenClaw en dispositivos no críticos en desuso o en máquinas virtuales, y nunca acercarlo a archivos sensibles, credenciales de contraseñas o activos cifrados de alto valor.
Actualmente, el campo de los agentes de IA está en vísperas de una explosión, y la velocidad de expansión del ecosistema nunca debe superar el ritmo de la construcción de seguridad. La auditoría y el escaneo solo pueden detener ataques maliciosos básicos, pero nunca serán el límite de seguridad para los agentes de IA de alto privilegio. Solo cambiando de "buscar una detección perfecta" a "contener el daño asumiendo que el riesgo existe por defecto", y estableciendo límites de aislamiento forzados en el nivel de tiempo de ejecución, se podrá garantizar la seguridad básica de los agentes de IA, permitiendo que esta revolución tecnológica avance de manera estable y duradera.
Artículo de investigación original: https://x.com/hhj4ck/status/2033527312042315816?s=20
https://mp.weixin.qq.com/s/Wxrzt7bAo86h3bOKkx6 UoA





