Autor: Liu Jun
En 2026, un consenso está tomando forma en la industria de la IA: la capacidad de los modelos ya no es el cuello de botella. La brecha está fuera de los modelos, en la codificación del conocimiento del dominio, en la interfaz del agente con el mundo real, en la madurez de las herramientas. Esta brecha está siendo llenada por la comunidad de código abierto, y a una velocidad que supera todas las expectativas. OpenClaw obtuvo 60,000 estrellas en GitHub en 72 horas, y tres meses después superó las 350,000. El ecosistema de habilidades de Claude Code creció de 50 a más de 334 en medio año. Hermes Agent es aún más radical, permitiendo que los agentes construyan habilidades reutilizables de forma autónoma. Los datos de Vela Partners muestran que en los últimos 90 días, las categorías de asistentes de IA personales y plugins de Habilidades Agénticas sumaron 244,000 nuevas estrellas. Esta es una gran explosión de Habilidades.
El trabajo de Perseus Yang se sitúa en el núcleo de esta explosión. Con formación en Matemáticas y Ciencias de la Computación en Cornell, miembro del Forbes Business Council y seleccionado para la Beca THINC, en los últimos años ha participado y mantenido una decena de proyectos de código abierto relacionados con la IA en GitHub, que abarcan la expansión de habilidades de agentes, el control a nivel de dispositivos móviles, herramientas de optimización de motores de IA, agentes de análisis de datos GEO, flujos de trabajo de automatización de contenido, infraestructura de protocolos de pago, entre otros. Su característica es combinar una sólida formación en ingeniería con una gran intuición para el producto. No solo escribe código, sino que puede definir, partiendo de las necesidades del usuario, cómo debe ser una herramienta, construirla de extremo a extremo e impulsar su adopción.
A continuación, se presentan algunos juicios clave que ha formado durante este proceso.
Primer juicio: Los sistemas de Habilidades son la infraestructura más subestimada de la era de los agentes de IA
Después de que Anthropic publicara las Agent Skills como estándar abierto a finales de 2025, el CLI de Codex de OpenAI también adoptó el mismo formato SKILL.md. El registro ClawHub de OpenClaw ya ha acumulado más de 13,000 Habilidades contribuidas por la comunidad, y el ecosistema de Claude Code también está siguiendo rápidamente. El significado de las Habilidades va mucho más allá de "añadir plugins a un agente". Esencialmente, es una forma de que las personas que no saben programar puedan participar en la programación de IA. Un responsable de operaciones puede escribir un SKILL.md en lenguaje natural y hacer que un agente aprenda un nuevo flujo de trabajo. Esto es un cambio de paradigma: el verdadero poder de la IA no depende de los parámetros del modelo, sino del conocimiento del dominio que se le inyecte, y las Habilidades expanden el poder de inyectar ese conocimiento de los ingenieros a todos.
Pero Perseus observa un problema. La gran mayoría de las Habilidades se concentran en el ámbito de la ingeniería: revisión de código, diseño frontend, DevOps, testing. El conocimiento experto en dominios no ingenieriles casi no se ha codificado sistemáticamente como Habilidades. Esto significa que la cobertura del ecosistema de Habilidades está muy lejos de alcanzar su límite potencial.
Esta observación impulsó una serie de trabajos de código abierto en la dirección de herramientas GTM (Go-To-Market). El más representativo es GTM Engineer Skills, un conjunto de habilidades para Claude Code y Codex que cubre el flujo de trabajo completo de descubribilidad para motores de IA, que actualmente acumula más de 600 estrellas en GitHub. Codifica trabajos que tradicionalmente requerían la colaboración de expertos en SEO, estrategas de contenido y desarrolladores frontend en flujos automatizados ejecutables por una sola persona: auditoría de descubribilidad de IA para sitios web, optimización de la estructura de contenido, investigación de palabras clave, capa machine-parseable para visualización de datos. El auditor no emite recomendaciones, sino que detecta automáticamente el framework frontend y genera correcciones de código que se pueden enviar directamente como Pull Request. Alrededor de la misma dirección, también construyó herramientas de análisis GEO complementarias, que pueden enviar consultas simultáneamente a ChatGPT, Claude, Gemini, Perplexity y analizar la tasa de menciones de marca, sentimiento, cuota de mercado y posicionamiento competitivo, generando informes HTML interactivos y datos estructurados.
El efecto real demuestra el valor de producto de este conjunto de herramientas. Empresas como Articuler AI y Axis Robotics utilizaron GTM Engineer Skills para completar en horas el flujo completo desde la investigación hasta la configuración de un Centro de Recursos, un tipo de trabajo que tradicionalmente requería decenas de horas de colaboración entre equipos. Esta diferencia de eficiencia no se logró por la capacidad del modelo, sino por la profunda comprensión de Perseus de los flujos de trabajo GTM y su desglose en productos: descompuso una necesidad vaga de "mejorar la descubribilidad de IA" en etapas estandarizadas ejecutables paso a paso por un agente, cada una con entradas, salidas y validaciones de calidad claras. Este conjunto de herramientas es actualmente utilizado por una decena de startups y varias empresas Fortune 500. La herramienta de código abierto es la entrada, el producto comercializado es la extensión escalable, y ambos comparten el mismo núcleo técnico.
El proyecto en sí tiene valor, pero Perseus cree que la proposición que valida es más importante: el alcance de los sistemas de Habilidades va mucho más allá del ámbito de la ingeniería. Estrategia de producto, go-to-market, análisis comercial, cualquier conocimiento experto que pueda ser descrito de forma estructurada, puede ser codificado como capacidad de agente.
Segundo juicio: El límite operativo de los agentes de IA no debería terminar en el navegador y las API
El debate sobre los agentes en 2026 está dominado por los agentes de navegador y la integración de API. LangGraph, CrewAI, Google ADK constituyen un próspero ecosistema de orquestación multiagente. Pero Perseus nota un punto ciego estructural: la mayoría de las actividades digitales globales ocurren en aplicaciones nativas de móvil: redes sociales, pagos, juegos, comunicaciones, y estas aplicaciones no tienen API públicas, no tienen un equivalente al navegador. Los frameworks existentes no pueden operar WeChat, Douyin, WhatsApp o Alipay. El móvil es la interfaz de computación más dominante a nivel global, pero la infraestructura para agentes nativos en móviles es casi nula.
La reflexión de Perseus es: ¿Por qué todos están enseñando a la IA a operar navegadores, pero nadie se toma en serio enseñarle a operar móviles? La prosperidad de los agentes de navegador se debe en gran medida a que la web es inherentemente amigable con la automatización, tiene DOM, tiene API, tiene toolchains maduras como Playwright. Pero el móvil es un mundo completamente diferente. Las apps nativas son cajas negras, no tienen una descripción estructurada de la interfaz, las operaciones solo se pueden realizar simulando toques y deslizamientos humanos. La dificultad de este problema no reside en que el LLM entienda si debe presionar un botón o no, sino en que toda la infraestructura de la capa de ejecución debe empezar desde cero: gestión de conexión de dispositivos, análisis del estado de la pantalla, exclusión mutua de dispositivos entre múltiples agentes, límites de seguridad para operaciones sensibles.
Este juicio impulsó el nacimiento de OpenPocket. Es un framework de código abierto que, a través de ADB, permite a agentes impulsados por LLM operar de forma autónoma dispositivos Android. Actualmente tiene una decena de contribuidores y más de quinientos commits. Lo que los usuarios realmente están haciendo con él es muy ilustrativo: gestionar automáticamente cuentas de redes sociales, responder mensajes en aplicaciones de mensajería por ti, procesar pagos y facturas en el móvil, incluso jugar automáticamente a videojuegos móviles. Un escenario típico es: el usuario le dice al agente en lenguaje natural "cada mañana a las 8 abre Slack y completa el check-in", el agente ejecutará esta tarea de forma persistente en una sesión aislada, convirtiendo una operación manual repetitiva diaria en una automatización en segundo plano.
Perseus tomó varias decisiones clave de producto y arquitectura en este proyecto. Primero, el agente puede crear automáticamente nuevas Habilidades durante su ejecución. Cuando se encuentra con un flujo de operación que no ha visto antes, puede guardar los pasos aprendidos como un SKILL.md reutilizable e invocarlo directamente la próxima vez. Esto significa que el agente no es una herramienta de capacidades fijas, sino un sistema que se vuelve más fuerte con el uso. Segundo, todas las operaciones sensibles deben ser aprobadas por un humano, no dejar que el agente decida por sí mismo qué es seguro. En su opinión, lo más peligroso de un agente autónomo no es que haga algo mal, sino que lo haga "confiadamente" pensando que lo está haciendo bien. Tercero, cada agente está completamente aislado, vinculado a un dispositivo, configuración y estado de sesión independientes, múltiples agentes pueden ejecutarse simultáneamente sin interferir entre sí. Si solo los ingenieros de TypeScript pueden expandir las capacidades del agente, este ecosistema nunca crecerá, por lo que OpenPocket, al igual que Claude Code, utiliza SKILL.md como formato estándar para la expansión de capacidades.
Todo el sistema admite más de 29 configuraciones de LLM, el teléfono del agente está completamente aislado del teléfono personal del usuario, todos los datos se mantienen locales. En 2026, cuando OWASP incluyó el "abuso de herramientas" en los diez principales riesgos de la IA Agéntica y la obligación de alto riesgo del AI Act de la UE está a punto de entrar en vigor, este diseño local-first y con humanos en el loop no es conservador, sino un requisito previo para que los agentes entren en escenarios reales.
Tercer juicio: El valor del código abierto no está en el código en sí, sino en la definición de estándares en la capa de infraestructura
La comprensión de Perseus del código abierto no es "subir el código a GitHub". Menciona repetidamente un punto de vista: el ecosistema de IA de código abierto en 2026 se encuentra en una ventana de tiempo donde los estándares aún no se han solidificado. Los patrones de arquitectura y las especificaciones de interfaz adoptados por la comunidad ahora se convertirán en la infraestructura por defecto de toda la industria en los próximos años. En esta ventana, definir un nicho ecológico es mucho más importante que optimizar una solución existente.
Concretamente, su proyecto de Habilidades impulsó algo significativo a nivel técnico: demostrar que el formato SKILL.md no es solo un contenedor para herramientas de ingeniería, sino un estándar lo suficientemente genérico para codificar conocimiento de dominio. Cuando el mismo SKILL.md puede ser cargado y ejecutado simultáneamente por Claude Code, OpenAI Codex CLI y OpenClaw, se convierte de facto en la "unidad de capacidad portable" del ecosistema de agentes de IA. Perseus introdujo el flujo de trabajo completo de go-to-market, un dominio no ingenieril, en este formato, y logró la automatización de extremo a extremo desde la auditoría hasta la corrección del código. Esto es una validación con peso para la universalidad de todo el estándar de Habilidades.
Su proyecto de agente móvil resuelve, en cambio, un vacío arquitectónico en la capa de ejecución de agentes. Los frameworks de agentes existentes dependen, a nivel de invocación de herramientas, de interfaces estructuradas, ya sean API o DOM. OpenPocket debe realizar operaciones en un entorno sin ninguna interfaz estructurada, dependiendo puramente del análisis de píxeles de pantalla y la inyección de eventos táctiles. Esto obligó al proyecto a rediseñar desde la base el ciclo percepción-decisión-ejecución del agente, incluyendo el análisis en tiempo real del estado del dispositivo, protocolos de exclusión mutua de dispositivos para múltiples agentes y mecanismos de recuperación automática tras fallos operativos. Esto no es una simple adaptación de los frameworks de agentes existentes, sino un esquema arquitectónico evolucionado independientemente para el problema de "operación autónoma en entornos sin API".
Vale la pena mencionar por separado el diseño de ingeniería de ambos proyectos. OpenPocket adopta una arquitectura de tres capas separadas (Manager, Gateway, Agent Runtime), cada una puede iterarse independientemente, los contribuidores de la comunidad solo necesitan enfocarse en la capa que conocen. Cada Habilidad dentro de GTM Engineer Skills sigue un diseño de etapas en pipeline, la salida de una etapa es la entrada de la siguiente, con compuertas de validación de calidad obligatorias en el medio, el flujo de trabajo puede interrumpirse y recuperarse en cualquier etapa, los errores pueden localizarse en una etapa concreta. El propósito de estas elecciones arquitectónicas es el mismo: que los proyectos de código abierto puedan ser confiados por usuarios reales en entornos de producción.
Desde una perspectiva de producto, estos dos proyectos también comparten otra característica: Perseus siempre coloca "quién lo usará" y "cómo se expandirá" al frente de las decisiones de arquitectura. El usuario objetivo de GTM Engineer Skills no son los ingenieros sino los equipos de crecimiento, por lo que cada Habilidad tiene contratos de entrada/salida claros y validaciones de calidad integradas, permitiendo que usuarios no técnicos también entiendan qué está haciendo el agente. Los mecanismos de extensión SKILL.md de OpenPocket, las tareas programadas por lenguaje natural, la conectividad multi-canal (Telegram, Discord, WhatsApp, CLI) están todos destinados a reducir el umbral de uso para usuarios no ingenieros. En su opinión, si un proyecto de infraestructura de código abierto solo puede ser usado por ingenieros, su techo es el tamaño de la comunidad de ingenieros. El diseño realmente potente es aquel que permite que los límites de capacidad del agente sean expandidos conjuntamente por profesionales de todos los campos.
Este modelo impregna sus múltiples proyectos. No se trata de desarrollar en la capa de aplicación sobre frameworks existentes, sino de identificar los componentes faltantes en la capa de infraestructura del ecosistema de agentes y luego construirlos.
Un panorama más amplio
El ecosistema de IA de código abierto en 2026 está experimentando un momento similar al del ecosistema cloud-native a principios de la década de 2010: los estándares y herramientas en la capa de infraestructura están siendo definidos, y estas definiciones condicionarán la trayectoria de desarrollo de toda la industria en los próximos años. En esta ventana de tiempo, cada formato de Habilidad adoptado por la comunidad, cada patrón arquitectónico de agente validado, cada vacío ecológico llenado, está participando en la configuración de la siguiente capa de interfaz de la IA.
Lo que Perseus Yang está haciendo es simple: usar la capacidad de ingeniería y el pensamiento de producto para explorar el paradigma de la vanguardia tecnológica en la era de la IA. Los modelos seguirán volviéndose más potentes, pero quién define cómo deben interactuar los agentes con el mundo real, quién decide en qué forma debe codificarse y distribuirse el conocimiento del dominio, las respuestas a estas preguntas no surgirán de los modelos, solo pueden ser probadas poco a poco por quienes construyen cosas.







