Auteur : Liu Jun
En 2026, un consensus se forme dans l'industrie de l'IA : la capacité des modèles n'est plus le goulot d'étranglement. L'écart se situe en dehors des modèles, dans le codage des connaissances du domaine, dans l'interface entre l'agent et le monde réel, dans la maturité des chaînes d'outils. Cet écart est en train d'être comblé par la communauté open source, et à une vitesse qui dépasse toutes les attentes. OpenClaw a obtenu 60 000 étoiles GitHub en 72 heures, et a dépassé les 350 000 trois mois plus tard. L'écosystème de compétences (Skills) de Claude Code est passé de 50 à plus de 334 en six mois. Hermes Agent est encore plus radical, permettant aux agents de construire de manière autonome des compétences réutilisables. Les données de Vela Partners montrent qu'au cours des 90 derniers jours, les deux catégories que sont les assistants IA personnels et les plugins de compétences agentiques ont collectivement ajouté 244 000 étoiles. C'est une explosion des compétences (Skills).
Le travail de Perseus Yang se situe au cœur de cette explosion. Issu d'une formation en mathématiques et informatique à Cornell, membre du Forbes Business Council, et lauréat de la bourse THINC, il a participé au cours des dernières années à la maintenance d'une dizaine de projets open source liés à l'IA sur GitHub, couvrant des domaines tels que l'extension des compétences des agents, le contrôle au niveau des appareils mobiles, les outils d'optimisation des moteurs d'IA, les agents d'analyse de données GEO, les flux de travail automatisés de contenu, les infrastructures de protocoles de paiement, etc. Sa particularité est d'allier de solides compétences en ingénierie et une intuition produit très forte. Il ne se contente pas d'écrire du code ; il est capable de définir, à partir des besoins des utilisateurs, à quoi un outil devrait ressembler, puis de le construire de bout en bout et d'en favoriser l'adoption.
Voici quelques-uns des jugements clés qu'il a forgés au cours de ce processus.
Premier jugement : Les systèmes de compétences (Skills) sont l'infrastructure la plus sous-estimée de l'ère des agents IA
Après qu'Anthropic a publié les Agent Skills comme standard ouvert fin 2025, l'interface CLI Codex d'OpenAI a également adopté le même format SKILL.md. Le registre ClawHub d'OpenClaw a déjà accumulé plus de 13 000 compétences contribuées par la communauté, et l'écosystème Claude Code suit rapidement. La signification des Skills va bien au-delà de "l'ajout de plugins aux agents". Il s'agit essentiellement d'un moyen pour les personnes ne sachant pas coder de participer à la programmation IA. Un responsable opérationnel peut écrire un fichier SKILL.md en langage naturel pour permettre à un agent d'apprendre un nouveau flux de travail. C'est un changement de paradigme : la véritable puissance de l'IA ne dépend pas du nombre de paramètres du modèle, mais des connaissances du domaine qui lui sont injectées, et les Skills étendent le pouvoir d'injecter ces connaissances des ingénieurs à tout le monde.
Mais Perseus observe un problème. La grande majorité des Skills se concentrent sur le domaine de l'ingénierie : revue de code, conception front-end, DevOps, tests. Les expertises des domaines non techniques n'ont pratiquement pas été codées de manière systématique en tant que Skills. Cela signifie que la couverture de l'écosystème des Skills est loin d'atteindre sa limite potentielle.
Cette observation a motivé une série de travaux open source dans le domaine des chaînes d'outils GTM (Go-To-Market). Le plus représentatif est GTM Engineer Skills, un ensemble de compétences pour Claude Code et Codex couvrant le workflow complet de découverte des moteurs d'IA, qui a actuellement accumulé plus de 600 étoiles sur GitHub. Il encode en processus automatisés exécutables par une seule personne des travaux qui nécessitaient traditionnellement la collaboration d'experts SEO, de stratèges de contenu et de développeurs front-end : audit de la découvrabilité IA des sites web, optimisation de la structure du contenu, recherche de mots-clés, couche interprétable par machine pour la visualisation des données. L'auditeur ne produit pas de recommandations, mais détecte automatiquement le framework front-end et génère des correctifs de code qui peuvent être soumis directement sous forme de Pull Request. Autour de cette même orientation, il a également construit un outil d'analyse GEO complémentaire, capable d'envoyer simultanément des requêtes à ChatGPT, Claude, Gemini, Perplexity et d'analyser le taux de mention de marque, le sentiment, la part de marché et le positionnement concurrentiel, en produisant des rapports HTML interactifs et des données structurées.
L'effet concret démontre la valeur produit de cet ensemble d'outils. Des entreprises comme Articuler AI et Axis Robotics ont utilisé GTM Engineer Skills pour terminer en quelques heures un processus complet allant de la recherche à la mise en place d'un Centre de Ressources, alors que ce type de travail nécessitait traditionnellement des dizaines d'heures de collaboration inter-équipes. Cet écart d'efficacité n'est pas dû à la capacité du modèle, mais à la compréhension approfondie de Perseus des workflows GTM et à sa capacité à les décomposer de manière productisable : il a décomposé un besoin flou de "améliorer la découvrabilité IA" en phases standardisées exécutables étape par étape par un agent, chaque phase ayant des entrées, des sorties et des validations de qualité claires. Cette chaîne d'outils est actuellement utilisée par une dizaine de startups et plusieurs entreprises du Fortune 500. L'outil open source est le point d'entrée, le produit commercial est l'extension à l'échelle, les deux partageant le même noyau technologique.
Le projet lui-même a de la valeur, mais Perseus estime que la proposition qu'il valide est plus importante : le périmètre des systèmes de Skills va bien au-delà du domaine de l'ingénierie. La stratégie produit, le go-to-market, l'analyse commerciale, toute expertise pouvant être décrite de manière structurée peut être codée en capacité d'agent.
Deuxième jugement : La frontière opérationnelle des agents IA ne devrait pas se limiter au navigateur et aux API
En 2026, le débat sur les agents est dominé par les agents navigateurs et l'intégration d'API. LangGraph, CrewAI, Google ADK constituent un écosystème florissant d'orchestration multi-agents. Mais Perseus remarque un angle mort structurel : la plupart des activités numériques mondiales se déroulent dans des applications mobiles natives - réseaux sociaux, paiements, jeux, communication - et ces applications n'ont pas d'API publique, pas d'équivalent navigateur. Les frameworks existants ne peuvent pas opérer WeChat, Douyin, WhatsApp ou Alipay. Le téléphone est l'interface informatique la plus dominante au monde, mais l'infrastructure pour les agents mobiles natifs est presque inexistante.
La réflexion de Perseus est : pourquoi tout le monde apprend-il à l'IA à utiliser un navigateur, mais personne n'apprend sérieusement à l'IA à utiliser un téléphone ? La prospérité des agents navigateurs est largement due au fait que le web est naturellement adapté à l'automatisation, avec un DOM, des API, des chaînes d'outils matures comme Playwright. Mais le mobile est un monde complètement différent. Les applications natives sont des boîtes noires, sans description d'interface structurée, les opérations ne peuvent se faire qu'en simulant les touches et les glissements humains. La difficulté de ce problème ne réside pas dans la capacité d'un LLM à comprendre si un bouton doit être pressé ou non, mais dans le fait que toute l'infrastructure de la couche d'exécution doit être construite à partir de zéro : gestion de la connexion des appareils, analyse de l'état de l'écran, exclusion mutuelle des appareils entre plusieurs agents, limites de sécurité pour les opérations sensibles.
Ce jugement a conduit à la naissance d'OpenPocket. C'est un framework open source qui permet à des agents pilotés par LLM d'opérer de manière autonome des appareils Android via ADB (Android Debug Bridge). Il compte actuellement une dizaine de contributeurs et plus de cinq cents commits. Ce que les utilisateurs en font est très révélateur : gérer automatiquement des comptes sur les réseaux sociaux, répondre à des messages à votre place sur les messageries instantanées, traiter les paiements et factures sur le téléphone, voire jouer automatiquement à des jeux mobiles. Un scénario typique : l'utilisateur dit à l'agent en langage naturel "tous les matins à 8h, ouvre Slack et fais le check-in", l'agent exécutera alors cette tâche de manière persistante dans une session isolée, transformant une opération manuelle quotidienne répétitive en automatisation en arrière-plan.
Perseus a fait dans ce projet plusieurs choix d'architecture et de produit qu'il estime clés. Premièrement, l'agent peut automatiquement de nouvelles compétences (Skills) pendant son exécution. Lorsqu'il rencontre un flux opérationnel qu'il n'a jamais vu, il peut enregistrer les étapes apprises dans un SKILL.md réutilisable, et l'invoquer directement la prochaine fois. Cela signifie que l'agent n'est pas un outil aux capacités fixes, mais un système qui devient plus fort à l'usage. Deuxièmement, toutes les opérations sensibles doivent être approuvées par un humain, et non laissées à la discrétion de l'agent. Selon lui, le plus dangereux avec un agent autonome n'est pas qu'il fasse une erreur, mais qu'il fasse une erreur "avec confiance" en pensant avoir raison. Troisièmement, chaque agent est complètement isolé, lié à un appareil, une configuration et un état de session indépendants, permettant à plusieurs agents de fonctionner simultanément sans interférence. Si seuls les ingénieurs TypeScript peuvent étendre les capacités de l'agent, alors cet écosystème ne grandira jamais, c'est pourquoi OpenPocket, comme Claude Code, utilise le format SKILL.md comme standard pour l'extension des capacités.
L'ensemble du système prend en charge plus de 29 configurations LLM, l'agent phone est complètement isolé du téléphone personnel de l'utilisateur, et toutes les données restent locales. En 2026, alors que l'OWASP a classé "l'abus d'outils" parmi les dix principaux risques de l'IA agentique et que les obligations à haut risque de l'AI Act de l'UE sont sur le point d'entrer en vigueur, cette conception priorisant le local et incluant l'humain dans la boucle (human-in-the-loop) n'est pas conservatrice, mais une condition préalable à l'entrée des agents dans des scénarios réels.
Troisième jugement : La valeur de l'open source n'est pas dans le code lui-même, mais dans la définition de standards au niveau de l'infrastructure
La compréhension de l'open source par Perseus ne se limite pas à "mettre le code sur GitHub". Il répète souvent un point de vue : l'écosystème open source de l'IA en 2026 se trouve dans une fenêtre où les standards ne sont pas encore figés. Les modèles d'architecture et les normes d'interface adoptés par la communauté aujourd'hui deviendront dans les prochaines années l'infrastructure par défaut de toute l'industrie. Durant cette fenêtre, définir une niche est bien plus important qu'optimiser une solution existante.
Concrètement, son projet de Skills a permis une avancée techniquement significative : démontrer que le format SKILL.md n'est pas seulement un conteneur pour des outils d'ingénierie, mais une norme suffisamment générique pour encoder les connaissances d'un domaine. Lorsqu'un même fichier SKILL.md peut être chargé et exécuté à la fois par Claude Code, l'interface CLI Codex d'OpenAI et OpenClaw, il devient de fait une "unité de capacité portable" de l'écosystème des agents IA. Perseus a intégré le workflow complet du go-to-market, un domaine non technique, dans ce format, et a réussi l'automatisation de bout en bout de l'audit à la correction du code, ce qui constitue une validation significative de l'universalité du standard Skills.
Son projet d'agent mobile comble quant à lui un vide architectural au niveau de la couche d'exécution des agents. Les frameworks d'agents existants dépendent, au niveau de l'appel d'outils, d'interfaces structurées, soit des API, soit du DOM. OpenPocket doit opérer dans un environnement sans aucune interface structurée, en s'appuyant purement sur l'analyse des pixels de l'écran et l'injection d'événements tactiles. Cela a forcé le projet à repenser dès la base la boucle perception-décision-exécution de l'agent, incluant l'analyse en temps réel de l'état de l'appareil, des protocoles d'exclusion mutuelle des appareils entre plusieurs agents, et des mécanismes de récupération automatique après échec d'une opération. Il ne s'agit pas d'une simple adaptation des frameworks d'agents existants, mais d'un schéma architectural qui a évolué indépendamment pour résoudre le problème de "l'opération autonome dans un environnement sans API".
La conception technique des deux projets mérite d'être mentionnée séparément. OpenPocket adopte une architecture à trois couches séparées (Manager, Gateway, Agent Runtime), chaque couche pouvant être itérée indépendamment, permettant aux contributeurs de la communauté de se concentrer uniquement sur la couche qu'ils maîtrisent. Chaque Skill de GTM Engineer Skills suit en interne une conception en pipeline par étapes, la sortie d'une étape étant l'entrée de la suivante, avec des portes de validation de qualité obligatoires. Le workflow peut être interrompu et repris à n'importe quel stade, et les erreurs peuvent être localisées à une étape spécifique. Le but de ces choix architecturaux est le même : permettre aux projets open source d'être dignes de confiance par les utilisateurs réels dans des environnements de production.
D'un point de vue produit, ces deux projets ont également un point commun : Perseus place toujours "qui l'utilise" et "comment cela s'étend" au premier plan des décisions architecturales. Les utilisateurs cibles de GTM Engineer Skills ne sont pas les ingénieurs mais les équipes de croissance, c'est pourquoi chaque Skill a un contrat d'entrée-sortie clair et des validations de qualité intégrées, permettant aux utilisateurs non techniques de comprendre ce que fait l'agent. Les mécanismes d'extension SKILL.md d'OpenPocket, les tâches planifiées en langage naturel, la connectivité multi-canaux (Telegram, Discord, WhatsApp, CLI) visent toutes à réduire le seuil d'utilisation pour les utilisateurs non techniques. Selon lui, si un projet d'infrastructure open source n'est utilisable que par des ingénieurs, son plafond est limité à la taille de la communauté des ingénieurs. La conception véritablement à fort levier est celle qui permet à la frontière des capacités des agents d'être étendue par tous les praticiens de tous les domaines.
Ce modèle imprègne plusieurs de ses projets. Il ne s'agit pas de développer une application sur un framework existant, mais d'identifier les composants manquants au niveau de l'infrastructure de l'écosystème des agents, puis de les construire.
Une vision plus large
L'écosystème open source de l'IA en 2026 vit un moment similaire à celui de l'écosystème cloud native au début des années 2010 : les standards et outils au niveau de l'infrastructure sont en train d'être définis, et ces définitions conditionneront les trajectoires de développement de toute l'industrie dans les années à venir. Durant cette fenêtre, chaque format de Skill adopté par la communauté, chaque modèle d'architecture d'agent validé, chaque vide écologique comblé, participe à façonner la prochaine couche d'interface de l'IA.
Ce que fait Perseus Yang est simple : utiliser les capacités d'ingénierie et la pensée produit pour explorer le paradigme de la frontière technologique à l'ère de l'IA. Les modèles continueront à devenir plus puissants, mais la question de savoir qui définit comment les agents doivent interagir avec le monde réel, qui décide sous quelle forme les connaissances du domaine doivent être codées et distribuées, les réponses à ces questions n'émergeront pas des modèles eux-mêmes. Elles ne peuvent être trouvées que par ceux qui construisent les choses, en essayant pas à pas.







