Fin mai 2026, Deepseek a constitué en interne une toute nouvelle équipe "Harness", orientée vers un produit d'agent intelligent pour le code, avec pour référence interne Claude Code d'Anthropic. Cui Tianyi, ancien ingénieur quantitatif star de Jane Street, a rejoint cette équipe en mars, et Chen Deli, chercheur senior, a confirmé publiquement la nouvelle et est en charge du recrutement. Dans l'offre d'emploi de Deepseek, une formule est clairement écrite : "Modèle + Harnais = Agent". Alors que les capacités des grands modèles de base tendent à s'égaliser, l'ère de la simple course aux paramètres touche à sa fin. Le fait que Deepseek prenne lui-même part à la constitution d'une équipe de chaîne d'outils marque le déplacement du champ de bataille principal de la concurrence en IA en Chine, passant de la "fonte des grands modèles" à la "construction de chaînes d'outils et leur intégration dans le travail".
Pourquoi Deepseek prend-il lui-même en charge le développement du Harnais ?
Pendant très longtemps, les attentes des développeurs envers Deepseek se sont limitées à l'open source de modèles de base plus puissants. Mais une forte capacité en code ne signifie pas que les développeurs l'adopteront comme outil de productivité. Ce qui change véritablement les modes de travail, ce n'est pas la réponse à une requête de code dans une fenêtre de chat, mais un agent d'ingénierie intelligent capable d'entrer dans le terminal, de comprendre un projet, de lire et écrire des fichiers, d'exécuter des commandes, de corriger des erreurs. Avant l'intervention officielle, la communauté des développeurs avait déjà créé divers agents de terminal open source basés sur les modèles Deepseek. En constituant une équipe Harness à ce moment-là, Deepseek vise à prendre le contrôle de la conception des interfaces et de la boucle de données d'entraînement, intégrant ainsi les pistes explorées par la communauté au sein de son produit principal officiel.
Pour comprendre cette intention stratégique, il faut d'abord bien saisir ce qu'est exactement un "Harness". Pour les lecteurs non techniques, ce terme peut paraître étranger. Dans la formule de Deepseek, le modèle est responsable du raisonnement, et le Harness de tout le reste. "Harness", qui signifie initialement "harnais" ou "ceinture de sécurité" dans le domaine de l'ingénierie, se réfère, dans le domaine de l'IA, à l'"infrastructure d'exécution" d'un Agent.
Pour une compréhension plus accessible, on peut comparer le grand modèle au "cerveau" et à l'"intelligence" d'un travailleur très compétent, tandis que le Harness est la "description de poste, les critères d'évaluation KPIs, les protections de bureau et la boîte à outils" de ce travailleur. Ce n'est pas un "échafaudage" assemblé avant exécution, ni un "framework" fournissant des blocs de construction, mais un système qui fonctionne en continu. Il est responsable de l'orchestration de la boucle d'exécution, de la distribution des appels d'outils, de la gestion du contexte, de l'exécution des contrôles de sécurité, ainsi que de la récupération d'erreurs et de la persistance des états. Le grand modèle lui-même est sans état et sans capacité d'interaction avec l'environnement ; il ne peut que recevoir une entrée texte et produire une sortie texte. Le Harness compense ces lacunes, permettant au modèle d'interagir véritablement avec le monde extérieur et d'exécuter des tâches spécifiques.
Pourquoi les entreprises de modèles de base doivent-elles maîtriser elles-mêmes ce runtime ? L'essentiel réside dans le fait que les produits Agent ne sont pas seulement des exutoires des capacités du modèle, mais aussi des terrains d'entraînement pour ces capacités. L'offre d'emploi de Deepseek insiste sur la "mise en œuvre de l'évolution conjointe du modèle et du Harness". Dans des tâches complexes réelles, le modèle rencontre divers échecs dus à des limitations environnementales ou à des retours d'outils anormaux. Enregistrer ces trajectoires d'échec par le Harness peut alimenter l'entraînement du modèle, créant un effet de roue de la motivation. Si la communauté est laissée en charge de cette construction, les fournisseurs de modèles perdront le retour des données de la couche application la plus critique, se réduisant à de simples fournisseurs de puissance de calcul et de poids.
D'un point de vue technique, l'optimisation du Harness détermine davantage le succès d'un Agent que la simple optimisation du Prompt. Selon l'analyse d'experts, dans le fonctionnement d'un Agent, la sortie des outils représente 67,6 % du contenu réellement vu par l'Agent dans son contexte, tandis que les prompts système n'en représentent que 3,4 %. Cela signifie que la plus grande partie du "champ de vision" du modèle est occupée par les résultats des appels d'outils. Si le Harness traite mal le format de la sortie des outils, ou ne parvient pas à compresser efficacement les informations redondantes, le modèle sombre dans la "dégradation du contexte", entraînant une chute brutale de la qualité du raisonnement ultérieur.
Plus grave encore est le problème des erreurs composites. Un processus Agent comprenant 10 étapes, chacune avec une fiabilité de 99 %, a un taux de réussite de bout en bout d'environ 90 % ; lorsque la complexité de la tâche atteint 50 étapes, le taux de réussite chute à 60 %. Dans des scénarios réels de maintenance de dépôts de code ou d'automatisation des tâches de bureau en entreprise, des opérations continues de plusieurs dizaines d'étapes sont courantes. Dans ce cas, quelle que soit la puissance de raisonnement du modèle lui-même, il ne peut compenser la perte cumulative liée aux probabilités. Seul un mécanisme de gestion et de récupération des erreurs au sein du Harness permet de réessayer ou de corriger le chemin lorsqu'une étape échoue. C'est précisément là que réside la valeur technique du Harness, et la raison pour laquelle Deepseek doit intervenir lui-même.
Tencent fait le connecteur, Alibaba fait la pénétration frontale : les chemins différenciés des chaînes d'outils des grands acteurs
Le virage de Deepseek n'est pas un cas isolé. Selon les médias du secteur, le renforcement des capacités Agent est devenu une direction de développement importante pour les grands modèles de base chinois en 2026. Les modèles de base deviennent progressivement des "services publics de base", et le champ de bataille concurrentiel se déplace vers la couche applicative. D'autres grands acteurs chinois cherchent également à se positionner différemment via les chaînes d'outils, mais leurs chemins divergent, reflétant les atouts écosystémiques et les différences d'utilisateurs cibles de chacun.
En juin 2026, Tencent a révélé son nouvel atout pour l'Agent en entreprise, lançant la version Entreprise de WorkBuddy. Son positionnement central est celui d'un bureau intelligent en poste de travail couvrant tous les scénarios, mettant en avant le passage de l'efficacité individuelle à la collaboration organisationnelle. La version Entreprise de WorkBuddy prend en charge l'exécution parallèle de multiples Agents et l'intégration de Connecteurs vers les systèmes métier, cherchant à s'approprier l'entrée unifiée des bureaux assistés par IA. La logique de positionnement de Tencent s'appuie sur son vaste écosystème comprenant WeChat Work et Tencent Cloud. Pour les grandes entreprises, la difficulté de l'IA en entreprise ne réside pas dans l'expérience ultime d'un outil ponctuel, mais dans la capacité à interconnecter les systèmes de bureautique internes, souvent isolés. En jouant le rôle de connecteur, Tencent permet aux Agents de piloter directement les données et processus de l'entreprise, en mettant l'accent sur la collaboration au niveau organisationnel et la livraison de tâches complexes. L'avantage de cette approche est la création d'une barrière élevée : une fois intégrés aux processus métier centraux de l'entreprise, les coûts de remplacement sont énormes ; le défi réside dans la nécessité d'une capacité de service aux entreprises et d'un support sur mesure extrêmement forts.
Alibaba a quant à lui choisi une voie différente, en abaissant le seuil d'automatisation côté Web. Alibaba a publié en open source PageAgent, un framework d'Agent GUI fonctionnant entièrement dans le navigateur. Ce framework ne nécessite aucun déploiement backend, et une seule ligne de code permet à un site web d'intégrer la capacité d'un opérateur IA. La logique de positionnement d'Alibaba est d'autonomiser les développeurs Web, permettant à n'importe quelle page web de devenir instantanément une application native IA. Face à la réalité où de nombreux systèmes d'entreprise traditionnels ne fournissent pas d'interface API, réaliser l'automatisation via des opérations DOM frontales constitue une voie pragmatique de frappe décisive. L'avantage de cette voie est sa légèreté et sa facilité d'intégration, permettant une couverture rapide d'une multitude de sites web de niche ; cependant, les changements fréquents de structure DOM frontaux peuvent poser des défis de stabilité, exigeant une capacité de récupération d'erreurs encore plus élevée de la part du Harness.
En comparant, on constate que les différents acteurs ne se contentent plus de simplement rivaliser sur les scores des modèles, mais construisent leurs chaînes d'outils en fonction de leurs atouts écosystémiques propres. Tencent fait le connecteur, Alibaba fait la pénétration frontale, tandis que Deepseek s'attaque au scénario le plus critique pour les développeurs : l'ingénierie logicielle. Cette différenciation montre que l'industrie de l'IA en Chine a pris conscience qu'il n'existe pas d'Agent universel parfait, mais seulement des solutions verticales affûtées par un travail technique approfondi sur le Harness dans des scénarios spécifiques. Pour les achats en entreprise, choisir quelle chaîne d'outils, c'est essentiellement choisir quel chemin d'automatisation : une intégration profonde avec un écosystème de bureautique, une intégration flexible dans les systèmes Web existants, ou l'autonomisation des flux de travail d'ingénierie des développeurs.
Les 20 millions de dollars d'ARR de Viktor le prouvent : les entreprises sont prêtes à payer pour une exécution autonome
La maturation des chaînes d'outils est en train de changer le paradigme de la participation de l'IA au domaine des bureautiques. La logique native d'un Copilot est de "rédiger et attendre que l'humain finalise". L'IA génère un texte ou un code, mais la dernière étape nécessite toujours une intervention humaine pour modification et exécution. Dans ce mode, l'IA n'est qu'un outil d'efficacité, incapable de véritablement remplacer la main-d'œuvre. Les employés doivent surveiller en permanence la sortie de l'IA pour la vérifier et la mettre en œuvre, ce qui augmente en réalité la charge cognitive.
Sur le marché international, des signaux clairs de changement de paradigme sont déjà apparus. En tant que référence de tendance internationale, l'entreprise polonaise d'automatisation de bureau par IA, Viktor, se positionne comme un employé IA au sein de Slack. Sans équipe commerciale, elle a réalisé un chiffre d'affaires annuel récurrent (ARR) de 20 millions de dollars, dessert 30 000 entreprises et a levé 75 millions de dollars en série A en mai 2026. Le modèle de Viktor représente la forme ultime du nouvel employé IA : possédant un ordinateur dans le cloud, capable de travailler de manière continue pendant de longues périodes, maîtrisant fermement des contextes massifs et livrant directement des résultats.
Viktor se positionne comme un "Collaborateur IA de Niveau 3", ce qui signifie qu'il ne traite plus de simples questions-réponses, mais de tâches complexes nécessitant de multiples étapes et une exécution de longue durée, comme des audits marketing, la gestion de publicités, la recherche de prospects. Les entreprises ont une forte volonté de payer pour ce type d'IA, capable de travailler de manière continue sans confirmation humaine finale. Cette explosion de données commerciales prouve que le point d'ancrage de valeur de l'automatisation de bureau s'est déplacé de l'"assistance à la génération" vers l'"exécution autonome".
La mise en place de chaînes d'outils Harness et Agent par les acteurs chinois vise précisément à répondre à cette tendance. Lorsque le Harness peut fournir des garde-fous de sécurité suffisants, une persistance d'état et des capacités de récupération d'erreurs, l'IA peut passer d'un "stagiaire" nécessitant une surveillance humaine constante à un "sous-traitant" capable de livrer indépendamment des résultats de travail. Le point d'attention des achats en entreprise se déplacera également de la taille des paramètres du modèle vers la capacité de l'Agent à fonctionner de manière stable pendant 8 heures sans plantage, à gérer automatiquement les limitations d'API et les changements de structure de pages web. Pour les développeurs, cela signifie que le point central de la construction d'applications IA passera de "comment bien écrire un Prompt" à "comment concevoir un environnement d'exécution robuste".
L'explosion des Tokens et la barrière technique des frameworks "épais"
Après le passage à la concurrence sur les chaînes d'outils, les défis auxquels sont confrontés les acheteurs en entreprise et les développeurs dans la mise en œuvre pratique ne diminuent pas, mais se concentrent davantage sur le plan technique.
Le premier défi est celui de l'explosion des Tokens. Un Agent fonctionnant sur de longues périodes, dans sa boucle "penser, agir, obtenir un retour", est très susceptible de voir son contexte gonfler rapidement à cause de sorties d'outils redondantes. La communauté des développeurs discute largement de ce problème, estimant qu'il augmente non seulement les coûts d'inférence, mais entraîne également une dispersion de l'attention du modèle et une augmentation brutale du taux d'échec des tâches. Par exemple, lors de l'exécution d'une tâche de collecte de données sur une page web, si le Harness introduit tel quel le code source HTML complet de la page dans le contexte, le modèle se perdra rapidement dans les informations redondantes, oubliant l'objectif initial de la tâche. Par conséquent, la capacité du Harness à compresser le contexte et gérer la mémoire devient un indicateur clé de choix pour les achats en entreprise. Un bon Harness doit savoir quelles informations historiques peuvent être ignorées, quels résultats de retour d'outils doivent être résumés, ce qui teste des capacités d'architecture technique approfondies, et non l'intelligence propre du modèle.
Cela a également suscité la méfiance des développeurs envers les frameworks "minces" de simple habillage. Si le Harness proposé par les fournisseurs de grands modèles n'est qu'un simple enrobage d'API, fournissant des interfaces de dialogue de base et d'appel d'outils, il manquera de valeur de débogage réelle. La fragilité en environnement de production exige que le Harness possède des caractéristiques de "framework épais" telles que l'isolation en bac à sable, le contrôle granulaire des permissions, la reprise après coupure, etc. Seul un runtime doté de barrières techniques profondes peut véritablement répondre aux besoins de stabilité des applications de niveau entreprise. Par exemple, dans un scénario d'exécution de code, le Harness doit fournir un environnement bac à sable sûr pour empêcher le code malveillant généré par le modèle d'endommager le système hôte ; pour les tâches de longue durée, il doit prendre en charge la reprise après coupure pour éviter qu'une fluctuation réseau ne force la tâche à recommencer depuis le début.
De plus, des facteurs géopolitiques laissent un immense vide de marché pour les Harness chinois. Des produits d'agent d'ingénierie de pointe internationaux comme Claude Code imposent des restrictions d'accès à la Chine continentale et aux entreprises chinoises. Dans l'impossibilité d'utiliser directement ces outils de pointe, les développeurs chinois ne peuvent que rechercher des alternatives nationales. La constitution de l'équipe Harness par Deepseek n'est pas seulement un suivi de la tendance technologique, mais aussi une réponse à cette énorme demande de substitution.
Pour les acheteurs en entreprise et les développeurs, comprendre la valeur du Harness signifie que, lors du choix d'un produit IA, ils ne seront plus trompés par des démonstrations de dialogue spectaculaires, mais chercheront à savoir quels sont ses mécanismes de récupération d'erreurs, quelles sont ses stratégies de gestion de contexte, et s'il peut véritablement s'intégrer aux flux de travail existants. Dans la phase de concurrence sur les chaînes d'outils, les entreprises devraient prioritairement examiner les capacités de livraison technique et la compatibilité écosystémique des fournisseurs, plutôt que de simplement comparer les scores des modèles ; les développeurs devraient quant à eux se concentrer sur le degré d'ouverture du framework Harness et l'exhaustivité des outils de débogage, en choisissant une plateforme capable de fournir un environnement d'exécution profondément contrôlable.







