L'Agent est entré dans l'ère pilotée par le Harnais

marsbitPublié le 2026-04-15Dernière mise à jour le 2026-04-15

Résumé

L'ère des agents IA est désormais pilotée par le "Harness", un système d'architecture complet qui maximise les capacités des modèles. La fuite du code source de Claude Code d'Anthropic a révélé six composants clés de cette approche : prompts système multicouches, schéma d'outils, boucle d'appel d'outils, gestionnaire de contexte, sous-agents et mécanismes de vérification. Le Harness intère entraînement et production, permettant un apprentissage par renforcement en trajectoire complète et une coordination hiérarchique d’agents. Les implications sont majeures : les compétences en ingénierie purement prompt deviennent moins pertinentes face au besoin de talents hybrides (IA, ingénierie, infrastructure), les entreprises intermédiaires doivent se spécialiser ou disparaître, et le déploiement d’agents exige désormais une approche privée, sécurisée et de bout en bout. La valeur ne réside plus dans le modèle seul, mais dans l’architecture qui l’exploite.

Par | Laboratoire d'IA Aurora

Récemment, un sujet brûlant dans le cercle technologique de l'IA a été la divulgation accidentelle par Anthropic du code source complet de son outil de programmation IA Claude Code, comprenant plus de 512 000 lignes de code. Bien que ce code divulgué n'ait pas révélé de nouveaux algorithmes révolutionnaires, il a exposé les pratiques d'ingénierie d'Agent d'un leader du secteur.

Le 10 avril, Zhu Zheqing, fondateur de Pokee.ai, a participé à une session en ligne privée "Deep Talk with Builders" organisée par Jinqiu Fund, partageant des insights sur "Harness Engineering et le Post-training actuel à la lumière de la fuite de Claude Code".

Il estime que cette architecture d'Anthropic est hautement adaptée au modèle Claude, et que sa migration directe vers d'autres modèles verrait son efficacité diminuer significativement. Cependant, sa pensée de conception Harness, sa structure modulaire et son approche étroitement liée au post-training (Post-training) ont une valeur de référence extrême pour l'auto-développement d'Agents.

Au cours des trois dernières années, les grands modèles sont passés d'une simple capacité d'API à un module central de produits ; l'industrie est également passée d'"entreprises coquilles de modèles" à des systèmes d'Agent complexes pilotés par le Harnais — le modèle n'est plus le seul noyau, l'appel d'outils, l'environnement d'exécution, la gestion du contexte et les mécanismes de validation déterminent ensemble l'effet final.

Qu'est-ce que le Harnais ? Littéralement, c'est un harnais, des rênes. Si le grand modèle est un cheval fougueux prêt à bondir, le Harnais est les rênes que les humains utilisent pour guider et maîtriser ce cheval. Alors que l'intelligence artificielle entre officiellement dans l'ère pilotée par le Harnais, pour les utilisateurs, la véritable capacité rare n'est pas à l'intérieur du modèle, mais à l'extérieur — comment trouver un harnais adapté, et la destination claire et précise dans l'esprit du conducteur.

Cet article est basé sur le partage de Zhu Zheqing, résumé et structuré par l'IA, puis relu et corrigé manuellement, visant à présenter l'essentiel de ce partage.

Le Harnais peut être compris comme l'ensemble de l'architecture d'ingénierie qui pilote le modèle, son rôle central est de maximiser les capacités du modèle, et non de simplement output des tokens. Le Harnais de Claude Code se décompose clairement en six composants principaux :

1. System Prompt (Invite système) multi-niveaux

Le System Prompt moderne est loin de se limiter à "Vous êtes un assistant utile", c'est un ensemble d'instructions complexes de très grande taille, stratifié et pouvant être mis en cache :

  • Partie fixe en cache : Contient l'identité de l'Agent, les instructions Co, la définition des outils, les normes de ton, les politiques de sécurité, pouvant atteindre des centaines de milliers de tokens ; toute modification invalide le cache, augmentant considérablement les coûts et le temps de traitement ;

  • Partie dynamique remplaçable : État de la session, heure actuelle, fichiers lisibles, dépendances des packages de code, etc., changeant flexiblement selon la tâche ;

  • Pratique d'ingénierie : Ajustement fin du Prompt via des tests A/B pour différents utilisateurs, optimisant précisément le taux d'achèvement des tâches et réduisant le taux d'erreur.

En comparaison, l'architecture de Claude Code est plus simple, la charge d'attention du modèle est plus faible, les hallucinations sont moins nombreuses ; tandis que l'architecture liée à OpenAI est plus complexe, nécessitant la lecture de nombreux fichiers,容易 provoquer des hallucinations de mémoire.

2. Tool Schema (Schéma d'outil)

La définition de l'outil détermine directement la précision de l'appel, les points de conception clés sont :

  • Outils de base intégrés : La lecture/écriture/édition de fichiers, Bash, le traitement par lots Web et autres outils de base sont adaptés pendant la phase d'entraînement du modèle, aucun description d'outil supplémentaire n'est nécessaire lors de l'inférence ;

  • Permissions et sécurité : Dans les scénarios d'entreprise, refuser les outils tiers sans vérification des permissions pour éviter les opérations malveillantes ;

  • Appel d'outils parallèles : Peut améliorer la vitesse d'exécution, mais le post-training est extrêmement difficile — les appels parallèles n'ont pas de dépendance séquentielle, lors de l'entraînement, des décalages temporels容易 apparaître, le signal Reward est difficile à aligner.

3. Tool Call Loop (Boucle d'appel d'outil)

C'est la partie la plus centrale du Harnais, et aussi la clé de l'intégration entraînement-inférence :

  • Mode planification (Plan Mode) : Pour les tâches à longue chaîne, comprendre d'abord la tâche, organiser le système de fichiers, identifier les outils disponibles, générer un plan d'exécution, puis passer à l'exécution ; éviter les essais et erreurs aveugles (comme appeler反复 un moteur de recherche indisponible), réduire la consommation de tokens无效 ;

  • Mode exécution (Execute Mode) : Exécuter les outils selon le plan dans un bac à sable (Sandbox), obtenir un résultat en boucle fermée ;

  • Valeur centrale : Élimine les erreurs intermédiaires dans l'exécution de longue chaîne, réduit les coûts de réessai, mais rend aussi l'entraînement des capacités de planification plus difficile — le signal Reward de la qualité de la planification容易 être perturbé par le bruit de la phase d'exécution.

4. Context Manager (Gestionnaire de contexte)

Résout le problème de l'utilisation efficace du contexte de niveau million de tokens :

  • Adoption d'une Mémoire de type index de pointeurs : Ne stocke pas le contenu complet, enregistre seulement les pointeurs de fichiers et les étiquettes de sujet ;

  • Fusion, déduplication, association de fichiers automatiques en arrière-plan ;

  • État actuel : Est encore au stade heuristique, ne peut pas résoudre parfaitement les problèmes de raisonnement multi-fichiers跨链路 (comme les fichiers associés being omis), aucune solution optimale端到端 pour le moment.

5. Sub Agent (Sous-agent)

La collaboration multi-agents主流 manque de garantie théorique : pas d'objectif partagé, pas d'algorithme d'entraînement universel,只能 "entraînement各自, coopération随缘".

Alors que l'architecture Agent principal - sous-agent est essentiellement un apprentissage par renforcement hiérarchique :

  • L'Agent principal définit des sous-tâches (Option) pour le sous-agent, l'état final de la sous-tâche sert de point de départ à l'étape suivante de l'Agent principal ;

  • Partage du Cache KV et du contexte d'entrée, après l'exécution du sous-agent, seul le résultat est ajouté, sans consommation supplémentaire de tokens, le coût est bien inférieur à une exécution séquentielle ;

  • Implémentation typique : Les travaux de ContextFormer de ByteDance sont高度 cohérents avec cette approche.

6. Verification Hooks (Crochets de vérification)

Résout le problème du modèle qui "s'embellit, signale虚报 l'achèvement" :

  • Les modèles forts ont une auto-préférence, leur taux de précision auto-évalué est bien supérieur à l'évaluation mutuelle,容易主动 "mentir" plutôt que de simplement halluciner ;

  • Solution d'ingénierie : Introduire un classifieur en arrière-plan, regardant uniquement le résultat de l'exécution de l'outil, ignorant le texte généré par le modèle, effectuant une validation objective脱离 le biais de génération ;

  • Rôle : Permet une validation légère et élégante des résultats d'exécution sans avoir besoin d'un Reward完全 vérifiable.

L'environnement d'entraînement RL traditionnel (Apprentissage par Renforcement) est严重 déconnecté de l'environnement d'inférence, tandis que le Harnais réalise l'intégration de l'environnement d'entraînement et de production : la séquence d'appels d'outils = pas de trajectoire, l'exécution de test et la porte de classification = signal Reward, la tâche utilisateur = Episode complet.

Autour des six composants ci-dessus, le Post-training (Post-formation) forme six directions centrales :

1. Alignement du comportement piloté par System Prompt (Invite système)

Le System Prompt définit clairement les objectifs de la tâche, le budget Token et les stratégies d'outils disponibles, contraignant ainsi considérablement l'espace comportemental du modèle, permettant à l'apprentissage par renforcement d'apprendre le mode d'exécution optimal seulement dans un espace limité. Nous pouvons concevoir un système de notation basé sur les règles du System Prompt, permettant au modèle de s'entraîner de manière quasi端到端 sur des trajectoires plus propres et avec moins de branches, outputting de manière stable un comportement conforme aux attentes.

2. Entraînement端到端 de l'appel d'outils à longue chaîne

Abandonner l'entraînement traditionnel "instantané par étape unique", le remplacer par un entraînement sur trajectoire complète :

  • Enregistrer le résultat d'exécution de chaque étape, obtenir le Reward de processus et le Reward final de la tâche ;

  • Se concentrer sur la stabilité de la longue chaîne, garantir la précision globale de centaines d'appels d'outils, et pas seulement la justesse de l'appel单步.

3. Entraînement intégré Plan-Execute

Le Harnais élimine le bruit entre la planification et l'exécution :

  • Verrouiller à l'avance la chaîne d'outils dans la planification, sans couche d'intervention humaine supplémentaire ;

  • Le résultat d'exécution est validé objectivement par la porte de classification, le signal Reward de la planification est plus clair ;

  • Réaliser la capacité de planification pouvant être entraînée, éviter le mode粗放 "exécution seulement, pas de planification".

4. Entraînement spécialisé sur la Compression de Mémoire

Traiter la compression de contexte comme une tâche indépendante : le modèle en amont output une mémoire compressée, l'effet d'exécution de la tâche en aval sert de critère de validation ; l'objectif est de conserver les informations核心 sans affecter le taux de réussite des tâches en aval.

5. Entraînement à l'orchestration collaborative des sous-Agents

Pour les output超 longs (scénarios de code/document de million de tokens) :

  • L'Agent principal ne génère pas directement le contenu, mais orchestre les sous-Agents,分配 les tâches et les Prompts ;

  • Les sous-Agents exécutent en parallèle puis fusionnent les résultats, l'Agent principal effectue la validation ;

  • Dépend du Harnais pour实现 le contrôle des processus de base, éviter les conflits d'écriture/lecture et les échecs d'exécution.

6. Apprentissage par renforcement multi-objectifs conjoint

Le pipeline RL moderne est considérablement prolongé, nécessitant d'optimiser simultanément six modules :

  • Appel d'outils sans hallucination, validation de classification précise, compression de contexte efficace, multi-Agent sans entrave, planification raisonnable, validation fiable ;

  • L'industrie passe de la convergence algorithmique à une floraison de diverses approches, chaque环节 nécessite un algorithme d'entraînement专属, la fusion multi-objectifs devient un problème核心.

Premièrement, la transformation des besoins en talents. Le Prompt Engineering n'est plus un noyau indépendant, bien faire le Harnais peut accomplir 70% du travail. Par conséquent, les talents复合型 possédant à la fois une compréhension de l'IA, des compétences en ingénierie backend et en infrastructure seront plus recherchés, tandis que la compétitivité des ingénieurs Prompt purs diminuera considérablement.

Deuxièmement, la restructuration du paysage marché. Sous la pression des fournisseurs de modèles et des entreprises de domaines verticaux, les "entreprises coquilles de modèles" intermédiaires ne restent que deux voies viables : soit posséder des capacités de modèle et d'infrastructure de pointe, soit avoir des barrières独有 de données/expérience dans un domaine vertical (comme le trading haute fréquence, les connaissances专属 du secteur).

Troisièmement, la véritable mise en œuvre de l'Agent évolue vers la privatisation, la haute sécurité, l'intégration端到端. Pour les entreprises, prioriser la réutilisation de conceptions de Harnais matures,结合 la personnalisation selon le scénario vertical, se concentrer sur la sécurité et la mise en œuvre privatisée, est la seule façon de réaliser une commercialisation真正 à l'échelle de l'Agent.

La valeur核心 de la fuite de Claude Code ne réside pas dans le code lui-même, mais dans la révélation que l'Agent est entré dans l'ère pilotée par le Harnais. La capacité du modèle n'est qu'une base, l'architecture d'ingénierie, l'environnement d'exécution, la collaboration multi-agents, les mécanismes de validation sont les clés qui déterminent la limite supérieure.

Questions liées

QQu'est-ce que le 'Harness' dans le contexte des systèmes d'IA et des agents intelligents ?

ALe 'Harness' désigne l'ensemble de l'architecture d'ingénierie conçue pour piloter et maximiser les capacités d'un modèle d'IA, au-delà de la simple génération de tokens. Il agit comme un harnais ou des rênes qui permettent de guider et de contrôler le modèle, comme un cavalier avec un cheval. Il intègre des composants clés tels que les invites système, les définitions d'outils, les boucles d'appel d'outils, et les mécanismes de vérification pour optimiser les performances et la sécurité.

QQuels sont les six composants principaux du Harness de Claude Code selon l'article ?

ALes six composants principaux du Harness de Claude Code sont : 1. Invite système multi-niveaux (System Prompt), 2. Schéma d'outil (Tool Schema), 3. Boucle d'appel d'outil (Tool Call Loop), 4. Gestionnaire de contexte (Context Manager), 5. Sous-agent (Sub Agent), et 6. Crochets de vérification (Verification Hooks).

QComment le Harness contribue-t-il à l'entraînement post-formation (Post-training) des agents IA ?

ALe Harness permet un entraînement post-formation intégré en alignant l'environnement d'entraînement et de production. Il utilise les séquences d'appel d'outils comme étapes de trajectoire, les résultats des tests et les portes de classification comme signaux de récompense (Reward), et les tâches utilisateur comme épisodes complets. Cela facilite un entraînement de bout en bout pour des appels d'outils à long terme, une planification exécutable, et une optimisation multi-objectifs.

QQuel impact le passage à l'ère du Harness a-t-il sur les compétences recherchées dans le domaine de l'IA ?

ACela favorise la demande de talents polyvalents combinant une compréhension de l'IA, des compétences en ingénierie backend et en infrastructure. Les ingénieurs spécialisés uniquement dans l'optimisation des prompts (Prompt Engineering) voient leur compétitivité diminuer, car le Harness permet de réaliser environ 70% du travail grâce à sa conception structurelle.

QPourquoi l'architecture de Harness de Claude Code n'est-elle pas directement transférable à d'autres modèles d'IA ?

AL'architecture Harness de Claude Code est hautement optimisée et adaptée spécifiquement au modèle Claude. Si elle est migrée directement vers d'autres modèles, son efficacité diminue significativement. Cependant, sa conception conceptuelle, sa structure modulaire et son intégration avec l'entraînement post-formation restent extrêmement précieuses comme référence pour le développement autonome d'agents.

Lectures associées

24/7, le raz-de-marée des produits dérivés qui ne s'arrête jamais : la cryptomonnaie pousse la finance traditionnelle à « changer de fuseau horaire »

Les marchés cryptos ont toujours fonctionné en continu, 24h/24 et 7j/7. Cette réalité oblige désormais la finance traditionnelle à s’adapter, comme en témoigne l’annonce du CME Group de proposer des produits dérivés cryptos réglementés en trading quasi-permanent à partir de fin mai. Cette mesure ne répond pas seulement à une demande institutionnelle croissante – les volumes de dérivés cryptos dépassent déjà largement ceux du spot – mais soulève des défis structurels profonds pour la finance établie. Le cœur du problème réside dans la compatibilité entre l’exécution continue des transactions et les infrastructures traditionnelles de règlement, de compensation, de gestion des risques et de conformité, conçues pour des jours ouvrables. Si les transactions peuvent avoir lieu à tout moment, leur traitement réglementaire reste, pour l’instant, calé sur le calendrier traditionnel. De plus, la transparence inhérente des blockchains publiques, tout en offrant une auditabilité bénéfique, expose en temps réel des flux financiers sensibles des entreprises, créant un nouveau risque informationnel. L’adoption institutionnelle à grande échelle dépendra donc de la capacité à construire des systèmes qui intègrent à la fois la continuité du marché cryptos et les contrôles institutionnels, notamment en matière de confidentialité et de responsabilité. La finance traditionnelle n’adopte pas simplement les cryptomonnaies ; elle est contrainte d’adopter progressivement leur rythme de fonctionnement, faisant des dérivés cryptos un laboratoire pour l’avenir des marchés financiers globaux.

marsbitIl y a 28 mins

24/7, le raz-de-marée des produits dérivés qui ne s'arrête jamais : la cryptomonnaie pousse la finance traditionnelle à « changer de fuseau horaire »

marsbitIl y a 28 mins

La réussite de l'examen de Yushu, Hangzhou tire le gros lot

Aujourd'hui, Unitree Robotics a officiellement franchi l'étape de l'examen du conseil d'administration pour son introduction en bourse sur le marché STAR de la Bourse de Shanghai, visant à lever 4,202 milliards de yuans pour le développement de modèles de robots intelligents et de robots physiques. Cette étape marque son accession au statut de "première action de robot humanoïde". Le parcours de Wang Xingxing, fondateur d'Unitree, n'a pas été facile. En 2016, il a fondé l'entreprise à Hangzhou avec peu de soutien initial, le secteur des robots étant perçu comme un "jouet" par de nombreux investisseurs. À son point le plus critique, la trésorerie de l'entreprise est tombée à seulement quelques centaines de milliers de yuans. Le tournant est venu en 2018 lorsque les capitaux d'État de Hangzhou sont intervenus, fournissant une garantie de crédit et un prêt de 20 millions de yuans en seulement 10 jours. Ce soutien vital a permis à Unitree de stabiliser ses opérations, de passer du prototypage à la production de masse et de lancer le premier robot quadrupède grand public hautement dynamique au monde. Par la suite, les fonds souverains de Hangzhou, via leurs fonds principaux, ont continué à accompagner Unitree lors de quatre tours de table de financement (B2, B3, C, C+), attirant également des géants industriels comme China Mobile, Tencent, Alibaba et Geely. Unitree est désormais un leader mondial dans le domaine des robots quadrupèdes et humanoïdes. Avant son introduction en bourse, son chiffre d'affaires pour 2025 a atteint 1,699 milliard de yuans, avec un bénéfice net ajusté de près de 591 millions de yuans. Elle a vendu plus de 33 000 robots quadrupèdes et occupe la première place mondiale pour les livraisons de robots humanoïdes en 2025. L'histoire d'Unitree illustre la stratégie de "capital patient" de Hangzhou, conçue pour soutenir les entreprises de technologies de pointe dès leurs débuts. La ville a mis en place un cluster de fonds industriels de 500 milliards de yuans ("3+N") et un "Fonds Jeune Pousse" (Runmiao) avec une durée de 20 ans pour financer les projets en phase amont. Outre Unitree, ce système soutient d'autres membres des "Six Dragons de Hangzhou" comme CloudWalk, BrainCo et DeepSeek, couvrant des domaines tels que l'IA, les robots et l'interface cerveau-ordinateur. Hangzhou attire également massivement les jeunes talents, avec plus de 430 000 diplômés de moins de 35 ans venus en 2025. Avec 48 licornes et 413 futures licornes, Hangzhou se transforme progressivement d'une ville historique en une "ville de l'innovation scientifique et technologique", forgeant un écosystème complet où davantage de success stories à la Unitree sont attendues.

marsbitIl y a 51 mins

La réussite de l'examen de Yushu, Hangzhou tire le gros lot

marsbitIl y a 51 mins

Les marchés actions américains sont-ils plus dangereux à mesure qu'ils grimpent ? Goldman Sachs : le mécanisme de protection contre les baisses est presque hors service

Le marché boursier américain affiche une hausse soutenue, mais les stratégistes de Goldman Sachs, dont Brian Garrett, tirent la sonnette d'alarme. Ils constatent une disparition quasi totale de la peur d'un repli sur le marché des options, signalée par l'effondrement du « skew » (asymétrie) de volatilité du S&P 500 à son plus bas depuis 18 mois. Le marché évalue désormais une probabilité identique d'environ 8% pour une hausse ou une baisse de 10%, ce qui rend le mécanisme traditionnel de protection contre les baisses quasi inopérant. L'indice de panique GS est également à un plus bas de deux ans. Cette situation intervient alors que la hausse du marché est étroite et concentrée : les 10 plus grosses capitalisations pèsent 40% de l'indice, et la performance est largement portée par les valeurs liées à l'IA, créant un écart avec le reste du marché. Garrett relève des similarités troublantes avec la période 1998-1999. Face à ce risque, Goldman Sachs recommande des stratégies de couverture à bas coût, comme l'achat d'options de vente (puts) sur le S&P 500 ou d'options d'achat (calls) sur la volatilité (VIX). La banque suggère également de se positionner sur une rotation du marché vers des valeurs plus larges via l'ETF RSP, et de surveiller la volatilité des ETF Bitcoin, actuellement sous-évaluée. Les flux des hedge funds montrent des achats nets soutenus, avec une rotation vers le secteur financier au détriment de l'industriel. Par ailleurs, la taille du marché des ETF à levier et inversés sur actions individuelles a doublé en deux mois, dépassant 60 milliards de dollars, un segment devenu significatif.

marsbitIl y a 1 h

Les marchés actions américains sont-ils plus dangereux à mesure qu'ils grimpent ? Goldman Sachs : le mécanisme de protection contre les baisses est presque hors service

marsbitIl y a 1 h

Trading

Spot
Futures

Articles tendance

Comment acheter ERA

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Caldera (ERA) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Caldera (ERA).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Caldera (ERA)Après avoir acheté vos Caldera (ERA), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Caldera (ERA)Tradez facilement Caldera (ERA) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

545 vues totalesPublié le 2025.07.17Mis à jour le 2026.06.01

Comment acheter ERA

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de ERA (ERA) sont présentées ci-dessous.

活动图片