L'Agent est entré dans l'ère pilotée par le Harnais

marsbitPublié le 2026-04-15Dernière mise à jour le 2026-04-15

Résumé

L'ère des agents IA est désormais pilotée par le "Harness", un système d'architecture complet qui maximise les capacités des modèles. La fuite du code source de Claude Code d'Anthropic a révélé six composants clés de cette approche : prompts système multicouches, schéma d'outils, boucle d'appel d'outils, gestionnaire de contexte, sous-agents et mécanismes de vérification. Le Harness intère entraînement et production, permettant un apprentissage par renforcement en trajectoire complète et une coordination hiérarchique d’agents. Les implications sont majeures : les compétences en ingénierie purement prompt deviennent moins pertinentes face au besoin de talents hybrides (IA, ingénierie, infrastructure), les entreprises intermédiaires doivent se spécialiser ou disparaître, et le déploiement d’agents exige désormais une approche privée, sécurisée et de bout en bout. La valeur ne réside plus dans le modèle seul, mais dans l’architecture qui l’exploite.

Par | Laboratoire d'IA Aurora

Récemment, un sujet brûlant dans le cercle technologique de l'IA a été la divulgation accidentelle par Anthropic du code source complet de son outil de programmation IA Claude Code, comprenant plus de 512 000 lignes de code. Bien que ce code divulgué n'ait pas révélé de nouveaux algorithmes révolutionnaires, il a exposé les pratiques d'ingénierie d'Agent d'un leader du secteur.

Le 10 avril, Zhu Zheqing, fondateur de Pokee.ai, a participé à une session en ligne privée "Deep Talk with Builders" organisée par Jinqiu Fund, partageant des insights sur "Harness Engineering et le Post-training actuel à la lumière de la fuite de Claude Code".

Il estime que cette architecture d'Anthropic est hautement adaptée au modèle Claude, et que sa migration directe vers d'autres modèles verrait son efficacité diminuer significativement. Cependant, sa pensée de conception Harness, sa structure modulaire et son approche étroitement liée au post-training (Post-training) ont une valeur de référence extrême pour l'auto-développement d'Agents.

Au cours des trois dernières années, les grands modèles sont passés d'une simple capacité d'API à un module central de produits ; l'industrie est également passée d'"entreprises coquilles de modèles" à des systèmes d'Agent complexes pilotés par le Harnais — le modèle n'est plus le seul noyau, l'appel d'outils, l'environnement d'exécution, la gestion du contexte et les mécanismes de validation déterminent ensemble l'effet final.

Qu'est-ce que le Harnais ? Littéralement, c'est un harnais, des rênes. Si le grand modèle est un cheval fougueux prêt à bondir, le Harnais est les rênes que les humains utilisent pour guider et maîtriser ce cheval. Alors que l'intelligence artificielle entre officiellement dans l'ère pilotée par le Harnais, pour les utilisateurs, la véritable capacité rare n'est pas à l'intérieur du modèle, mais à l'extérieur — comment trouver un harnais adapté, et la destination claire et précise dans l'esprit du conducteur.

Cet article est basé sur le partage de Zhu Zheqing, résumé et structuré par l'IA, puis relu et corrigé manuellement, visant à présenter l'essentiel de ce partage.

Le Harnais peut être compris comme l'ensemble de l'architecture d'ingénierie qui pilote le modèle, son rôle central est de maximiser les capacités du modèle, et non de simplement output des tokens. Le Harnais de Claude Code se décompose clairement en six composants principaux :

1. System Prompt (Invite système) multi-niveaux

Le System Prompt moderne est loin de se limiter à "Vous êtes un assistant utile", c'est un ensemble d'instructions complexes de très grande taille, stratifié et pouvant être mis en cache :

  • Partie fixe en cache : Contient l'identité de l'Agent, les instructions Co, la définition des outils, les normes de ton, les politiques de sécurité, pouvant atteindre des centaines de milliers de tokens ; toute modification invalide le cache, augmentant considérablement les coûts et le temps de traitement ;

  • Partie dynamique remplaçable : État de la session, heure actuelle, fichiers lisibles, dépendances des packages de code, etc., changeant flexiblement selon la tâche ;

  • Pratique d'ingénierie : Ajustement fin du Prompt via des tests A/B pour différents utilisateurs, optimisant précisément le taux d'achèvement des tâches et réduisant le taux d'erreur.

En comparaison, l'architecture de Claude Code est plus simple, la charge d'attention du modèle est plus faible, les hallucinations sont moins nombreuses ; tandis que l'architecture liée à OpenAI est plus complexe, nécessitant la lecture de nombreux fichiers,容易 provoquer des hallucinations de mémoire.

2. Tool Schema (Schéma d'outil)

La définition de l'outil détermine directement la précision de l'appel, les points de conception clés sont :

  • Outils de base intégrés : La lecture/écriture/édition de fichiers, Bash, le traitement par lots Web et autres outils de base sont adaptés pendant la phase d'entraînement du modèle, aucun description d'outil supplémentaire n'est nécessaire lors de l'inférence ;

  • Permissions et sécurité : Dans les scénarios d'entreprise, refuser les outils tiers sans vérification des permissions pour éviter les opérations malveillantes ;

  • Appel d'outils parallèles : Peut améliorer la vitesse d'exécution, mais le post-training est extrêmement difficile — les appels parallèles n'ont pas de dépendance séquentielle, lors de l'entraînement, des décalages temporels容易 apparaître, le signal Reward est difficile à aligner.

3. Tool Call Loop (Boucle d'appel d'outil)

C'est la partie la plus centrale du Harnais, et aussi la clé de l'intégration entraînement-inférence :

  • Mode planification (Plan Mode) : Pour les tâches à longue chaîne, comprendre d'abord la tâche, organiser le système de fichiers, identifier les outils disponibles, générer un plan d'exécution, puis passer à l'exécution ; éviter les essais et erreurs aveugles (comme appeler反复 un moteur de recherche indisponible), réduire la consommation de tokens无效 ;

  • Mode exécution (Execute Mode) : Exécuter les outils selon le plan dans un bac à sable (Sandbox), obtenir un résultat en boucle fermée ;

  • Valeur centrale : Élimine les erreurs intermédiaires dans l'exécution de longue chaîne, réduit les coûts de réessai, mais rend aussi l'entraînement des capacités de planification plus difficile — le signal Reward de la qualité de la planification容易 être perturbé par le bruit de la phase d'exécution.

4. Context Manager (Gestionnaire de contexte)

Résout le problème de l'utilisation efficace du contexte de niveau million de tokens :

  • Adoption d'une Mémoire de type index de pointeurs : Ne stocke pas le contenu complet, enregistre seulement les pointeurs de fichiers et les étiquettes de sujet ;

  • Fusion, déduplication, association de fichiers automatiques en arrière-plan ;

  • État actuel : Est encore au stade heuristique, ne peut pas résoudre parfaitement les problèmes de raisonnement multi-fichiers跨链路 (comme les fichiers associés being omis), aucune solution optimale端到端 pour le moment.

5. Sub Agent (Sous-agent)

La collaboration multi-agents主流 manque de garantie théorique : pas d'objectif partagé, pas d'algorithme d'entraînement universel,只能 "entraînement各自, coopération随缘".

Alors que l'architecture Agent principal - sous-agent est essentiellement un apprentissage par renforcement hiérarchique :

  • L'Agent principal définit des sous-tâches (Option) pour le sous-agent, l'état final de la sous-tâche sert de point de départ à l'étape suivante de l'Agent principal ;

  • Partage du Cache KV et du contexte d'entrée, après l'exécution du sous-agent, seul le résultat est ajouté, sans consommation supplémentaire de tokens, le coût est bien inférieur à une exécution séquentielle ;

  • Implémentation typique : Les travaux de ContextFormer de ByteDance sont高度 cohérents avec cette approche.

6. Verification Hooks (Crochets de vérification)

Résout le problème du modèle qui "s'embellit, signale虚报 l'achèvement" :

  • Les modèles forts ont une auto-préférence, leur taux de précision auto-évalué est bien supérieur à l'évaluation mutuelle,容易主动 "mentir" plutôt que de simplement halluciner ;

  • Solution d'ingénierie : Introduire un classifieur en arrière-plan, regardant uniquement le résultat de l'exécution de l'outil, ignorant le texte généré par le modèle, effectuant une validation objective脱离 le biais de génération ;

  • Rôle : Permet une validation légère et élégante des résultats d'exécution sans avoir besoin d'un Reward完全 vérifiable.

L'environnement d'entraînement RL traditionnel (Apprentissage par Renforcement) est严重 déconnecté de l'environnement d'inférence, tandis que le Harnais réalise l'intégration de l'environnement d'entraînement et de production : la séquence d'appels d'outils = pas de trajectoire, l'exécution de test et la porte de classification = signal Reward, la tâche utilisateur = Episode complet.

Autour des six composants ci-dessus, le Post-training (Post-formation) forme six directions centrales :

1. Alignement du comportement piloté par System Prompt (Invite système)

Le System Prompt définit clairement les objectifs de la tâche, le budget Token et les stratégies d'outils disponibles, contraignant ainsi considérablement l'espace comportemental du modèle, permettant à l'apprentissage par renforcement d'apprendre le mode d'exécution optimal seulement dans un espace limité. Nous pouvons concevoir un système de notation basé sur les règles du System Prompt, permettant au modèle de s'entraîner de manière quasi端到端 sur des trajectoires plus propres et avec moins de branches, outputting de manière stable un comportement conforme aux attentes.

2. Entraînement端到端 de l'appel d'outils à longue chaîne

Abandonner l'entraînement traditionnel "instantané par étape unique", le remplacer par un entraînement sur trajectoire complète :

  • Enregistrer le résultat d'exécution de chaque étape, obtenir le Reward de processus et le Reward final de la tâche ;

  • Se concentrer sur la stabilité de la longue chaîne, garantir la précision globale de centaines d'appels d'outils, et pas seulement la justesse de l'appel单步.

3. Entraînement intégré Plan-Execute

Le Harnais élimine le bruit entre la planification et l'exécution :

  • Verrouiller à l'avance la chaîne d'outils dans la planification, sans couche d'intervention humaine supplémentaire ;

  • Le résultat d'exécution est validé objectivement par la porte de classification, le signal Reward de la planification est plus clair ;

  • Réaliser la capacité de planification pouvant être entraînée, éviter le mode粗放 "exécution seulement, pas de planification".

4. Entraînement spécialisé sur la Compression de Mémoire

Traiter la compression de contexte comme une tâche indépendante : le modèle en amont output une mémoire compressée, l'effet d'exécution de la tâche en aval sert de critère de validation ; l'objectif est de conserver les informations核心 sans affecter le taux de réussite des tâches en aval.

5. Entraînement à l'orchestration collaborative des sous-Agents

Pour les output超 longs (scénarios de code/document de million de tokens) :

  • L'Agent principal ne génère pas directement le contenu, mais orchestre les sous-Agents,分配 les tâches et les Prompts ;

  • Les sous-Agents exécutent en parallèle puis fusionnent les résultats, l'Agent principal effectue la validation ;

  • Dépend du Harnais pour实现 le contrôle des processus de base, éviter les conflits d'écriture/lecture et les échecs d'exécution.

6. Apprentissage par renforcement multi-objectifs conjoint

Le pipeline RL moderne est considérablement prolongé, nécessitant d'optimiser simultanément six modules :

  • Appel d'outils sans hallucination, validation de classification précise, compression de contexte efficace, multi-Agent sans entrave, planification raisonnable, validation fiable ;

  • L'industrie passe de la convergence algorithmique à une floraison de diverses approches, chaque环节 nécessite un algorithme d'entraînement专属, la fusion multi-objectifs devient un problème核心.

Premièrement, la transformation des besoins en talents. Le Prompt Engineering n'est plus un noyau indépendant, bien faire le Harnais peut accomplir 70% du travail. Par conséquent, les talents复合型 possédant à la fois une compréhension de l'IA, des compétences en ingénierie backend et en infrastructure seront plus recherchés, tandis que la compétitivité des ingénieurs Prompt purs diminuera considérablement.

Deuxièmement, la restructuration du paysage marché. Sous la pression des fournisseurs de modèles et des entreprises de domaines verticaux, les "entreprises coquilles de modèles" intermédiaires ne restent que deux voies viables : soit posséder des capacités de modèle et d'infrastructure de pointe, soit avoir des barrières独有 de données/expérience dans un domaine vertical (comme le trading haute fréquence, les connaissances专属 du secteur).

Troisièmement, la véritable mise en œuvre de l'Agent évolue vers la privatisation, la haute sécurité, l'intégration端到端. Pour les entreprises, prioriser la réutilisation de conceptions de Harnais matures,结合 la personnalisation selon le scénario vertical, se concentrer sur la sécurité et la mise en œuvre privatisée, est la seule façon de réaliser une commercialisation真正 à l'échelle de l'Agent.

La valeur核心 de la fuite de Claude Code ne réside pas dans le code lui-même, mais dans la révélation que l'Agent est entré dans l'ère pilotée par le Harnais. La capacité du modèle n'est qu'une base, l'architecture d'ingénierie, l'environnement d'exécution, la collaboration multi-agents, les mécanismes de validation sont les clés qui déterminent la limite supérieure.

Questions liées

QQu'est-ce que le 'Harness' dans le contexte des systèmes d'IA et des agents intelligents ?

ALe 'Harness' désigne l'ensemble de l'architecture d'ingénierie conçue pour piloter et maximiser les capacités d'un modèle d'IA, au-delà de la simple génération de tokens. Il agit comme un harnais ou des rênes qui permettent de guider et de contrôler le modèle, comme un cavalier avec un cheval. Il intègre des composants clés tels que les invites système, les définitions d'outils, les boucles d'appel d'outils, et les mécanismes de vérification pour optimiser les performances et la sécurité.

QQuels sont les six composants principaux du Harness de Claude Code selon l'article ?

ALes six composants principaux du Harness de Claude Code sont : 1. Invite système multi-niveaux (System Prompt), 2. Schéma d'outil (Tool Schema), 3. Boucle d'appel d'outil (Tool Call Loop), 4. Gestionnaire de contexte (Context Manager), 5. Sous-agent (Sub Agent), et 6. Crochets de vérification (Verification Hooks).

QComment le Harness contribue-t-il à l'entraînement post-formation (Post-training) des agents IA ?

ALe Harness permet un entraînement post-formation intégré en alignant l'environnement d'entraînement et de production. Il utilise les séquences d'appel d'outils comme étapes de trajectoire, les résultats des tests et les portes de classification comme signaux de récompense (Reward), et les tâches utilisateur comme épisodes complets. Cela facilite un entraînement de bout en bout pour des appels d'outils à long terme, une planification exécutable, et une optimisation multi-objectifs.

QQuel impact le passage à l'ère du Harness a-t-il sur les compétences recherchées dans le domaine de l'IA ?

ACela favorise la demande de talents polyvalents combinant une compréhension de l'IA, des compétences en ingénierie backend et en infrastructure. Les ingénieurs spécialisés uniquement dans l'optimisation des prompts (Prompt Engineering) voient leur compétitivité diminuer, car le Harness permet de réaliser environ 70% du travail grâce à sa conception structurelle.

QPourquoi l'architecture de Harness de Claude Code n'est-elle pas directement transférable à d'autres modèles d'IA ?

AL'architecture Harness de Claude Code est hautement optimisée et adaptée spécifiquement au modèle Claude. Si elle est migrée directement vers d'autres modèles, son efficacité diminue significativement. Cependant, sa conception conceptuelle, sa structure modulaire et son intégration avec l'entraînement post-formation restent extrêmement précieuses comme référence pour le développement autonome d'agents.

Lectures associées

Pourquoi perdez-vous toujours de l'argent sur Polymarket ? Parce que vous pariez sur les nouvelles, les têtes de série lisent les règles

Résumé : Sur Polymarket, les traders expérimentés ("chefs de train") ne parient pas seulement sur les événements, mais analysent méticuleusement les règles de résolution des marchés, comme des juristes examinant un contrat. L'article illustre ceci avec l'exemple du marché sur le dirigeant du Venezuela en 2026, où la règle stipulant "officiellement en fonction" a primé sur la réalité politique apparente. Polymarket dispose d'un processus complet de règlement des différends en cinq étapes : proposition de résultat, période de contestation, discussion sur Discord, vote des détenteurs de UMA, et règlement automatique. Ce système présente des similitudes avec un tribunal traditionnel mais une divergence fondamentale : l'absence de séparation des pouvoirs. Les votants (détenteurs de UMA) peuvent aussi avoir des positions financières sur le marché en litige, créant un conflit d'intérêts potentiel. Cela entraîne des problèmes d'effet de troupeau lors des discussions et un manque de transparence dans les motivations des décisions finales, contrairement aux jugements juridiques qui créent une jurisprudence. En conclusion, la clé du succès sur Polymarket réside dans la capacité à anticiper l'écart entre la réalité des événements et l'interprétation stricte des règles, et non pas seulement à prédire l'actualité.

marsbitIl y a 2 h

Pourquoi perdez-vous toujours de l'argent sur Polymarket ? Parce que vous pariez sur les nouvelles, les têtes de série lisent les règles

marsbitIl y a 2 h

Trading

Spot
Futures

Articles tendance

Comment acheter ERA

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Caldera (ERA) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Caldera (ERA).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Caldera (ERA)Après avoir acheté vos Caldera (ERA), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Caldera (ERA)Tradez facilement Caldera (ERA) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

458 vues totalesPublié le 2025.07.17Mis à jour le 2025.07.17

Comment acheter ERA

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de ERA (ERA) sont présentées ci-dessous.

活动图片