Premier ensemble de données d'entraînement Doc2Repo de longue portée, les agents de code vont au-delà de la correction de bugs pour commencer à créer des dépôts

marsbitPublié le 2026-06-25Dernière mise à jour le 2026-06-25

Résumé

L'équipe du Gaoling Institute of Artificial Intelligence de l'Université Renmin de Chine a récemment publié DeNovoSWE, le premier grand ensemble de données d'entraînement pour des tâches de génération de code à long terme au niveau du dépôt. Contrairement aux benchmarks précédents centrés sur la correction de bogues (comme SWE-bench), DeNovoSWE se concentre sur la tâche complexe de génération d'un dépôt logiciel complet et exécutable à partir de zéro, en se basant uniquement sur une documentation détaillée. La méthode utilise une approche "Diviser pour régner" et un mécanisme "Critique & Réparation" automatisé par agents multiples pour construire 4 818 instances de tâches de haute qualité. Elle décompose un dépôt cible en "capacités" fondamentales, génère une documentation structurée alignée sur les évaluations (tests), et assure l'absence de fuite d'informations depuis le code source original. Les expériences montrent que l'entraînement avec DeNovoSWE améliore considérablement les performances des agents de code. Par exemple, le modèle Qwen3-30B-A3B-Instruct a vu son taux de réussite passer de 5.8% à 47.2% sur le benchmark BeyondSWE-Doc2Repo. Cela démontre que des données spécifiquement conçues pour les tâches longues et complexes de génération de dépôts sont essentielles pour faire évoluer les agents de code du rôle de mainteneur à celui d'architecte logiciel capable de planifier et d'implémenter des projets complets.

Avec l'amélioration continue des capacités des agents de code LLM, de plus en plus de chercheurs estiment qu'il est temps de passer à l'étape suivante : des tâches de longue portée plus proches des besoins réels. Ainsi, des benchmarks d'évaluation pour les tâches de longue portée ont émergé, tels que NL2RepoBench et BeyondSWE. L'attente envers le rôle des agents de code a évolué de celui de mainteneurs de dépôts vers celui d'architectes, capables de planifier et d'exécuter des tâches de longue portée pour générer des codes complets de dépôts.

Récemment, l'École d'Intelligence Artificielle Gaoling de l'Université Renmin de Chine a terminé une recherche connexe et a publié de manière significative l'ensemble de données DeNovoSWE, axé sur les tâches de génie logiciel de longue portée, en particulier les tâches de génération de code au niveau du dépôt à partir de zéro.

Lien de l'article : https://arxiv.org/pdf/2606.10728

Lien du dépôt : https://github.com/AweAI-Team/DeNovoSWE

Lien des données : https://huggingface.co/collections/AweAI-Team/denovoswe

En utilisant les mécanismes Diviser pour régner et Critiquer et réparer pour construire un ensemble de données de haute qualité, et en réussissant à mettre à l'échelle les tâches de génie logiciel de longue portée, un ensemble de données de tâches de génie logiciel de longue portée de haute qualité et ouvert, contenant 4 818 données réelles, a été construit — ce résultat fournit des données à grande échelle pour l'entraînement des capacités de longue portée des agents de code, améliorant considérablement leurs capacités pour les tâches de longue portée.

L'article propose également des méthodes de filtrage basées sur la notation de difficulté des problèmes, permettant d'atténuer efficacement le compromis entre la proportion de problèmes difficiles et la qualité des trajectoires.

Les expériences montrent que Qwen3-30B-A3B-Instruct, entraîné sur DeNovoSWE, passe de 5,8 % à 47,2 % sur BeyondSWE-Doc2Repo, et de 4,3 % à 23,0 % sur NL2RepoBench, démontrant une amélioration significative de la capacité de génération de code au niveau du dépôt grâce aux données de longue portée.

Reconstruire un dépôt entier à partir d'un document

Au cours de l'année dernière, avec la mise à l'échelle de grandes quantités de données de génie logiciel comme Scale-SWE, les agents de code ont progressé rapidement sur des tâches réelles de génie logiciel telles que SWE-bench. Cependant, alors que les modèles deviennent de plus en plus compétents pour "corriger un problème" ou "modifier quelques bugs", une question plus critique émerge : Les agents possèdent-ils réellement des capacités de génie logiciel de longue portée ? D'après les performances des modèles avancés sur BeyondSWE-Doc2Repo et NL2RepoBench, les résultats ne sont pas idéaux.

Dans le monde réel, le développement de logiciels ne consiste souvent pas à modifier une fonction ou à ajouter une condition, mais à comprendre les besoins, planifier l'architecture, créer des fichiers, concevoir des API, gérer les dépendances, connecter des modules, et finalement faire fonctionner l'ensemble du dépôt lors des tests.

En d'autres termes, la difficulté réside dans la génération au niveau du dépôt à long horizon : partir d'un document de tâche pour générer un dépôt logiciel complet, exécutable et vérifiable. C'est précisément ce que DeNovoSWE cherche à résoudre.

Documents de tâche de haute qualité pour « générer un dépôt à partir de zéro »

Dans la génération document-vers-dépôt, le document n'est pas seulement un README, ni une simple liste d'API. Il est essentiellement la seule entrée de tâche permettant à l'agent de reconstruire l'ensemble du dépôt.

Un document de tâche de haute qualité doit répondre à au moins deux critères fondamentaux.

Premièrement, il doit être bien organisé.

Les tâches au niveau du dépôt sont naturellement complexes, impliquant plusieurs modules, interfaces, configurations, structures de données et flux d'interaction. Si le document se contente d'empiler des descriptions de fonctions, l'agent peut facilement se perdre dans des informations fragmentées. Par conséquent, le document doit d'abord fournir une vue d'ensemble claire du dépôt, puis diviser les chapitres par capacités ou flux de travail, afin que chaque section corresponde à des limites fonctionnelles claires.

Deuxièmement, il doit partir d'une perspective d'évaluation fiable.

Le document ne doit pas être trop court, sinon la tâche devient un problème mal défini, forçant potentiellement le modèle à deviner sans orientation pour réussir l'évaluation ; il ne doit pas non plus être trop long, sinon il révèlerait directement des détails d'implémentation, faisant perdre tout défi à la tâche.

Un document véritablement de haute qualité devrait décrire les comportements clés sur lesquels repose l'évaluation : y compris les chemins d'import, les API publiques, les entrées/sorties, les paramètres par défaut, les comportements d'exception, les options de configuration, les chaînes de motifs, les champs de retour, etc., tout en décrivant les fonctionnalités générales à accomplir. En d'autres termes, le document doit être suffisant pour permettre à l'agent de reproduire des comportements testables, mais sans devenir une copie du code d'implémentation.

C'est aussi l'idée centrale de DeNovoSWE : rendre le document à la fois lisible, implémentable et vérifiable.

Méthode DeNovoSWE

DeNovoSWE structure la "génération d'un dépôt complet à partir d'un document" en une tâche de génie logiciel de longue portée à grande échelle et vérifiable. Il ne s'agit pas d'écrire des documents manuellement, mais de construire automatiquement des instances de haute qualité via un workflow multi-agent en sandbox. L'ensemble de la méthode peut se résumer en deux étapes : Diviser et Conquérir.

Dans l'étape de division, le système analyse d'abord le dépôt cible, le décomposant en plusieurs capacités de dépôt.

Chaque capacité correspond à une fonctionnalité ou un flux de travail central dans le dépôt, par exemple l'authentification et la connexion, la lecture/écriture de données, le traitement par lots, les processus d'exportation, etc. Ainsi, le problème initialement complexe de génération de dépôt est divisé en plusieurs chapitres de document structurés clairement.

Simultanément, DeNovoSWE exécute les tests unitaires originaux et collecte les traces d'exécution pour identifier quelles fonctions, classes et interfaces affectent réellement l'évaluation, distinguant ainsi les composants directs, les composants indirects centraux et les composants indirects non centraux : les interfaces appelées directement par les tests doivent être documentées en détail ; les composants indirects centraux qui affectent le comportement observable doivent également être couverts ; tandis que les implémentations internes non centrales peuvent être laissées à la libre créativité de l'agent.

Dans l'étape de conquête, DeNovoSWE utilise un mécanisme de Brouillon-Critique-Réparation pour générer des documents capacité par capacité. L'agent Brouillon rédige d'abord une première version ; l'agent Critique vérifie si le document omet des API clés, des contrats de comportement ou des informations structurelles ; l'agent Réparation corrige ensuite le document en fonction des retours. Ce cycle s'itère jusqu'à ce que chaque chapitre de capacité soit suffisamment clair, complet et aligné sur l'évaluation.

Finalement, les documents des différentes capacités sont fusionnés en un document de tâche complet, servant de seule référence pour que l'agent génère le dépôt à partir de zéro.

Difficulté : Pourquoi s'agit-il d'une tâche de longue portée ?

La difficulté des tâches DeNovoSWE provient d'un changement fondamental : il ne s'agit plus de corriger des problèmes ponctuels, mais de générer un dépôt entier.

Dans les tâches traditionnelles de génie logiciel, l'agent fait généralement face à un dépôt existant, ne nécessitant que de localiser un bug, modifier du code local et passer les tests.

Dans DeNovoSWE, l'agent est confronté à un environnement nettoyé : le code source original et les tests sont supprimés, l'historique git est réinitialisé, et les canaux de fuite potentiels tels que les caches, les résidus de site-packages, les wheels pip, les artefacts de compilation temporaires, etc., sont également supprimés. Cela signifie que l'agent doit véritablement s'appuyer sur le document pour reconstruire l'ensemble du dépôt. Il doit planifier la structure du projet, créer des fichiers de modules, définir des interfaces publiques, implémenter des interactions inter-fichiers, gérer les dépendances et configurations, et corriger continuellement les erreurs au fil des cycles d'édition et de retours de test.

La moindre déviation dans une signature d'API, un champ de retour, un type d'exception ou un comportement par défaut peut entraîner un échec des tests. Les erreurs peuvent également s'accumuler sur le long terme : un module mal conçu au début peut affecter plusieurs fichiers et chaînes d'appel par la suite.

Pour mieux gérer les différences de difficulté entre les dépôts, DeNovoSWE propose également un filtrage des trajectoires basé sur la difficulté. En termes simples, les tâches faciles devraient exiger un taux de réussite plus élevé, tandis que les tâches difficiles ne devraient pas être entièrement éliminées simplement parce qu'elles n'atteignent pas un score parfait. DeNovoSWE définit différents seuils de filtrage pour différentes plages de difficulté, en fonction de la complexité structurelle et de l'évaluation de difficulté par un LLM, permettant ainsi un équilibre entre qualité et diversité.

Ceci est particulièrement important pour les tâches de longue portée : plus un dépôt est complexe, plus il est difficile de passer tous les tests du premier coup, mais les trajectoires difficiles, à faible score ou partiellement réussies contiennent toujours des capacités précieuses de planification et d'implémentation à long terme.

Résultats expérimentaux

DeNovoSWE a finalement construit 4818 instances de tâches document-vers-dépôt de haute qualité. C'est un environnement de génie logiciel de longue portée exécutable, évaluable et entraînable.

Les résultats expérimentaux montrent que DeNovoSWE apporte une amélioration significative de la capacité de génération de dépôts de longue portée des modèles. Sur Qwen3-30B-A3B-Instruct, le modèle original n'atteignait que 5,8 % sur BeyondSWE-Doc2Repo et 4,3 % sur NL2RepoBench. L'agent Scale-SWE-Agent, entraîné sur des données de génie logiciel classiques au niveau des problèmes, peut améliorer ces scores à 29,2 % et 18,3 %, indiquant que les données de génie logiciel standard ont bien un effet de transfert. Cependant, lorsque le modèle est entraîné avec DeNovoSWE, les performances montent encore à 47,2 % et 23,0 %.

Cela montre que les données axées sur la "correction de bugs" ne peuvent pas complètement remplacer les données de longue portée axées sur la "génération de dépôts complets". Pour que les agents apprennent véritablement l'ingénierie au niveau du dépôt, il est nécessaire de construire des environnements d'entraînement spécifiquement conçus pour les tâches de longue portée.

Sur l'architecture plus puissante Qwen3.5-35B-A3B, DeNovoSWE apporte également des gains stables : BeyondSWE-Doc2Repo passe de 43,8 % à 50,0 %, et NL2RepoBench de 23,5 % à 27,1 %. Cela démontre davantage que les bénéfices de DeNovoSWE ne sont pas dus à une adaptation accidentelle à un modèle particulier, mais proviennent bien des données de longue portée de haute qualité elles-mêmes.

Conclusion

La prochaine étape des agents de code ne consiste pas seulement à corriger des problèmes individuels plus rapidement, mais à pouvoir comprendre des documents, planifier des architectures, organiser des modules, implémenter des interfaces, et finalement générer un dépôt logiciel complet et fonctionnel.

DeNovoSWE a systématiquement transformé cet objectif en un ensemble de données entraînable, vérifiable et extensible. Il répond à une question clé : quelles données peuvent réellement entraîner des agents possédant des capacités de génie logiciel de longue portée ?

La réponse n'est pas plus de codes fragmentés, ni des problèmes plus simples, mais des tâches de génération de dépôts entiers de haute qualité, structurées, alignées sur l'évaluation et résistantes aux fuites.

Partir d'un document pour reconstruire un dépôt entier. C'est le seuil que les agents de code de longue portée doivent franchir.

Références : https://arxiv.org/pdf/2606.10728

Cet article provient du compte officiel WeChat "New Zhiyuan", éditeur : LRST

Cryptos en tendance

Questions liées

QQuel est l'objectif principal du nouveau jeu de données DeNovoSWE développé par les chercheurs ?

AL'objectif principal du jeu de données DeNovoSWE est de se concentrer sur les tâches de génération de code au niveau du référentiel (repository), c'est-à-dire la création de dépôts complets à partir de zéro, pour améliorer les capacités à long terme des agents de code dans des scénarios de génération logicielle à long terme et complexes.

QQuelle approche méthodologique est utilisée pour construire les documents de tâches de haute qualité dans DeNovoSWE ?

ALa méthodologie utilise une approche en deux étapes, « Diviser pour régner » (Divide & Conquer) et « Critique et Réparation » (Critic & Repair), ainsi qu'un flux de travail multi-agents en sandbox. Cela implique de diviser un référentiel cible en capacités distinctes, puis d'utiliser des agents pour rédiger, critiquer et réparer de manière itérative la documentation de chaque capacité jusqu'à ce qu'elle soit claire, complète et alignée avec les évaluations.

QQuels sont les deux critères essentiels qu'un document de tâche de haute qualité doit remplir selon l'article ?

AUn document de tâche de haute qualité doit être bien organisé, avec une structure claire et des chapitres distincts pour les différentes capacités du référentiel. Il doit également être conçu du point de vue d'une évaluation fiable, décrivant le comportement clé nécessaire à l'évaluation (comme les API, les entrées/sorties) sans révéler les détails de l'implémentation, rendant la tâche réalisable et vérifiable sans être triviale.

QQuelle amélioration de performance a été observée sur le modèle Qwen3-30B-A3B-Instruct après son entraînement avec DeNovoSWE ?

AAprès l'entraînement avec DeNovoSWE, les performances du modèle Qwen3-30B-A3B-Instruct sont passées de 5,8 % à 47,2 % sur le benchmark BeyondSWE-Doc2Repo et de 4,3 % à 23,0 % sur NL2RepoBench, démontrant une amélioration significative de sa capacité à générer du code au niveau du référentiel pour des tâches à long terme.

QPourquoi les tâches de DeNovoSWE sont-elles considérées comme plus difficiles que les tâches traditionnelles de correction de bogues (SWE) ?

ALes tâches DeNovoSWE sont plus difficiles car elles nécessitent une génération complète de référentiel à partir de zéro, et non une correction locale de bogues. L'environnement est nettoyé (code source et tests originaux supprimés), obligeant l'agent à s'appuyer uniquement sur la documentation pour planifier l'architecture, créer des fichiers, implémenter des interactions et gérer les dépendances. Les erreurs peuvent s'accumuler sur le long terme, et toute déviation par rapport au comportement spécifié peut entraîner un échec des tests.

Lectures associées

L'alchimie de la richesse personnelle de Sam Altman : Investi dans 400 sociétés, plus de 10 étroitement liées à OpenAI

Sam Altman, PDG d'OpenAI, a bâti une fortune personnelle estimée à 34 milliards de dollars grâce à un vaste portefeuille d'investissements, comprenant environ 400 entreprises, principalement dans les domaines de l'IA, des logiciels, des biotechnologies et de l'énergie. Contrairement à d'autres grands dirigeants, il ne détient pas directement d'actions OpenAI, mais au moins dix de ses sociétés personnelles entretiennent des liens commerciaux ou des partenariats avec OpenAI, créant un réseau complexe d'intérêts potentiellement conflictuels. Parmi ses investissements notables, la société de fusion nucléaire Helion se distingue. Altman y a investi 375 millions de dollars en 2021 et a ensuite poussé OpenAI à signer un accord d'achat d'électricité avec elle. Une récente levée de fonds de Helion a plus que doublé la valeur de sa participation, estimée à au moins 4,1 milliards de dollars. D'autres investissements ont également prospéré grâce à leurs liens avec OpenAI, comme la société de biotechnologie Retro Biosciences (participation évaluée à 258 millions de dollars) et le fabricant de puces Cerebras, dont la valorisation a été multipliée par six après son introduction en bourse liée à un contrat avec OpenAI. Ces connexions ont attiré l'attention des régulateurs américains, avec des enquêtes sur des conflits d'intérêts potentiels. Le président du conseil d'administration d'OpenAI a déclaré que les investissements d'Altman étaient transparents et gérés avec prudence. Malgré les controverses, la stratégie d'investissement d'Altman lui a permis de grimper de plus de 1400 places dans le classement Forbes des milliardaires en deux ans.

Odaily星球日报Il y a 34 mins

L'alchimie de la richesse personnelle de Sam Altman : Investi dans 400 sociétés, plus de 10 étroitement liées à OpenAI

Odaily星球日报Il y a 34 mins

Un ancien ingénieur de SpaceX réinvente l'exécution financière à partir des premiers principes

L'infrastructure financière Plan Execution Lab, fondée par l'ancien ingénieur de SpaceX Lex Li, a levé un financement angel, portant sa valorisation à 50 millions de dollars. L'entreprise applique le raisonnement par les principes premiers (First Principles) au secteur financier, identifiant l'exécution – et non la simple transaction – comme la fonction fondamentale du marché pour l'allocation du capital. Alors que les actifs, la liquidité et le règlement migrent sur la blockchain, l'exécution reste fragmentée et dépendante du travail humain. Avec l'avènement des IA et des agents autonomes, la durée de vie des stratégies se raccourcit considérablement. La réponse de Plan Execution Lab n'est pas une meilleure stratégie unique, mais la construction d'un réseau d'exécution ouvert et modulaire. Leur solution repose sur deux piliers : **PlanX**, un protocole d'exécution financière servant d'infrastructure pour la migration des flux des échanges centralisés (CEX) vers le web3, et **Xgent**, un environnement d'exécution autonome (Autonomous Financial Runtime). Xgent permet aux utilisateurs de définir une intention (objectifs, risque, contraintes), qui est automatiquement traduite en un graphe d'exécution, vérifiée et exécutée de manière autonome. L'ambition à long terme est de devenir l'environnement opérationnel de la finance autonome, l'équivalent d'un Bloomberg Terminal pour les agents. L'écosystème sera construit collectivement par des nœuds d'exécution, des fournisseurs de liquidité, des contributeurs de stratégies et des agents autonomes. La conviction fondamentale est que la compétition financière future ne se jouera pas sur la qualité d'une stratégie isolée, mais sur la puissance et la résilience du réseau d'exécution sous-jacent.

链捕手Il y a 1 h

Un ancien ingénieur de SpaceX réinvente l'exécution financière à partir des premiers principes

链捕手Il y a 1 h

Un ancien ingénieur de SpaceX utilise les principes premiers pour reconstruire le système d'exécution financière

Plan Execution Lab, fondé par l'ancien ingénieur SpaceX Lex Li, a levé un financement angel évaluant la société à 500 millions de dollars. L'entreprise applique le raisonnement par "principes premiers" à la finance, identifiant l'exécution, et non la simple transaction, comme la fonction centrale des marchés pour l'allocation du capital. Alors que l'actif, la liquidité et le règlement migrent sur la blockchain, la couche d'exécution reste fragmentée et dépendante du travail humain. Avec l'avènement des agents IA, la durée de vie des stratégies se raccourcit, faisant de la capacité d'exécution continue la nouvelle compétence clé. Plan Execution Lab propose deux produits pour reconstruire cette infrastructure : PlanX, un protocole d'exécution financière pour la migration des flux des CEX vers le DEX, et Xgent, un environnement d'exécution autonome. Xgent permet aux utilisateurs de définir leurs intentions (objectifs, risque), qui sont automatiquement traduites en un graphe d'exécution, vérifiées et exécutées. La vision à long terme est de créer l'équivalent d'un "Bloomberg Terminal" pour la finance autonome : un réseau d'exécution ouvert et collaboratif, composé de nœuds (gestion des risques, liquidité, etc.) et d'agents, où la compétitivité proviendra non pas d'une stratégie unique, mais de la puissance du réseau d'exécution lui-même.

marsbitIl y a 1 h

Un ancien ingénieur de SpaceX utilise les principes premiers pour reconstruire le système d'exécution financière

marsbitIl y a 1 h

Trading

Spot
Futures

Articles tendance

Comment acheter RE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Re (RE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Re (RE).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Re (RE)Après avoir acheté vos Re (RE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Re (RE)Tradez facilement Re (RE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

44 vues totalesPublié le 2026.06.18Mis à jour le 2026.06.18

Comment acheter RE

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de RE (RE) sont présentées ci-dessous.

活动图片