首个长程Doc2Repo训练集，代码Agent不止修bug，开始造仓库

marsbit發佈於 2026-06-25更新於 2026-06-25

文章摘要

中国人民大学高瓴人工智能学院近日发布了DeNovoSWE数据集，这是首个专注于长程软件工程任务（尤其是从零生成完整代码仓库）的大规模训练集。该数据集通过“Divide & Conquer”与“Critic & Repair”机制自动构建，包含4,818个高质量实例，为代码智能体（Code Agent）提供了从任务文档重建整个可执行仓库的训练环境。传统代码智能体多专注于修复局部Bug，而DeNovoSWE旨在推动智能体向“架构师”角色演进，使其能够根据结构化文档进行长程规划、模块设计、接口实现和跨文件协作，最终生成可通过测试的完整仓库。实验表明，基于DeNovoSWE训练的模型在BeyondSWE-Doc2Repo和NL2RepoBench等长程评测基准上表现显著提升，例如Qwen3-30B-A3B-Instruct在BeyondSWE上的成功率从5.8%提升至47.2%。这证明专门的长程任务数据对提升代码智能体的仓库级工程能力至关重要。

随着LLM Code Agent能力的不断提升,越来越多的研究者意识到现在是时候迈向下一个阶段更接近真实场景需求的长程任务了。于是涌现出了一些长程任务评测的Benchmark比如NL2RepoBench以及BeyondSWE等等。大家对Code Agent预期承担的角色逐渐从仓库维护者变成了架构师,能够做规划完成整个仓库的代码的长程任务。

近日,中国人民大学高瓴人工智能学院完成相关研究,重磅发布DeNovoSWE数据集,专注于长程软件工程任务,尤其是仓库级别代码从零生成任务。

论文链接:https://arxiv.org/pdf/2606.10728

仓库链接:https://github.com/AweAI-Team/DeNovoSWE

数据链接:https://huggingface.co/collections/AweAI-Team/denovoswe

通过Divide & Conquer与Critic & Repair机制构造高质量数据集,并且成功实现长程SWE任务的Scaling,构建起包含4,818真实数据的开源高质量长程SWE任务数据集——这一成果为 Code Agent 长程能力训练提供了大规模数据,大幅提升Code Agent长程任务能力。

论文中也提供了根据题目难度打分过滤的手段,有效缓解了困难题目比例与轨迹质量的权衡问题。

实验显示,基于DeNovoSWE训练的Qwen3-30B-A3B-Instruct在BeyondSWE-Doc2Repo上从5.8%提升到47.2%,在 NL2RepoBench 上从 4.3% 提升到 23.0%,展示了长程数据对仓库级代码生成能力的显著提升。

从一份文档开始重建整个仓库

过去一年,随着像Scale-SWE等工作的大规模SWE数据的scaling,代码智能体在 SWE-bench 这类真实软件工程任务上快速进步。但当模型越来越擅长「修一个 issue」「改几行 bug」之后,一个更关键的问题开始浮现:智能体真的具备长程软件工程能力了吗?从BeyondSWE-Doc2Repo以及NL2RepoBench前沿模型的效果来看,效果并不理想。

真实世界的软件开发,往往不是改一个函数、补一个条件判断,而是理解需求、规划架构、创建文件、设计 API、处理依赖、打通模块,并最终让整个仓库在测试中跑通。

换句话说,困难的是 long-horizon repository-level generation:从一份任务文档出发,生成一个完整、可执行、可验证的软件仓库。这正是 DeNovoSWE 想要解决的问题。

高质量的「从头生成仓库」任务文档

在document-to-repository generation中,文档不只是README,也不是简单的API列表。它本质上是智能体重建整个仓库的唯一任务入口。

一份高质量的任务文档,至少需要满足两个核心标准。

第一,它必须是well-organized的。

仓库级任务天然复杂,包含多个模块、接口、配置、数据结构和交互流程。如果文档只是把函数说明堆在一起,智能体很容易迷失在碎片信息中。因此,文档应该先给出清晰的仓库总览,再按照能力或工作流拆分章节,让每一部分都对应明确的功能边界。

第二,它必须从可靠evaluation的角度出发。

文档既不能太少,否则任务变成欠定义问题,可能使得模型需要靠漫无边际猜才能通过evaluation;也不能太多,否则直接泄漏实现细节,让任务失去挑战。

真正高质量的文档应该描述evaluation所依赖的关键行为:包括import path、公开 API、输入输出、默认参数、异常行为、配置项、模式字符串、返回字段等,也描述出大致需要完成的功能。也就是说,文档要足以让智能体复现可测试行为,但不能变成实现代码的拷贝。

这也是DeNovoSWE的核心思想:让文档既可读、可实现,又可验证。

DeNovoSWE方法

DeNovoSWE 将「从文档生成完整仓库」构造成一个大规模、可验证的长程软件工程任务。它不是人工手写文档,而是通过一个sandboxed multi-agent workflow 自动构建高质量实例。整个方法可以概括为两步:Divide和Conquer。

在Divide阶段,系统首先分析目标仓库,将其拆解为多个repository capabilities。

每个capability对应仓库中的一个核心能力或工作流,例如认证与连接、数据读写、批处理、导出流程等。这样,原本庞大的仓库生成问题被拆成若干结构清晰的文档章节。

同时,DeNovoSWE会运行原始单元测试并收集执行trace,识别哪些函数、类和接口真正影响 evaluation,进一步区分direct components、core indirect components和non-core indirect components:直接被测试调用的接口必须详细记录;会影响可观察行为的核心间接组件也需要覆盖;而非核心内部实现则可以留给智能体自由发挥。

在Conquer阶段,DeNovoSWE 使用 Draft-Critic-Repair 机制逐能力生成文档。Draft agent 先写出初稿;Critic agent检查文档是否遗漏关键 API、行为契约或结构信息;Repair agent 再根据反馈修复文档。这个循环不断迭代,直到每个能力章节足够清晰、完整、与 evaluation 对齐。

最终,不同能力文档会被合并成一份完整的任务文档,作为智能体从零生成仓库的唯一依据。

难度:为什么这是长程任务?

DeNovoSWE的任务难度来自一个根本变化:它不再是issue-level fixing,而是whole-repository generation。

在传统 SWE 任务中,智能体通常面对的是一个已有仓库,只需要定位 bug、修改局部代码、通过测试即可。

在 DeNovoSWE 中,智能体面对的是一个被清理后的环境:原始源码和测试被移除,git 历史被重置,缓存、site-packages 残留、pip wheel、临时编译产物等潜在泄漏渠道也会被清除。这意味着智能体必须真正依赖文档来完成整个仓库的重建。它需要规划项目结构,创建模块文件,定义公开接口,实现跨文件交互,处理依赖和配置,并在多轮编辑与测试反馈中不断修复错误。

任何一个 API 签名、返回字段、异常类型或默认行为的偏差,都可能导致测试失败。错误还会在长程过程中累积:一个早期设计不合理的模块,可能影响后续多个文件和调用链。

为了进一步处理不同仓库难度差异,DeNovoSWE 还提出了 difficulty-aware trajectory filtering。简单地说,容易任务应该要求更高通过率,困难任务则不能因为没有达到完美分数就被全部丢弃。DeNovoSWE 根据结构复杂度和 LLM 难度判断,为不同难度区间设置不同过滤阈值,从而在质量和多样性之间取得平衡。

这对于长程任务尤其重要:越复杂的仓库,越难一次性完全通过所有测试,但其中的困难仓库、低分、部分成功的轨迹仍然包含宝贵的长程规划与实现能力。

实验结果

DeNovoSWE最终构建了4818个高质量document-to-repository任务实例。是可执行、可评估、可训练的长程软件工程环境。

实验结果显示,DeNovoSWE对模型的长程仓库生成能力带来了显著提升。在Qwen3-30B-A3B-Instruct上,原始模型在BeyondSWE-Doc2Repo上只有5.8%,在NL2RepoBench上只有4.3%。使用常规issue-level SWE数据训练的Scale-SWE-Agent可以提升到29.2%和18.3%,说明普通 SWE 数据确实有迁移效果。但当模型使用 DeNovoSWE 训练后,性能进一步提升到 47.2% 和 23.0%。

这说明,面向「修 bug」的数据并不能完全替代面向「生成完整仓库」的长程数据。想让智能体真正学会repository-level engineering,需要专门面向长程任务构建训练环境。

在更强的Qwen3.5-35B-A3B backbone上,DeNovoSWE同样带来稳定收益:BeyondSWE-Doc2Repo从43.8%提升到50.0%,NL2RepoBench从23.5%提升到27.1%。这进一步说明DeNovoSWE的收益不是偶然适配某一个模型,而是来自高质量长程数据本身。

结语

代码智能体的下一阶段,不只是更快地修复单个 issue,而是能够理解文档、规划架构、组织模块、实现接口,并最终生成一个完整可运行的软件仓库。

DeNovoSWE 将这个目标系统化地构造成了可训练、可验证、可扩展的数据集。它回答了一个关键问题:什么样的数据,才能真正训练出具备长程软件工程能力的智能体?

答案不是更多碎片化代码,也不是更简单的题目,而是高质量、结构化、evaluation-aligned、anti-leakage 的全仓库生成任务。

从一份文档开始,重建整个repository。这是长程代码智能体需要跨越的门槛。

参考资料:https://arxiv.org/pdf/2606.10728

本文来自微信公众号“新智元”,编辑:LRST

你可能也喜歡

Grayscale ：这 15 个赚钱的加密协议，价格被严重低估了

灰度研究发布报告，指出当前许多能产生可观收入的链上协议估值处于历史低位。报告列出了链上协议收入排名前15的应用，其中多数过去12个月的收入倍数已降至个位数，部分甚至仅为1倍。这意味着像Pump.fun、PancakeSwap、Meteora等年收入数亿美元的协议，其市值几乎等同于其一年收入，从传统估值角度看显得非常便宜。报告认为，这种低估状态可能随着《数字资产市场清晰化法案》（CLARITY Act）的潜在通过而改变。该法案旨在明确数字资产的监管框架，降低机构参与链上金融的合规门槛，有望为去中心化交易所、借贷协议等主流DeFi应用带来大量新增活动和资金，从而推动其价值重估。报告逐一分析了榜单上的协议。除上述“1倍俱乐部”成员外，中间层包括Raydium、Lido、Aerodrome、Aave等个位数收入倍数的协议，它们业务模式较为稳固。而估值倍数较高的Hyperliquid、Uniswap等，其溢价主要反映了市场对未来增长潜力和治理权利的预期。报告特别补充了灰度对Aave的现金流折现分析，给出一年目标价约175美元。同时指出，当前宏观环境趋紧（市场预期美联储可能加息）进一步压制了加密资产估值，这可能创造了投资窗口。最后，报告提醒投资者注意：CLARITY Act的通过与否及具体效果存在不确定性；且灰度作为加密资管公司，其“低估”结论与其商业利益存在一致性，投资者应独立判断。真正的验证信号将是法案通过后，机构资金是否实际流入这些协议。

marsbit18 分鐘前

marsbit18 分鐘前

瑞波在日本发行受监管的稳定币RLUSD，扩张势头强劲

瑞波公司正式在日本市场推出其受监管的稳定币RLUSD，这标志着其全球扩张战略的重要一步。日本金融厅已批准RLUSD在SBI VC Trade的VCTRADE平台上供机构和个人投资者使用。此举旨在支持跨境支付、资产代币化和抵押品管理等应用场景。日本清晰的数字资产监管框架为RLUSD的发展提供了支持。RLUSD依据日本的“第四类电子支付工具”框架获得批准，由美元存款、国债及现金等价物资产支持，并定期由第三方机构出具储备金证明。SBI VC Trade将提供免费的RLUSD存取服务，以增强其可用性。瑞波与SBI集团的合作关系始于2016年。自2024年底推出以来，RLUSD增长迅速，市值已达约17亿美元，成为SBI VC Trade平台上继USDC之后的第二个美元稳定币。通过进入日本这一技术先进的数字资产市场，瑞波进一步扩展了其受监管市场网络，强化了其在全球支付基础设施中的角色。

TheNewsCrypto23 分鐘前

TheNewsCrypto23 分鐘前

Sam Altman的个人财富炼金术：投资400家公司，超10家与OpenAI深度绑定

OpenAI CEO山姆·奥特曼通过其个人投资网络构建了一套独特的财富增长体系。他投资了约400家初创公司，其中至少10家与OpenAI存在商业合作或潜在联系。这些投资主要集中在AI、软件、生物科技和能源领域。奥特曼本人并不直接持有OpenAI股权，但其个人财富通过投资与OpenAI相关的公司大幅增长。例如，其在抗衰老公司Retro Biosciences的股份价值约2.58亿美元；在芯片公司Cerebras的股份因OpenAI的采购协议，价值增长超6倍。最引人注目的是其在核聚变公司Helion的投资。奥特曼自2015年起投资并担任Helion董事会主席，期间曾推动OpenAI与Helion签署购电协议，并试图促成OpenAI对Helion投资。2026年6月，Helion以155亿美元估值完成融资，奥特曼的持股价值翻倍，至少达41亿美元。此外，其联合创立的虹膜扫描公司Tools for Humanity（Worldcoin开发方）近期因内部调查陷入争议。尽管面临潜在利益冲突的调查，OpenAI董事会称奥特曼在披露外部事务上保持透明，并已对利益冲突进行管理。据福布斯数据，奥特曼目前净资产约34亿美元，全球富豪排名在两年内上升了超过1400位。

Odaily星球日报38 分鐘前

Sam Altman的个人财富炼金术：投资400家公司，超10家与OpenAI深度绑定

Odaily星球日报38 分鐘前

前 SpaceX 工程师用第一性原理重构金融执行体系

金融基础设施项目 Plan Execution Lab 宣布完成天使轮融资，投后估值达5000万美元。创始人 Lex Li 曾为 SpaceX 工程师，他将第一性原理思维带入金融领域，认为金融市场核心功能是资本配置，而当前执行层仍高度依赖人工，存在效率瓶颈。团队指出，在 AI Agent 加速发展的时代，策略生命周期大幅缩短，未来竞争关键不再是单一策略，而是由风险管理、资金分配、流动性获取等基础能力节点构成的“执行网络”。为此，他们推出了两大核心产品：PlanX 金融执行协议，旨在作为 CEX 向 DEX 迁移过程中的链上执行基础设施；Xgent 自主金融运行时，允许用户通过定义目标与约束，自动完成从意图到验证、执行的完整流程。其长期愿景是构建自主金融时代的操作系统，类似 Bloomberg Terminal 之于传统金融，但服务对象是 AI Agent。该生态将由执行节点、流动性提供者、策略贡献者等多方共同建设，形成开放、协同的执行网络。团队认为，下一代金融的核心竞争力将取决于执行网络的强大与否。

链捕手1 小時前

链捕手1 小時前

另类币向量 #60

这是一篇题为《The Altcoin Vector #60》的文章节选。由于您已是订阅用户，提示您可登录查看完整内容。文章主体内容未在提供的文本中显示，因此无法生成关于其核心观点的摘要。

insights.glassnode1 小時前

insights.glassnode1 小時前

交易

現貨

合約

首个长程Doc2Repo训练集，代码Agent不止修bug，开始造仓库

文章摘要

从一份文档开始重建整个仓库

高质量的「从头生成仓库」任务文档

DeNovoSWE方法

难度:为什么这是长程任务?

实验结果

结语

熱門幣種推薦

相關問答

你可能也喜歡

Grayscale ：这 15 个赚钱的加密协议，价格被严重低估了

瑞波在日本发行受监管的稳定币RLUSD，扩张势头强劲

Sam Altman的个人财富炼金术：投资400家公司，超10家与OpenAI深度绑定

前 SpaceX 工程师用第一性原理重构金融执行体系

另类币向量 #60

交易

熱門文章

如何購買RE

相關討論

熱門問答

熱門分類

熱門標籤