首个长程Doc2Repo训练集,代码Agent不止修bug,开始造仓库
中国人民大学高瓴人工智能学院近日发布了DeNovoSWE数据集,这是首个专注于长程软件工程任务(尤其是从零生成完整代码仓库)的大规模训练集。该数据集通过“Divide & Conquer”与“Critic & Repair”机制自动构建,包含4,818个高质量实例,为代码智能体(Code Agent)提供了从任务文档重建整个可执行仓库的训练环境。
传统代码智能体多专注于修复局部Bug,而DeNovoSWE旨在推动智能体向“架构师”角色演进,使其能够根据结构化文档进行长程规划、模块设计、接口实现和跨文件协作,最终生成可通过测试的完整仓库。实验表明,基于DeNovoSWE训练的模型在BeyondSWE-Doc2Repo和NL2RepoBench等长程评测基准上表现显著提升,例如Qwen3-30B-A3B-Instruct在BeyondSWE上的成功率从5.8%提升至47.2%。这证明专门的长程任务数据对提升代码智能体的仓库级工程能力至关重要。
marsbit昨天 08:50