Первый набор данных для обучения Doc2Repo на длинных последовательностях: Code Agent не только исправляет ошибки, но и начинает создавать репозитории
С развитием LLM Code Agent исследователи начинают переходить к более сложным задачам, приближенным к реальным сценариям, таким как генерация целого репозитория кода с нуля. Команда из Института искусственного интеллекта Гаолинь Китайского народного университета представила новый набор данных DeNovoSWE, предназначенный для длительных задач в области программной инженерии, особенно для создания репозиториев на уровне кода.
DeNovoSWE использует методологию «Разделяй и властвуй» (Divide & Conquer) и механизм «Критика и исправление» (Critic & Repair) для создания высококачественных данных. Набор содержит 4 818 реальных примеров задач, что предоставляет масштабные данные для обучения Code Agent выполнению длительных операций. Эксперименты показали, что модель Qwen3-30B-A3B-Instruct, обученная на DeNovoSWE, значительно улучшила свои показатели: с 5,8% до 47,2% на BeyondSWE-Doc2Repo и с 4,3% до 23,0% на NL2RepoBench.
Ключевая сложность задачи заключается в том, что агент должен воссоздать весь репозиторий, начиная только с документации, в очищенной среде без исходного кода, тестов и потенциальных утечек. Это требует навыков планирования архитектуры, создания модулей, определения API и обработки зависимостей. DeNovoSWE структурирует документацию по ключевым возможностям (capabilities) репозитория, обеспечивая ясность, полноту и соответствие критериям оценки.
Результаты подтверждают, что данные, ориентированные на длительные задачи генерации репозиториев, более эффективны для развития соответствующих способностей Code Agent по сравнению с данными, сфокусированными только на исправлении ошибок. DeNovoSWE закладывает основу для следующего этапа развития код-агентов, способных понимать требования, планировать и создавать целые рабочие программные проекты.
marsbit35 мин. назад