El Primer Conjunto de Datos de Entrenamiento Doc2Repo de Largo Alcance: Los Agentes de Código No Solo Arreglan Bugs, Ahora Crean Repositorios

marsbitPublicado a 2026-06-25Actualizado a 2026-06-25

Resumen

"Más allá de corregir errores, los agentes de IA generan repositorios completos desde cero con DeNovoSWE. Investigadores de la Universidad Renmin de China han desarrollado DeNovoSWE, un conjunto de datos pionero para entrenar agentes de código en tareas de ingeniería de software a largo plazo. Este enfoque se centra en la generación de repositorios completos partiendo únicamente de un documento descriptivo, superando los límites de las tareas tradicionales de corrección de errores (bug fixing). La metodología emplea una estrategia de 'Divide y Vencerás' junto con un mecanismo de 'Crítica y Reparación' para crear descripciones de tareas de alta calidad y bien estructuradas. El resultado es un conjunto de 4.818 ejemplos que entrenan al agente para planificar la arquitectura, crear módulos, diseñar APIs y ensamblar un proyecto funcional. Las pruebas muestran mejoras drásticas: un modelo entrenado con DeNovoSWE incrementó su rendimiento en la tarea BeyondSWE-Doc2Repo del 5.8% al 47.2%. Esto demuestra que los datos específicos para generación de repositorios son cruciales para desarrollar capacidades de ingeniería de software a largo plazo en los agentes de código, marcando un paso significativo hacia asistentes de IA que puedan actuar como arquitectos de software."

A medida que las capacidades de los Agentes de Código LLM siguen mejorando, cada vez más investigadores se dan cuenta de que es hora de dar el siguiente paso hacia tareas de largo alcance que se acerquen más a las necesidades del mundo real. Esto ha dado lugar a benchmarks de evaluación de tareas de largo alcance como NL2RepoBench y BeyondSWE, entre otros. La expectativa del rol que deben asumir los Agentes de Código ha ido evolucionando gradualmente de ser meros mantenedores de repositorios a convertirse en arquitectos capaces de planificar y completar tareas de largo alcance para generar el código de todo un repositorio.

Recientemente, la Escuela de Inteligencia Artificial Gaoling de la Universidad Renmin de China completó una investigación relevante y publicó oficialmente el conjunto de datos DeNovoSWE, centrado en tareas de ingeniería de software de largo alcance, especialmente en la generación de código a nivel de repositorio desde cero.

Enlace al artículo: https://arxiv.org/pdf/2606.10728

Enlace al repositorio: https://github.com/AweAI-Team/DeNovoSWE

Enlace a los datos: https://huggingface.co/collections/AweAI-Team/denovoswe

Mediante mecanismos de Divide & Conquer y Critic & Repair, se construyó un conjunto de datos de alta calidad y se logró con éxito el escalado de tareas SWE de largo alcance. Así se construyó un conjunto de datos de alta calidad y de código abierto para tareas SWE de largo alcance que contiene 4.818 instancias reales. Este logro proporciona datos a gran escala para entrenar la capacidad de tareas de largo alcance de los Agentes de Código, mejorando significativamente su desempeño en dichas tareas.

El artículo también proporciona un método de filtrado basado en la puntuación de dificultad de los problemas, que mitiga eficazmente la compensación entre la proporción de problemas difíciles y la calidad de las trayectorias.

Los experimentos muestran que Qwen3-30B-A3B-Instruct, entrenado en DeNovoSWE, mejoró del 5.8% al 47.2% en BeyondSWE-Doc2Repo y del 4.3% al 23.0% en NL2RepoBench, demostrando una mejora significativa en la capacidad de generación de código a nivel de repositorio gracias a los datos de largo alcance.

Reconstruir un Repositorio Completo a Partir de un Documento

En el último año, con el escalado de datos SWE a gran escala como en Scale-SWE, los agentes de código han progresado rápidamente en tareas de ingeniería de software reales como SWE-bench. Pero a medida que los modelos se vuelven cada vez más hábiles para "arreglar un issue" o "corregir algunos bugs", surge una pregunta más crítica: ¿Realmente los agentes poseen capacidad de ingeniería de software de largo alcance? A juzgar por los resultados de modelos de vanguardia en BeyondSWE-Doc2Repo y NL2RepoBench, el efecto no es ideal.

El desarrollo de software en el mundo real a menudo no consiste en modificar una función o agregar una condición, sino en comprender los requisitos, planificar la arquitectura, crear archivos, diseñar APIs, manejar dependencias, conectar módulos y, en última instancia, hacer que todo el repositorio funcione en las pruebas.

En otras palabras, lo difícil es la generación a nivel de repositorio de largo horizonte: partiendo de un documento de tarea, generar un repositorio de software completo, ejecutable y verificable. Esto es precisamente lo que DeNovoSWE busca resolver.

Documentos de Tarea de Alta Calidad para "Generar un Repositorio desde Cero"

En la generación de documentación a repositorio, el documento no es solo un README, ni una simple lista de APIs. Esencialmente, es la única entrada de tarea para que el agente reconstruya todo el repositorio.

Un documento de tarea de alta calidad debe cumplir al menos dos criterios fundamentales.

Primero, debe estar bien organizado.

Las tareas a nivel de repositorio son naturalmente complejas, involucrando múltiples módulos, interfaces, configuraciones, estructuras de datos y flujos de interacción. Si el documento simplemente apila descripciones de funciones, el agente puede perderse fácilmente en la información fragmentada. Por lo tanto, el documento debe proporcionar primero una visión general clara del repositorio, luego dividir los capítulos por capacidades o flujos de trabajo, de modo que cada parte corresponda a un límite funcional claro.

Segundo, debe partir de una perspectiva de evaluación confiable.

El documento no puede ser demasiado escaso; de lo contrario, la tarea se convierte en un problema subdefinido, pudiendo obligar al modelo a adivinar de manera amplia para pasar la evaluación. Tampoco puede ser demasiado extenso, de lo contrario se filtrarían detalles de implementación y la tarea perdería su desafío.

Un documento verdaderamente de alta calidad debe describir los comportamientos clave en los que se basa la evaluación: incluyendo import path, APIs públicas, entradas y salidas, parámetros por defecto, comportamientos excepcionales, elementos de configuración, cadenas de patrón, campos de retorno, etc., y también describir la funcionalidad que aproximadamente debe cumplirse. Es decir, el documento debe ser suficiente para que el agente pueda reproducir comportamientos verificables, pero no debe convertirse en una copia del código de implementación.

Esta es la idea central de DeNovoSWE: hacer que los documentos sean legibles, realizables y verificables.

El Método DeNovoSWE

DeNovoSWE formula la tarea de "generar un repositorio completo a partir de un documento" como una tarea de ingeniería de software de largo alcance, a gran escala y verificable. No se escriben documentos manualmente, sino que se construyen automáticamente instancias de alta calidad mediante un flujo de trabajo sandboxed multi-agent. Todo el método puede resumirse en dos pasos: Dividir y Conquistar.

En la fase de División, el sistema primero analiza el repositorio objetivo y lo descompone en múltiples "capacidades del repositorio".

Cada capacidad corresponde a una función central o flujo de trabajo dentro del repositorio, como autenticación y conexión, lectura/escritura de datos, procesamiento por lotes, flujo de exportación, etc. Así, el problema originalmente enorme de generar un repositorio se divide en varios capítulos de documentos con una estructura clara.

Al mismo tiempo, DeNovoSWE ejecuta las pruebas unitarias originales y recoge un rastro de ejecución, identificando qué funciones, clases e interfaces afectan realmente a la evaluación, diferenciando así entre componentes directos, componentes indirectos centrales y componentes indirectos no centrales: las interfaces invocadas directamente por las pruebas deben registrarse en detalle; los componentes indirectos centrales que afectan el comportamiento observable también deben cubrirse; y las implementaciones internas no centrales pueden dejarse a la libre interpretación del agente.

En la fase de Conquista, DeNovoSWE utiliza el mecanismo Draft-Critic-Repair para generar documentos capacidad por capacidad. El agente Draft primero escribe un borrador; el agente Critic revisa si el documento omite APIs clave, contratos de comportamiento o información estructural; el agente Repair luego corrige el documento según los comentarios. Este ciclo se repite iterativamente hasta que cada capítulo de capacidad sea lo suficientemente claro, completo y esté alineado con la evaluación.

Finalmente, los documentos de las diferentes capacidades se fusionan en un único documento de tarea completo, que sirve como la única referencia para que el agente genere el repositorio desde cero.

Dificultad: ¿Por Qué es Esta una Tarea de Largo Alcance?

La dificultad de las tareas DeNovoSWE proviene de un cambio fundamental: ya no se trata de corrección a nivel de issue, sino de generación de todo el repositorio.

En las tareas SWE tradicionales, el agente generalmente se enfrenta a un repositorio existente, y solo necesita localizar el bug, modificar el código localmente y pasar las pruebas.

En DeNovoSWE, el agente se enfrenta a un entorno limpiado: el código fuente original y las pruebas se eliminan, el historial de git se restablece, y se limpian posibles canales de fuga como cachés, residuos de site-packages, paquetes pip wheel, productos de compilación temporales, etc. Esto significa que el agente debe depender verdaderamente del documento para completar la reconstrucción de todo el repositorio. Necesita planificar la estructura del proyecto, crear archivos de módulos, definir interfaces públicas, implementar interacciones entre archivos, manejar dependencias y configuraciones, y corregir errores constantemente a través de múltiples rondas de edición y retroalimentación de pruebas.

Cualquier desviación en una firma de API, un campo de retorno, un tipo de excepción o un comportamiento por defecto puede hacer que las pruebas fallen. Los errores también pueden acumularse en el proceso de largo alcance: un módulo diseñado de manera inadecuada en una etapa temprana puede afectar a múltiples archivos y cadenas de llamadas posteriores.

Para manejar aún más las diferencias de dificultad entre repositorios, DeNovoSWE también propone un filtrado de trayectorias consciente de la dificultad. En pocas palabras, las tareas fáciles deben requerir una tasa de aprobación más alta, mientras que las tareas difíciles no deben descartarse por completo por no alcanzar una puntuación perfecta. DeNovoSWE establece diferentes umbrales de filtrado para diferentes intervalos de dificultad según la complejidad estructural y la evaluación de dificultad del LLM, logrando así un equilibrio entre calidad y diversidad.

Esto es especialmente importante para tareas de largo alcance: cuanto más complejo es un repositorio, más difícil es pasar todas las pruebas de una vez, pero las trayectorias de repositorios difíciles, con puntuaciones bajas y éxitos parciales aún contienen valiosas capacidades de planificación e implementación de largo alcance.

Resultados Experimentales

DeNovoSWE finalmente construyó 4818 instancias de tareas de alta calidad de documentación a repositorio. Es un entorno de ingeniería de software de largo alcance ejecutable, evaluable y entrenable.

Los resultados experimentales muestran que DeNovoSWE trajo una mejora significativa en la capacidad de los modelos para generar repositorios de largo alcance. En Qwen3-30B-A3B-Instruct, el modelo original alcanzó solo un 5.8% en BeyondSWE-Doc2Repo y un 4.3% en NL2RepoBench. El modelo Scale-SWE-Agent entrenado con datos SWE convencionales a nivel de issue puede mejorar hasta el 29.2% y 18.3%, lo que indica que los datos SWE comunes sí tienen un efecto de transferencia. Pero cuando el modelo se entrena con DeNovoSWE, el rendimiento mejora aún más al 47.2% y 23.0%.

Esto indica que los datos orientados a "arreglar bugs" no pueden reemplazar completamente los datos de largo alcance orientados a "generar un repositorio completo". Para que un agente aprenda realmente ingeniería a nivel de repositorio, es necesario construir entornos de entrenamiento específicamente orientados a tareas de largo alcance.

En el backbone más potente Qwen3.5-35B-A3B, DeNovoSWE también aporta beneficios estables: BeyondSWE-Doc2Repo mejora del 43.8% al 50.0%, y NL2RepoBench del 23.5% al 27.1%. Esto demuestra aún más que los beneficios de DeNovoSWE no son una adaptación casual a un modelo específico, sino que provienen de los datos de largo alcance de alta calidad en sí mismos.

Conclusión

La próxima etapa para los agentes de código no consiste solo en corregir issues individuales más rápido, sino en ser capaces de comprender documentos, planificar arquitecturas, organizar módulos, implementar interfaces y, en última instancia, generar un repositorio de software completo y funcional.

DeNovoSWE sistematiza este objetivo convirtiéndolo en un conjunto de datos entrenable, verificable y escalable. Responde a una pregunta clave: ¿Qué tipo de datos puede realmente entrenar a un agente con capacidad de ingeniería de software de largo alcance?

La respuesta no es más código fragmentado, ni problemas más simples, sino tareas de generación de repositorios completos que sean de alta calidad, estructuradas, alineadas con la evaluación y protegidas contra fugas de información.

Partiendo de un documento, reconstruir todo un repositorio. Este es el umbral que los agentes de código de largo alcance necesitan superar.

Referencias: https://arxiv.org/pdf/2606.10728

Este artículo proviene del WeChat Official Account "新智元" (AI Era), editado por: LRST

Criptos en tendencia

Preguntas relacionadas

Q¿Qué es DeNovoSWE y qué objetivo tiene en el campo de la ingeniería de software de larga duración?

ADeNovoSWE es un conjunto de datos creado por la Escuela de Inteligencia Artificial Gaoling de la Universidad Popular de China, que se centra en tareas de ingeniería de software de larga duración, especialmente en la generación de repositorios de código desde cero. Su objetivo es proporcionar datos de alta calidad para entrenar agentes de código en tareas de nivel de repositorio, mejorando su capacidad para generar código a partir de documentación.

Q¿Qué mecanismos utiliza DeNovoSWE para construir su conjunto de datos y garantizar su calidad?

ADeNovoSWE utiliza los mecanismos de 'Divide & Conquer' (Dividir y conquistar) y 'Critic & Repair' (Crítico y reparar). En la fase de división, analiza el repositorio objetivo y lo descompone en capacidades principales. En la fase de conquista, emplea un agente de borrador, un agente crítico y un agente de reparación para iterar y mejorar la documentación, asegurando que sea clara, completa y alineada con la evaluación.

Q¿Cómo mejora DeNovoSWE el rendimiento de los modelos de inteligencia artificial en tareas de generación de repositorios?

ALos experimentos muestran que entrenar modelos como Qwen3-30B-A3B-Instruct con DeNovoSWE mejora significativamente su rendimiento en tareas de generación de repositorios. Por ejemplo, en BeyondSWE-Doc2Repo, la tasa de éxito aumentó del 5.8% al 47.2%, y en NL2RepoBench, del 4.3% al 23.0%, demostrando que los datos de larga duración son cruciales para desarrollar capacidades de ingeniería de software a nivel de repositorio.

Q¿Por qué se considera que las tareas de DeNovoSWE son de 'larga duración' y cuáles son sus principales desafíos?

ASe consideran de 'larga duración' porque implican la generación completa de un repositorio desde cero, en lugar de solo corregir errores o modificar código existente. Los desafíos incluyen la planificación de la arquitectura, la creación de múltiples archivos y módulos, la definición de interfaces, el manejo de dependencias y la necesidad de que todo el sistema sea ejecutable y pase las pruebas. Los errores pueden acumularse a lo largo del proceso, aumentando la complejidad.

Q¿Qué características debe tener una documentación de alta calidad para tareas de generación de repositorios según DeNovoSWE?

AUna documentación de alta calidad debe estar bien organizada, con una visión clara del repositorio y secciones divididas por capacidades o flujos de trabajo. Debe describir los comportamientos clave necesarios para la evaluación, como rutas de importación, APIs públicas, entradas y salidas, parámetros predeterminados, comportamientos de excepción y campos de retorno, sin revelar detalles de implementación específicos. Esto la hace legible, implementable y verificable.

Lecturas Relacionadas

Grayscale: Estos 15 protocolos de criptomonedas generadores de ingresos están gravemente infravalorados

**Resumen: Un análisis de Grayscale sobre protocolos DeFi infravalorados** Grayscale Research identifica 15 protocolos criptográficos con ingresos sustanciales que, según su análisis, cotizan con múltiplos de valoración notablemente bajos. Muchos presentan un múltiplo de ingresos (capitalización de mercado/ingresos anuales) de un solo dígito, e incluso cercano a 1x, como Pump.fun (1x), PancakeSwap (1x) y Meteora (1x). Otros como Aave (9x), Jupiter (6x) y Lido (3x) también se consideran baratos según métricas fundamentales. El informe argumenta que la posible aprobación de la "CLARITY Act" (con una probabilidad del 67% según Polymarket), una ley estadounidense que clarificaría el marco regulatorio para los activos digitales, podría actuar como catalizador. Al reducir la incertidumbre para las instituciones, se esperaría un aumento de la actividad y los ingresos en estos protocolos, predominantemente financieros (DEXs, préstamos, staking). Grayscale aplica, de manera destacada, modelos de valoración tradicionales como el descuento de flujos de caja (DCF) a protocolos como Aave, fijando un precio objetivo de ~175 dólares. No obstante, se advierte que: 1) la aprobación de la ley no está garantizada, y 2) Grayscale, como gestor de activos cripto con productos relacionados (ej. ETF de Hyperliquid), tiene un interés comercial inherente en esta tesis de inversión. La conclusión subraya la anomalía de valoración, pero deja al inversor la valoración final del riesgo.

marsbitHace 13 min(s)

Grayscale: Estos 15 protocolos de criptomonedas generadores de ingresos están gravemente infravalorados

marsbitHace 13 min(s)

Ex ingeniero de SpaceX reconstruye el sistema de ejecución financiera desde los primeros principios

El proyecto de infraestructura financiera Plan Execution Lab ha anunciado una ronda de financiación ángel liderada por una conocida *family office* de Singapur, con una valoración post-inversión de 50 millones de dólares. La empresa, fundada por Lex Li, un ex ingeniero de SpaceX, aplica el pensamiento de *first principles* para replantear la infraestructura de ejecución financiera. El equipo argumenta que la función central de los mercados financieros no es la negociación, sino la asignación de capital, siendo la ejecución el proceso clave que convierte las decisiones en acción. Aunque activos, liquidez y liquidación se han trasladado a la cadena de bloques, la capa de ejecución sigue siendo fragmentada y dependiente de flujos de trabajo humanos (gestión de riesgos, asignación de capital, coordinación de liquidez). Con el avance de los modelos de lenguaje grande y los agentes de IA, la velocidad de obsolescencia de las estrategias se acelera. La propuesta de Plan Execution Lab es descomponer las estrategias en capacidades de ejecución modulares (nodos) que se combinen para formar un grafo de ejecución. La competencia futura no será entre estrategias aisladas, sino entre redes de ejecución. Para materializar esta visión, están desarrollando dos componentes principales: 1. **PlanX**: Un protocolo de ejecución financiera que actúa como infraestructura para la migración de actividad desde los exchanges centralizados (CEX) hacia los mercados *on-chain*, proporcionando capacidades de ejecución, acceso a liquidez, gestión de riesgos y coordinación. 2. **Xgent**: Un *runtime* financiero autónomo que permite a los usuarios definir su intención de inversión, preferencias de riesgo y restricciones. Xgent construye automáticamente el grafo de ejecución, lo verifica y lo ejecuta de manera autónoma, siguiendo el ciclo: Intención → Grafo de Ejecución → Verificación → Ejecución Autónoma. El objetivo a largo plazo es construir el "Bloomberg Terminal" de las finanzas autónomas: un entorno operativo estandarizado y colaborativo no para humanos, sino para agentes. La infraestructura se construirá de forma descentralizada con la participación de nodos de ejecución, proveedores de liquidez, contribuidores de estrategias y agentes financieros autónomos. La tesis central es que la ventaja competitiva en la próxima década dependerá de poseer la red de ejecución más robusta y eficiente, no la estrategia individual más inteligente.

链捕手Hace 1 hora(s)

Ex ingeniero de SpaceX reconstruye el sistema de ejecución financiera desde los primeros principios

链捕手Hace 1 hora(s)

Un ingeniero ex-SpaceX aplica el pensamiento de primeros principios para reinventar el sistema de ejecución financiera

El proyecto de infraestructura financiera Plan Execution Lab ha anunciado una ronda de financiación ángel liderada por una conocida *family office* de Singapur, con una valoración post-inversión de 50 millones de dólares. Fundado por Lex Li, un ex ingeniero de SpaceX, el proyecto aplica el pensamiento de *first principles* para rediseñar el sistema de ejecución financiera. El equipo sostiene que la función central de los mercados no es la negociación, sino la asignación de capital. Mientras que activos, liquidez y liquidación ya han migrado a la cadena de bloques (*on-chain*), la capa de ejecución sigue siendo fragmentada y dependiente de flujos de trabajo humanos. La era de los agentes de IA está acelerando la obsolescencia de las estrategias, haciendo que la ejecución eficiente sea el nuevo desafío clave. Plan Execution Lab propone que las estrategias no son la unidad mínima, sino combinaciones de capacidades de ejecución (gestión de riesgos, asignación de capital, acceso a liquidez, etc.). El futuro pertenecerá a las *redes de ejecución*. Su solución se basa en dos componentes principales: **PlanX**, un protocolo de ejecución financiera que sirve como infraestructura para la migración de los intercambios centralizados (CEX) a los descentralizados (DEX); y **Xgent**, un *runtime* financiero autónomo que permite a los usuarios definir objetivos, preferencias de riesgo y reglas, delegando luego la construcción lógica, verificación, coordinación y ejecución automatizada. El proceso se define como: Intención → Gráfico de Ejecución → Verificación → Ejecución Autónoma. La visión a largo plazo es crear el entorno operativo para las finanzas autónomas, análogo a lo que Bloomberg Terminal fue para las finanzas humanas. La infraestructura no será controlada por una sola entidad, sino construida colaborativamente por nodos de ejecución, proveedores de liquidez, contribuidores de estrategias y agentes financieros autónomos. La competencia futura no se centrará en la mejor estrategia aislada, sino en la red de ejecución más robusta y adaptable.

marsbitHace 1 hora(s)

Un ingeniero ex-SpaceX aplica el pensamiento de primeros principios para reinventar el sistema de ejecución financiera

marsbitHace 1 hora(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar RE

¡Bienvenido a HTX.com! Hemos hecho que comprar Re (RE) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Re (RE) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Re (RE)Después de comprar tu Re (RE), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Re (RE)Tradear fácilmente con Re (RE) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

57 Vistas totalesPublicado en 2026.06.18Actualizado en 2026.06.18

Cómo comprar RE

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de RE (RE).

活动图片