El Primer Conjunto de Datos de Entrenamiento Doc2Repo de Largo Alcance: Los Agentes de Código No Solo Arreglan Bugs, Ahora Crean Repositorios

marsbitPublicado a 2026-06-25Actualizado a 2026-06-25

Resumen

"Más allá de corregir errores, los agentes de IA generan repositorios completos desde cero con DeNovoSWE. Investigadores de la Universidad Renmin de China han desarrollado DeNovoSWE, un conjunto de datos pionero para entrenar agentes de código en tareas de ingeniería de software a largo plazo. Este enfoque se centra en la generación de repositorios completos partiendo únicamente de un documento descriptivo, superando los límites de las tareas tradicionales de corrección de errores (bug fixing). La metodología emplea una estrategia de 'Divide y Vencerás' junto con un mecanismo de 'Crítica y Reparación' para crear descripciones de tareas de alta calidad y bien estructuradas. El resultado es un conjunto de 4.818 ejemplos que entrenan al agente para planificar la arquitectura, crear módulos, diseñar APIs y ensamblar un proyecto funcional. Las pruebas muestran mejoras drásticas: un modelo entrenado con DeNovoSWE incrementó su rendimiento en la tarea BeyondSWE-Doc2Repo del 5.8% al 47.2%. Esto demuestra que los datos específicos para generación de repositorios son cruciales para desarrollar capacidades de ingeniería de software a largo plazo en los agentes de código, marcando un paso significativo hacia asistentes de IA que puedan actuar como arquitectos de software."

A medida que las capacidades de los Agentes de Código LLM siguen mejorando, cada vez más investigadores se dan cuenta de que es hora de dar el siguiente paso hacia tareas de largo alcance que se acerquen más a las necesidades del mundo real. Esto ha dado lugar a benchmarks de evaluación de tareas de largo alcance como NL2RepoBench y BeyondSWE, entre otros. La expectativa del rol que deben asumir los Agentes de Código ha ido evolucionando gradualmente de ser meros mantenedores de repositorios a convertirse en arquitectos capaces de planificar y completar tareas de largo alcance para generar el código de todo un repositorio.

Recientemente, la Escuela de Inteligencia Artificial Gaoling de la Universidad Renmin de China completó una investigación relevante y publicó oficialmente el conjunto de datos DeNovoSWE, centrado en tareas de ingeniería de software de largo alcance, especialmente en la generación de código a nivel de repositorio desde cero.

Enlace al artículo: https://arxiv.org/pdf/2606.10728

Enlace al repositorio: https://github.com/AweAI-Team/DeNovoSWE

Enlace a los datos: https://huggingface.co/collections/AweAI-Team/denovoswe

Mediante mecanismos de Divide & Conquer y Critic & Repair, se construyó un conjunto de datos de alta calidad y se logró con éxito el escalado de tareas SWE de largo alcance. Así se construyó un conjunto de datos de alta calidad y de código abierto para tareas SWE de largo alcance que contiene 4.818 instancias reales. Este logro proporciona datos a gran escala para entrenar la capacidad de tareas de largo alcance de los Agentes de Código, mejorando significativamente su desempeño en dichas tareas.

El artículo también proporciona un método de filtrado basado en la puntuación de dificultad de los problemas, que mitiga eficazmente la compensación entre la proporción de problemas difíciles y la calidad de las trayectorias.

Los experimentos muestran que Qwen3-30B-A3B-Instruct, entrenado en DeNovoSWE, mejoró del 5.8% al 47.2% en BeyondSWE-Doc2Repo y del 4.3% al 23.0% en NL2RepoBench, demostrando una mejora significativa en la capacidad de generación de código a nivel de repositorio gracias a los datos de largo alcance.

Reconstruir un Repositorio Completo a Partir de un Documento

En el último año, con el escalado de datos SWE a gran escala como en Scale-SWE, los agentes de código han progresado rápidamente en tareas de ingeniería de software reales como SWE-bench. Pero a medida que los modelos se vuelven cada vez más hábiles para "arreglar un issue" o "corregir algunos bugs", surge una pregunta más crítica: ¿Realmente los agentes poseen capacidad de ingeniería de software de largo alcance? A juzgar por los resultados de modelos de vanguardia en BeyondSWE-Doc2Repo y NL2RepoBench, el efecto no es ideal.

El desarrollo de software en el mundo real a menudo no consiste en modificar una función o agregar una condición, sino en comprender los requisitos, planificar la arquitectura, crear archivos, diseñar APIs, manejar dependencias, conectar módulos y, en última instancia, hacer que todo el repositorio funcione en las pruebas.

En otras palabras, lo difícil es la generación a nivel de repositorio de largo horizonte: partiendo de un documento de tarea, generar un repositorio de software completo, ejecutable y verificable. Esto es precisamente lo que DeNovoSWE busca resolver.

Documentos de Tarea de Alta Calidad para "Generar un Repositorio desde Cero"

En la generación de documentación a repositorio, el documento no es solo un README, ni una simple lista de APIs. Esencialmente, es la única entrada de tarea para que el agente reconstruya todo el repositorio.

Un documento de tarea de alta calidad debe cumplir al menos dos criterios fundamentales.

Primero, debe estar bien organizado.

Las tareas a nivel de repositorio son naturalmente complejas, involucrando múltiples módulos, interfaces, configuraciones, estructuras de datos y flujos de interacción. Si el documento simplemente apila descripciones de funciones, el agente puede perderse fácilmente en la información fragmentada. Por lo tanto, el documento debe proporcionar primero una visión general clara del repositorio, luego dividir los capítulos por capacidades o flujos de trabajo, de modo que cada parte corresponda a un límite funcional claro.

Segundo, debe partir de una perspectiva de evaluación confiable.

El documento no puede ser demasiado escaso; de lo contrario, la tarea se convierte en un problema subdefinido, pudiendo obligar al modelo a adivinar de manera amplia para pasar la evaluación. Tampoco puede ser demasiado extenso, de lo contrario se filtrarían detalles de implementación y la tarea perdería su desafío.

Un documento verdaderamente de alta calidad debe describir los comportamientos clave en los que se basa la evaluación: incluyendo import path, APIs públicas, entradas y salidas, parámetros por defecto, comportamientos excepcionales, elementos de configuración, cadenas de patrón, campos de retorno, etc., y también describir la funcionalidad que aproximadamente debe cumplirse. Es decir, el documento debe ser suficiente para que el agente pueda reproducir comportamientos verificables, pero no debe convertirse en una copia del código de implementación.

Esta es la idea central de DeNovoSWE: hacer que los documentos sean legibles, realizables y verificables.

El Método DeNovoSWE

DeNovoSWE formula la tarea de "generar un repositorio completo a partir de un documento" como una tarea de ingeniería de software de largo alcance, a gran escala y verificable. No se escriben documentos manualmente, sino que se construyen automáticamente instancias de alta calidad mediante un flujo de trabajo sandboxed multi-agent. Todo el método puede resumirse en dos pasos: Dividir y Conquistar.

En la fase de División, el sistema primero analiza el repositorio objetivo y lo descompone en múltiples "capacidades del repositorio".

Cada capacidad corresponde a una función central o flujo de trabajo dentro del repositorio, como autenticación y conexión, lectura/escritura de datos, procesamiento por lotes, flujo de exportación, etc. Así, el problema originalmente enorme de generar un repositorio se divide en varios capítulos de documentos con una estructura clara.

Al mismo tiempo, DeNovoSWE ejecuta las pruebas unitarias originales y recoge un rastro de ejecución, identificando qué funciones, clases e interfaces afectan realmente a la evaluación, diferenciando así entre componentes directos, componentes indirectos centrales y componentes indirectos no centrales: las interfaces invocadas directamente por las pruebas deben registrarse en detalle; los componentes indirectos centrales que afectan el comportamiento observable también deben cubrirse; y las implementaciones internas no centrales pueden dejarse a la libre interpretación del agente.

En la fase de Conquista, DeNovoSWE utiliza el mecanismo Draft-Critic-Repair para generar documentos capacidad por capacidad. El agente Draft primero escribe un borrador; el agente Critic revisa si el documento omite APIs clave, contratos de comportamiento o información estructural; el agente Repair luego corrige el documento según los comentarios. Este ciclo se repite iterativamente hasta que cada capítulo de capacidad sea lo suficientemente claro, completo y esté alineado con la evaluación.

Finalmente, los documentos de las diferentes capacidades se fusionan en un único documento de tarea completo, que sirve como la única referencia para que el agente genere el repositorio desde cero.

Dificultad: ¿Por Qué es Esta una Tarea de Largo Alcance?

La dificultad de las tareas DeNovoSWE proviene de un cambio fundamental: ya no se trata de corrección a nivel de issue, sino de generación de todo el repositorio.

En las tareas SWE tradicionales, el agente generalmente se enfrenta a un repositorio existente, y solo necesita localizar el bug, modificar el código localmente y pasar las pruebas.

En DeNovoSWE, el agente se enfrenta a un entorno limpiado: el código fuente original y las pruebas se eliminan, el historial de git se restablece, y se limpian posibles canales de fuga como cachés, residuos de site-packages, paquetes pip wheel, productos de compilación temporales, etc. Esto significa que el agente debe depender verdaderamente del documento para completar la reconstrucción de todo el repositorio. Necesita planificar la estructura del proyecto, crear archivos de módulos, definir interfaces públicas, implementar interacciones entre archivos, manejar dependencias y configuraciones, y corregir errores constantemente a través de múltiples rondas de edición y retroalimentación de pruebas.

Cualquier desviación en una firma de API, un campo de retorno, un tipo de excepción o un comportamiento por defecto puede hacer que las pruebas fallen. Los errores también pueden acumularse en el proceso de largo alcance: un módulo diseñado de manera inadecuada en una etapa temprana puede afectar a múltiples archivos y cadenas de llamadas posteriores.

Para manejar aún más las diferencias de dificultad entre repositorios, DeNovoSWE también propone un filtrado de trayectorias consciente de la dificultad. En pocas palabras, las tareas fáciles deben requerir una tasa de aprobación más alta, mientras que las tareas difíciles no deben descartarse por completo por no alcanzar una puntuación perfecta. DeNovoSWE establece diferentes umbrales de filtrado para diferentes intervalos de dificultad según la complejidad estructural y la evaluación de dificultad del LLM, logrando así un equilibrio entre calidad y diversidad.

Esto es especialmente importante para tareas de largo alcance: cuanto más complejo es un repositorio, más difícil es pasar todas las pruebas de una vez, pero las trayectorias de repositorios difíciles, con puntuaciones bajas y éxitos parciales aún contienen valiosas capacidades de planificación e implementación de largo alcance.

Resultados Experimentales

DeNovoSWE finalmente construyó 4818 instancias de tareas de alta calidad de documentación a repositorio. Es un entorno de ingeniería de software de largo alcance ejecutable, evaluable y entrenable.

Los resultados experimentales muestran que DeNovoSWE trajo una mejora significativa en la capacidad de los modelos para generar repositorios de largo alcance. En Qwen3-30B-A3B-Instruct, el modelo original alcanzó solo un 5.8% en BeyondSWE-Doc2Repo y un 4.3% en NL2RepoBench. El modelo Scale-SWE-Agent entrenado con datos SWE convencionales a nivel de issue puede mejorar hasta el 29.2% y 18.3%, lo que indica que los datos SWE comunes sí tienen un efecto de transferencia. Pero cuando el modelo se entrena con DeNovoSWE, el rendimiento mejora aún más al 47.2% y 23.0%.

Esto indica que los datos orientados a "arreglar bugs" no pueden reemplazar completamente los datos de largo alcance orientados a "generar un repositorio completo". Para que un agente aprenda realmente ingeniería a nivel de repositorio, es necesario construir entornos de entrenamiento específicamente orientados a tareas de largo alcance.

En el backbone más potente Qwen3.5-35B-A3B, DeNovoSWE también aporta beneficios estables: BeyondSWE-Doc2Repo mejora del 43.8% al 50.0%, y NL2RepoBench del 23.5% al 27.1%. Esto demuestra aún más que los beneficios de DeNovoSWE no son una adaptación casual a un modelo específico, sino que provienen de los datos de largo alcance de alta calidad en sí mismos.

Conclusión

La próxima etapa para los agentes de código no consiste solo en corregir issues individuales más rápido, sino en ser capaces de comprender documentos, planificar arquitecturas, organizar módulos, implementar interfaces y, en última instancia, generar un repositorio de software completo y funcional.

DeNovoSWE sistematiza este objetivo convirtiéndolo en un conjunto de datos entrenable, verificable y escalable. Responde a una pregunta clave: ¿Qué tipo de datos puede realmente entrenar a un agente con capacidad de ingeniería de software de largo alcance?

La respuesta no es más código fragmentado, ni problemas más simples, sino tareas de generación de repositorios completos que sean de alta calidad, estructuradas, alineadas con la evaluación y protegidas contra fugas de información.

Partiendo de un documento, reconstruir todo un repositorio. Este es el umbral que los agentes de código de largo alcance necesitan superar.

Referencias: https://arxiv.org/pdf/2606.10728

Este artículo proviene del WeChat Official Account "新智元" (AI Era), editado por: LRST

Criptos en tendencia

Preguntas relacionadas

Q¿Qué es DeNovoSWE y qué objetivo tiene en el campo de la ingeniería de software de larga duración?

ADeNovoSWE es un conjunto de datos creado por la Escuela de Inteligencia Artificial Gaoling de la Universidad Popular de China, que se centra en tareas de ingeniería de software de larga duración, especialmente en la generación de repositorios de código desde cero. Su objetivo es proporcionar datos de alta calidad para entrenar agentes de código en tareas de nivel de repositorio, mejorando su capacidad para generar código a partir de documentación.

Q¿Qué mecanismos utiliza DeNovoSWE para construir su conjunto de datos y garantizar su calidad?

ADeNovoSWE utiliza los mecanismos de 'Divide & Conquer' (Dividir y conquistar) y 'Critic & Repair' (Crítico y reparar). En la fase de división, analiza el repositorio objetivo y lo descompone en capacidades principales. En la fase de conquista, emplea un agente de borrador, un agente crítico y un agente de reparación para iterar y mejorar la documentación, asegurando que sea clara, completa y alineada con la evaluación.

Q¿Cómo mejora DeNovoSWE el rendimiento de los modelos de inteligencia artificial en tareas de generación de repositorios?

ALos experimentos muestran que entrenar modelos como Qwen3-30B-A3B-Instruct con DeNovoSWE mejora significativamente su rendimiento en tareas de generación de repositorios. Por ejemplo, en BeyondSWE-Doc2Repo, la tasa de éxito aumentó del 5.8% al 47.2%, y en NL2RepoBench, del 4.3% al 23.0%, demostrando que los datos de larga duración son cruciales para desarrollar capacidades de ingeniería de software a nivel de repositorio.

Q¿Por qué se considera que las tareas de DeNovoSWE son de 'larga duración' y cuáles son sus principales desafíos?

ASe consideran de 'larga duración' porque implican la generación completa de un repositorio desde cero, en lugar de solo corregir errores o modificar código existente. Los desafíos incluyen la planificación de la arquitectura, la creación de múltiples archivos y módulos, la definición de interfaces, el manejo de dependencias y la necesidad de que todo el sistema sea ejecutable y pase las pruebas. Los errores pueden acumularse a lo largo del proceso, aumentando la complejidad.

Q¿Qué características debe tener una documentación de alta calidad para tareas de generación de repositorios según DeNovoSWE?

AUna documentación de alta calidad debe estar bien organizada, con una visión clara del repositorio y secciones divididas por capacidades o flujos de trabajo. Debe describir los comportamientos clave necesarios para la evaluación, como rutas de importación, APIs públicas, entradas y salidas, parámetros predeterminados, comportamientos de excepción y campos de retorno, sin revelar detalles de implementación específicos. Esto la hace legible, implementable y verificable.

Lecturas Relacionadas

Inversión en Mareas: Seguimos siendo optimistas respecto a la cadena de suministro de IA, pero las razones han cambiado

Inversiones Mareas: Sigue siendo optimista sobre la cadena industrial de IA, pero las razones han cambiado. A mediados de 2026, las principales empresas tecnológicas como Alphabet, Amazon, Meta, Microsoft y Oracle continúan aumentando agresivamente sus inversiones de capital (CAPEX), con cifras proyectadas entre 600 y 2000 mil millones de dólares para 2026. La fase actual de inversión, a diferencia de ciclos tecnológicos anteriores, se centra en infraestructura física a largo plazo (electricidad, redes, transformadores, refrigeración) donde los cuellos de botella son complejos y los plazos de ejecución son lentos. Aunque el mercado muestra preocupación ante el crecimiento del CAPEX por encima de los ingresos y posibles similitudes con la burbuja puntocom del año 2000, el análisis argumenta diferencias clave: la oferta de infraestructura crítica no puede expandirse rápidamente, lo que dificulta una sobrecapacidad masiva. El optimismo actual se basa en que las inversiones continúan, los pedidos a proveedores de infraestructura se mantienen fuertes y aún no hay señales de reducción en las proyecciones de gasto o cancelación de pedidos. Los riesgos de rentabilidad (ROI) existen, pero los datos actuales no justifican un cambio de postura. Por lo tanto, el ciclo de inversión en IA no ha terminado; ha entrado en una nueva fase más compleja y extensa.

marsbitHace 1 hora(s)

Inversión en Mareas: Seguimos siendo optimistas respecto a la cadena de suministro de IA, pero las razones han cambiado

marsbitHace 1 hora(s)

Inversiones Mareales: Seguimos siendo optimistas sobre la cadena industrial de IA, pero la razón ha cambiado

En "Inversiones Mareal", mantenemos una visión positiva de la cadena industrial de la IA, pero los motivos han cambiado. En 2026, el mercado ha pasado de preguntarse si la IA es viable a cuestionar cuánto tiempo puede sostenerse esta intensa inversión. Los gigantes tecnológicos como Alphabet, Amazon, Meta, Microsoft y Oracle han elevado drásticamente sus guías de gasto de capital (Capex) para 2026, lo que demuestra un compromiso continuo. Esta ronda de inversión es más compleja y difícil de detener que los ciclos anteriores de hardware. Los cuellos de botella se han trasladado de los chips a componentes físicos como la energía eléctrica, los transformadores y la refrigeración, cuyas cadenas de suministro tienen plazos de entrega muy largos. Datos de empresas como Eaton muestran un crecimiento explosivo en pedidos para centros de datos. El mercado tiene dos preocupaciones clave: que el Capex supere el crecimiento de los ingresos, poniendo en riesgo el ROI, y los paralelismos con la burbuja puntocom del año 2000. Sin embargo, a diferencia de aquella burbuja impulsada por un exceso de oferta fácil (como la fibra óptica), la infraestructura de IA actual enfrenta limitaciones de oferta reales y prolongadas. La electricidad no se puede "pre-instalar" como la fibra. Por lo tanto, aunque las recientes rondas de financiación masiva de las grandes tecnológicas puedan causar nerviosismo, no señalan el final del ciclo. Más bien, indican que la obra de la IA ha entrado en un nuevo acto, uno marcado por la superación de obstáculos de infraestructura a largo plazo. El ciclo de inversión sigue en marcha.

链捕手Hace 1 hora(s)

Inversiones Mareales: Seguimos siendo optimistas sobre la cadena industrial de IA, pero la razón ha cambiado

链捕手Hace 1 hora(s)

Grayscale: Estos 15 protocolos de criptomonedas generadores de ingresos están gravemente infravalorados

**Resumen: Un análisis de Grayscale sobre protocolos DeFi infravalorados** Grayscale Research identifica 15 protocolos criptográficos con ingresos sustanciales que, según su análisis, cotizan con múltiplos de valoración notablemente bajos. Muchos presentan un múltiplo de ingresos (capitalización de mercado/ingresos anuales) de un solo dígito, e incluso cercano a 1x, como Pump.fun (1x), PancakeSwap (1x) y Meteora (1x). Otros como Aave (9x), Jupiter (6x) y Lido (3x) también se consideran baratos según métricas fundamentales. El informe argumenta que la posible aprobación de la "CLARITY Act" (con una probabilidad del 67% según Polymarket), una ley estadounidense que clarificaría el marco regulatorio para los activos digitales, podría actuar como catalizador. Al reducir la incertidumbre para las instituciones, se esperaría un aumento de la actividad y los ingresos en estos protocolos, predominantemente financieros (DEXs, préstamos, staking). Grayscale aplica, de manera destacada, modelos de valoración tradicionales como el descuento de flujos de caja (DCF) a protocolos como Aave, fijando un precio objetivo de ~175 dólares. No obstante, se advierte que: 1) la aprobación de la ley no está garantizada, y 2) Grayscale, como gestor de activos cripto con productos relacionados (ej. ETF de Hyperliquid), tiene un interés comercial inherente en esta tesis de inversión. La conclusión subraya la anomalía de valoración, pero deja al inversor la valoración final del riesgo.

marsbitHace 1 hora(s)

Grayscale: Estos 15 protocolos de criptomonedas generadores de ingresos están gravemente infravalorados

marsbitHace 1 hora(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar RE

¡Bienvenido a HTX.com! Hemos hecho que comprar Re (RE) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Re (RE) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Re (RE)Después de comprar tu Re (RE), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Re (RE)Tradear fácilmente con Re (RE) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

57 Vistas totalesPublicado en 2026.06.18Actualizado en 2026.06.18

Cómo comprar RE

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de RE (RE).

活动图片