Seiring dengan peningkatan kemampuan LLM Code Agent yang terus-menerus, semakin banyak peneliti menyadari bahwa sekarang saatnya untuk melangkah ke tahap berikutnya yaitu tugas jarak jauh yang lebih mendekati kebutuhan skenario nyata. Kemudian muncul beberapa benchmark evaluasi tugas jarak jauh seperti NL2RepoBench dan BeyondSWE, dll. Ekspektasi peran yang diemban Code Agent secara bertahap berubah dari pemelihara repository menjadi arsitek, yang mampu melakukan perencanaan dan menyelesaikan tugas jarak jauh untuk seluruh kode repository.
Baru-baru ini, Fakultas Kecerdasan Buatan Gaoling di Universitas Rakyat Tiongkok menyelesaikan penelitian terkait dan merilis secara besar-besaran dataset DeNovoSWE, yang berfokus pada tugas rekayasa perangkat lunak jarak jauh, terutama tugas pembuatan kode tingkat repository dari nol.

Tautan makalah: https://arxiv.org/pdf/2606.10728
Tautan repository: https://github.com/AweAI-Team/DeNovoSWE
Tautan data: https://huggingface.co/collections/AweAI-Team/denovoswe
Melalui mekanisme Divide & Conquer dan Critic & Repair untuk membangun dataset berkualitas tinggi, dan berhasil mencapai scaling tugas SWE jarak jauh, membangun dataset tugas SWE jarak jauh berkualitas tinggi sumber terbuka yang berisi 4,818 data nyata — pencapaian ini menyediakan data skala besar untuk pelatihan kemampuan jarak jauh Code Agent, secara signifikan meningkatkan kemampuan Code Agent dalam tugas jarak jauh.

Makalah ini juga menyediakan metode penyaringan berdasarkan penilaian kesulitan soal, secara efektif mengurangi masalah trade-off antara proporsi soal sulit dan kualitas jalur.

Eksperimen menunjukkan bahwa Qwen3-30B-A3B-Instruct yang dilatih berdasarkan DeNovoSWE meningkat dari 5,8% menjadi 47,2% pada BeyondSWE-Doc2Repo, dan dari 4,3% menjadi 23,0% pada NL2RepoBench, menunjukkan peningkatan signifikan dari data jarak jauh terhadap kemampuan pembuatan kode tingkat repository.
Membangun Kembali Seluruh Repository dari Satu Dokumen
Setahun terakhir, dengan scaling data SWE skala besar seperti Scale-SWE, agent kode cerdas berkembang pesat dalam tugas rekayasa perangkat lunak nyata seperti SWE-bench. Tetapi ketika model semakin mahir 'memperbaiki sebuah issue' atau 'mengubah beberapa bug', masalah yang lebih kritis mulai muncul: Apakah agent benar-benar memiliki kemampuan rekayasa perangkat lunak jarak jauh? Dari hasil model terdepan di BeyondSWE-Doc2Repo dan NL2RepoBench, efeknya tidak ideal.
Pengembangan perangkat lunak di dunia nyata seringkali bukan tentang mengubah satu fungsi atau menambahkan satu kondisi pengambilan keputusan, melainkan memahami kebutuhan, merencanakan arsitektur, membuat file, merancang API, menangani dependensi, menghubungkan modul, dan akhirnya membuat seluruh repository berjalan lancar dalam pengujian.
Dengan kata lain, yang sulit adalah long-horizon repository-level generation: mulai dari satu dokumen tugas, menghasilkan sebuah repository perangkat lunak yang lengkap, dapat dieksekusi, dan dapat diverifikasi. Inilah yang ingin dipecahkan oleh DeNovoSWE.
Dokumen Tugas 'Membangun Repository dari Nol' yang Berkualitas Tinggi
Dalam document-to-repository generation, dokumen bukan hanya README, juga bukan sekadar daftar API. Pada dasarnya, itu adalah satu-satunya pintu masuk tugas bagi agent cerdas untuk membangun kembali seluruh repository.
Sebuah dokumen tugas berkualitas tinggi, setidaknya harus memenuhi dua standar inti.
Pertama, harus terstruktur dengan baik (well-organized).
Tugas tingkat repository secara alami kompleks, mencakup banyak modul, antarmuka, konfigurasi, struktur data, dan alur interaksi. Jika dokumen hanya menumpuk penjelasan fungsi, agent cerdas mudah tersesat dalam informasi yang terfragmentasi. Oleh karena itu, dokumen harus memberikan gambaran umum repository yang jelas terlebih dahulu, kemudian membagi bab berdasarkan kemampuan atau alur kerja, sehingga setiap bagian sesuai dengan batasan fungsional yang jelas.
Kedua, harus berasal dari perspektif evaluasi yang andal.
Dokumen tidak boleh terlalu sedikit, jika tidak, tugas menjadi masalah underdefined, mungkin membuat model perlu menebak tanpa arah agar lolos evaluasi; juga tidak boleh terlalu banyak, jika tidak, langsung membocorkan detail implementasi, membuat tugas kehilangan tantangan.
Dokumen yang benar-benar berkualitas tinggi harus menggambarkan perilaku kunci yang diandalkan evaluasi: termasuk path import, API publik, input-output, parameter default, perilaku pengecualian, item konfigurasi, string pola, field pengembalian, dll., juga menggambarkan fungsi yang kira-kira perlu diselesaikan. Artinya, dokumen harus cukup untuk membuat agent cerdas mereproduksi perilaku yang dapat diuji, tetapi tidak boleh menjadi salinan kode implementasi.
Ini juga inti dari DeNovoSWE: membuat dokumen yang dapat dibaca, dapat diimplementasikan, dan dapat diverifikasi.
Metode DeNovoSWE
DeNovoSWE menyusun 'pembuatan repository lengkap dari dokumen' sebagai tugas rekayasa perangkat lunak jarak jauh yang berskala besar dan dapat diverifikasi. Bukan dengan menulis dokumen secara manual, melainkan membangun instance berkualitas tinggi secara otomatis melalui sandboxed multi-agent workflow. Seluruh metode dapat diringkas dalam dua langkah: Divide dan Conquer.
Pada tahap Divide, sistem pertama-tama menganalisis repository target, memecahnya menjadi beberapa repository capabilities.
Setiap capability sesuai dengan satu kemampuan atau alur kerja inti dalam repository, misalnya otentikasi dan koneksi, pembacaan dan penulisan data, pemrosesan batch, alur ekspor, dll. Dengan demikian, masalah pembuatan repository yang awalnya besar terpecah menjadi beberapa bab dokumen yang strukturnya jelas.
Secara bersamaan, DeNovoSWE akan menjalankan unit test asli dan mengumpulkan jejak eksekusi, mengidentifikasi fungsi, kelas, dan antarmuka mana yang benar-benar memengaruhi evaluasi, lebih lanjut membedakan direct components, core indirect components, dan non-core indirect components: antarmuka yang dipanggil langsung oleh pengujian harus dicatat secara detail; komponen tidak langsung inti yang memengaruhi perilaku yang dapat diamati juga perlu dicakup; sementara implementasi internal non-inti dapat diserahkan kepada kebebasan kreatif agent cerdas.
Pada tahap Conquer, DeNovoSWE menggunakan mekanisme Draft-Critic-Repair untuk menghasilkan dokumen per kemampuan secara bertahap. Draft agent menulis draf awal terlebih dahulu; Critic agent memeriksa apakah dokumen melewatkan API kunci, kontrak perilaku, atau informasi struktural; Repair agent kemudian memperbaiki dokumen berdasarkan umpan balik. Siklus ini berulang terus, hingga setiap bab kemampuan cukup jelas, lengkap, dan selaras dengan evaluasi.
Akhirnya, dokumen kemampuan yang berbeda akan digabungkan menjadi satu dokumen tugas lengkap, sebagai satu-satunya dasar bagi agent cerdas untuk menghasilkan repository dari nol.
Tingkat Kesulitan: Mengapa Ini Tugas Jarak Jauh?
Tingkat kesulitan tugas DeNovoSWE berasal dari perubahan mendasar: ini bukan lagi issue-level fixing, melainkan whole-repository generation.
Dalam tugas SWE tradisional, agent cerdas biasanya menghadapi repository yang sudah ada, hanya perlu menemukan bug, memodifikasi kode lokal, dan melewati pengujian.
Dalam DeNovoSWE, agent cerdas menghadapi lingkungan yang telah dibersihkan: kode sumber asli dan pengujian dihapus, riwayat git direset, cache, residu site-packages, pip wheel, produk kompilasi sementara, dan saluran kebocoran potensial lainnya juga akan dibersihkan. Ini berarti agent cerdas harus benar-benar mengandalkan dokumen untuk menyelesaikan pembangunan kembali seluruh repository. Ia perlu merencanakan struktur proyek, membuat file modul, mendefinisikan antarmuka publik, mengimplementasikan interaksi lintas file, menangani dependensi dan konfigurasi, dan terus memperbaiki kesalahan dalam umpan balik pengeditan dan pengujian multi-putaran.
Penyimpangan apa pun dalam tanda tangan API, field pengembalian, tipe pengecualian, atau perilaku default, dapat menyebabkan kegagalan pengujian. Kesalahan juga dapat menumpuk dalam proses jarak jauh: modul yang dirancang tidak rasional di awal, dapat memengaruhi banyak file dan rantai panggilan berikutnya.
Untuk lebih menangani perbedaan tingkat kesulitan antar repository, DeNovoSWE juga mengusulkan difficulty-aware trajectory filtering. Secara sederhana, tugas mudah harus menuntut tingkat kelulusan yang lebih tinggi, sedangkan tugas sulit tidak boleh dibuang seluruhnya hanya karena tidak mencapai skor sempurna. DeNovoSWE menetapkan ambang batas penyaringan yang berbeda untuk rentang kesulitan yang berbeda berdasarkan kompleksitas struktural dan penilaian kesulitan LLM, sehingga mencapai keseimbangan antara kualitas dan keberagaman.
Ini sangat penting untuk tugas jarak jauh: semakin kompleks repository, semakin sulit untuk sepenuhnya melewati semua pengujian sekaligus, tetapi jalur-jalur repository sulit, skor rendah, dan sebagian berhasil di dalamnya masih mengandung kemampuan perencanaan dan implementasi jarak jauh yang berharga.

Hasil Eksperimen
DeNovoSWE akhirnya membangun 4818 instance tugas document-to-repository berkualitas tinggi. Ini adalah lingkungan rekayasa perangkat lunak jarak jauh yang dapat dieksekusi, dapat dievaluasi, dan dapat dilatih.


Hasil eksperimen menunjukkan bahwa DeNovoSWE membawa peningkatan signifikan pada kemampuan pembuatan repository jarak jauh model. Pada Qwen3-30B-A3B-Instruct, model asli hanya 5,8% di BeyondSWE-Doc2Repo, dan hanya 4,3% di NL2RepoBench. Scale-SWE-Agent yang dilatih dengan data SWE issue-level reguler dapat meningkat menjadi 29,2% dan 18,3%, menunjukkan bahwa data SWE biasa memang memiliki efek transfer. Tetapi ketika model dilatih menggunakan DeNovoSWE, kinerja lebih lanjut meningkat menjadi 47,2% dan 23,0%.
Ini menunjukkan bahwa data yang berorientasi 'memperbaiki bug' tidak dapat sepenuhnya menggantikan data jarak jauh yang berorientasi 'menghasilkan repository lengkap'. Untuk membuat agent cerdas benar-benar mempelajari repository-level engineering, diperlukan lingkungan pelatihan yang khusus dibangun untuk tugas jarak jauh.
Pada backbone Qwen3.5-35B-A3B yang lebih kuat, DeNovoSWE juga membawa keuntungan stabil: BeyondSWE-Doc2Repo meningkat dari 43,8% menjadi 50,0%, NL2RepoBench meningkat dari 23,5% menjadi 27,1%. Ini lebih lanjut menunjukkan bahwa keuntungan DeNovoSWE bukan berasal dari adaptasi kebetulan pada satu model tertentu, melainkan berasal dari data jarak jauh berkualitas tinggi itu sendiri.
Kesimpulan
Tahap berikutnya dari agent kode cerdas, bukan hanya memperbaiki satu issue dengan lebih cepat, tetapi mampu memahami dokumen, merencanakan arsitektur, mengatur modul, mengimplementasikan antarmuka, dan akhirnya menghasilkan sebuah repository perangkat lunak yang lengkap dan dapat dijalankan.
DeNovoSWE menyusun target ini secara sistematis menjadi dataset yang dapat dilatih, dapat diverifikasi, dan dapat diperluas. Ini menjawab satu pertanyaan kunci: Data seperti apa yang benar-benar dapat melatih agent cerdas dengan kemampuan rekayasa perangkat lunak jarak jauh?
Jawabannya bukan lebih banyak kode yang terfragmentasi, juga bukan soal yang lebih sederhana, melainkan tugas pembuatan repository lengkap yang berkualitas tinggi, terstruktur, selaras evaluasi, dan anti-kebocoran.
Mulai dari satu dokumen, membangun kembali seluruh repository. Ini adalah ambang batas yang perlu dilewati oleh agent kode cerdas jarak jauh.
Referensi: https://arxiv.org/pdf/2606.10728
Artikel ini berasal dari akun WeChat "Xin Zhi Yuan", editor: LRST






