# Artikel Terkait Generasi Kode

Pusat Berita HTX menyediakan artikel terbaru dan analisis mendalam mengenai "Generasi Kode", mencakup tren pasar, pembaruan proyek, perkembangan teknologi, dan kebijakan regulasi di industri kripto.

Dataset Pelatihan Doc2Repo Jarak Jauh Pertama, Agen Kode Tak Hanya Perbaiki Bug, Mulai Bangun Repository

Dengan kemampuan LLM Code Agent yang terus meningkat, peneliti kini beralih ke tugas jangka panjang yang lebih mendekati kebutuhan dunia nyata. Dalam konteks ini, tim dari Renmin University of China merilis dataset DeNovoSWE, yang berfokus pada tugas rekayasa perangkat lunak jangka panjang, khususnya pembuatan kode tingkat repositori dari nol. Dataset ini dibangun menggunakan mekanisme **Divide & Conquer** dan **Critic & Repair**, menghasilkan 4.818 instance data berkualitas tinggi. DeNovoSWE mengatasi tantangan generasi repositori utuh dari dokumen, yang membutuhkan perencanaan arsitektur, pembuatan file, desain API, dan integrasi modul. Eksperimen menunjukkan peningkatan signifikan pada model yang dilatih dengan DeNovoSWE. Misalnya, Qwen3-30B-A3B-Instruct meningkat dari 5.8% menjadi 47.2% pada benchmark BeyondSWE-Doc2Repo, dan dari 4.3% menjadi 23.0% pada NL2RepoBench. Peningkatan ini membuktikan bahwa data tugas jangka panjang khusus lebih efektif untuk melatih kemampuan rekayasa perangkat lunak tingkat repositori, melampaui data konvensional yang hanya berfokus pada perbaikan bug. Kesimpulannya, DeNovoSWE menyediakan landasan data yang terstruktur, dapat diverifikasi, dan anti-kebocoran untuk melatih agen kode dalam memahami dokumen, merencanakan arsitektur, dan menghasilkan repositori perangkat lunak yang lengkap dan dapat dijalankan, menandai langkah maju menuju kemampuan rekayasa perangkat lunak jangka panjang yang sebenarnya.

marsbit2 hari yang lalu 08:54

Dataset Pelatihan Doc2Repo Jarak Jauh Pertama, Agen Kode Tak Hanya Perbaiki Bug, Mulai Bangun Repository

marsbit2 hari yang lalu 08:54

AGI Hanya Satu Langkah Lagi

Anthropic secara resmi merilis model Fable 5, versi dengan pembatasan keamanan dari model terkuat mereka, Mythos 5. Dalam pengujian, Fable 5 menunjukkan kemampuan "agen jarak jauh" yang luar biasa, seperti memigrasi 50 juta baris kode dalam sehari untuk Stripe, sehingga secara sempit telah mencapai AGI di bidang ekonomi digital. Model ini telah mencapai Level 3 (Agen) dan mendekati Level 4 (Inovator) dalam standar OpenAI. Namun, model dasar Mythos 5 dinilai sangat berbahaya karena memiliki kemampuan tingkat CB-1, yang berarti dapat membimbing pembuatan senjata biologi/kimia dan mengeksploitasi kerentanan siber kritis. Untuk mencegah penyalahgunaan, Anthropic menerapkan dua lapis pengamanan pada Fable 5: mekanisme perutean degradasi diam-diam ke model yang lebih lama dan kebijakan retensi data 30 hari untuk semua traffic. Dari sisi harga, Fable 5 ditawarkan dengan harga premium, menjadikan model paling canggih ini sebagai "barang mewah" yang hanya terjangkau bagi klien korporat. Hal ini mengarah pada konsolidasi anggaran pasar B2B di sekitar Anthropic, sementara model yang lebih murah bersaing di pasar konsumen. Kehadiran model ini menandai matangnya industri AI, di mana kecerdasan paling kuat dialokasikan sebagai aset strategis untuk infrastruktur dan aplikasi bisnis, sekaligus mengisyaratkan disrupsi besar di pasar tenaga kerja.

marsbit06/11 05:14

marsbit06/11 05:14

Setelah Pelatihan, Insinyur OpenAI Weng Jiayi Mengajukan Asumsi Paradigma Baru untuk Agentic AI

Dalam eksperimen terbarunya, insinyur OpenAI, Weng Jiayi, mengusulkan paradigma baru untuk AI agentik yang disebut "Heuristic Learning" (HL). Berbeda dengan pendekatan tradisional yang mengandalkan pelatihan model neural berskala besar, HL memungkinkan AI (dalam hal ini Codex) untuk secara mandiri menulis, menjalankan, menguji, dan merevisi kode program strategi berdasarkan tujuan, lingkungan yang dapat dijalankan, dan umpan balik tertutup. Dalam eksperimen utama di lingkungan Atari Breakout, agen Codex berhasil mengembangkan strategi kode Python murni yang mencapai skor sempurna 864. Prosesnya melibatkan siklus iteratif: menulis kode, menjalankan simulasi, menganalisis log dan rekaman video, mengidentifikasi kegagalan, lalu memodifikasi kode. Pengalaman "dipelajari" tidak disimpan dalam bobot neural network, tetapi dalam sistem perangkat lunak yang dapat dibaca, diubah, dan diaudit. Eksperimen lebih lanjut di 57 game Atari menunjukkan bahwa pendekatan HL memiliki efisiensi sampel yang mengesankan di awal, mencapai kinerja sebanding dengan algoritma Reinforcement Learning (RL) seperti PPO dalam jutaan langkah. Namun, HL memiliki batasan dalam tugas yang memerlukan perencanaan jangka panjang dan urutan aksi kompleks, seperti yang terlihat dalam game Montezuma's Revenge. Paradigma HL ini berpotensi memiliki implikasi signifikan di industri, terutama dalam: 1) Kontrol robotik untuk skenario terstruktur, mengurangi ketergantungan pada inferensi neural network berat di setiap langkah; 2) Skenario kritis keamanan (mobil otonom, robot medis) di mana kemampuan audit dan penelusuran kode sangat berharga; 3) Pembelajaran berkelanjutan yang dapat diotomatisasi dan diintegrasikan ke dalam alur kerja rekayasa perangkat lunak; 4) Preservasi dan pertukaran kemampuan agen dalam bentuk aset kode yang dapat digunakan kembali. Weng Jiayi menekankan bahwa HL bukan pengganti lengkap untuk neural network, tetapi pelengkap. Visinya adalah sistem hybrid di mana neural network (System 1) menangani persepsi cepat, HL menangani pemrosesan aturan dan memori yang dapat diinterpretasikan, dan LLM agen (System 2) memberikan umpan balik tingkat tinggi. Intinya, HL menawarkan kemungkinan untuk mengubah pengalaman AI dari sesuatu yang "terkompresi dalam bobot" menjadi sesuatu yang "terkandung dalam perangkat lunak yang dapat dipelihara".

marsbit05/11 00:23

Setelah Pelatihan, Insinyur OpenAI Weng Jiayi Mengajukan Asumsi Paradigma Baru untuk Agentic AI

marsbit05/11 00:23

Catatan 8 Tahun Perjalanan Startup dari Partner AI a16z

Altar AI a16z, seorang mitra yang berfokus pada AI, membagikan refleksi 8 tahun perjalanan wirausaha di bidang AI generatif. Sejak mendirikan Rosebud AI pada 2018, ia mengembangkan alat kreatif berbasis AI seperti TokkingHeads, yang bertujuan membuat proses kreasi semudah bermain game. Meski model AI saat itu masih terbatas, produknya berhasil menarik jutaan pengguna dengan desain yang memaksimalkan pengalaman "cukup berguna". Perkembangan teknologi dari CycleGAN hingga GPT-4 membuka batas baru dalam generasi kode dan kreasi interaktif. Penulis menekankan bahwa tahap pertama AI generatif (membuktikan kemampuan) hampir berakhir, dan kompetisi selanjutnya akan fokus pada bagaimana kemampuan ini diorganisir, diproduktifikasi, dan diintegrasikan ke dunia nyata. Setelah meninggalkan peran CEO di Rosebud AI, ia kini bergabung dengan a16z untuk berinvestasi dalam infrastruktur dan stack AI frontier. Ia percaya bahwa inovasi di bidang matematika, sains, dan alat kreatif akan terus didorong oleh kemajuan AI, sambil mengingatkan pentingnya memilih produk yang berada di luar jalur utama laboratorium penelitian.

marsbit04/26 12:06