Berita Terkait Pembelajaran Berkelanjutan – Informasi Terbaru Pembelajaran Berkelanjutan HTX

Setelah Pelatihan, Insinyur OpenAI Weng Jiayi Mengajukan Asumsi Paradigma Baru untuk Agentic AI

Dalam eksperimen terbarunya, insinyur OpenAI, Weng Jiayi, mengusulkan paradigma baru untuk AI agentik yang disebut "Heuristic Learning" (HL). Berbeda dengan pendekatan tradisional yang mengandalkan pelatihan model neural berskala besar, HL memungkinkan AI (dalam hal ini Codex) untuk secara mandiri menulis, menjalankan, menguji, dan merevisi kode program strategi berdasarkan tujuan, lingkungan yang dapat dijalankan, dan umpan balik tertutup. Dalam eksperimen utama di lingkungan Atari Breakout, agen Codex berhasil mengembangkan strategi kode Python murni yang mencapai skor sempurna 864. Prosesnya melibatkan siklus iteratif: menulis kode, menjalankan simulasi, menganalisis log dan rekaman video, mengidentifikasi kegagalan, lalu memodifikasi kode. Pengalaman "dipelajari" tidak disimpan dalam bobot neural network, tetapi dalam sistem perangkat lunak yang dapat dibaca, diubah, dan diaudit. Eksperimen lebih lanjut di 57 game Atari menunjukkan bahwa pendekatan HL memiliki efisiensi sampel yang mengesankan di awal, mencapai kinerja sebanding dengan algoritma Reinforcement Learning (RL) seperti PPO dalam jutaan langkah. Namun, HL memiliki batasan dalam tugas yang memerlukan perencanaan jangka panjang dan urutan aksi kompleks, seperti yang terlihat dalam game Montezuma's Revenge. Paradigma HL ini berpotensi memiliki implikasi signifikan di industri, terutama dalam: 1) Kontrol robotik untuk skenario terstruktur, mengurangi ketergantungan pada inferensi neural network berat di setiap langkah; 2) Skenario kritis keamanan (mobil otonom, robot medis) di mana kemampuan audit dan penelusuran kode sangat berharga; 3) Pembelajaran berkelanjutan yang dapat diotomatisasi dan diintegrasikan ke dalam alur kerja rekayasa perangkat lunak; 4) Preservasi dan pertukaran kemampuan agen dalam bentuk aset kode yang dapat digunakan kembali. Weng Jiayi menekankan bahwa HL bukan pengganti lengkap untuk neural network, tetapi pelengkap. Visinya adalah sistem hybrid di mana neural network (System 1) menangani persepsi cepat, HL menangani pemrosesan aturan dan memori yang dapat diinterpretasikan, dan LLM agen (System 2) memberikan umpan balik tingkat tinggi. Intinya, HL menawarkan kemungkinan untuk mengubah pengalaman AI dari sesuatu yang "terkompresi dalam bobot" menjadi sesuatu yang "terkandung dalam perangkat lunak yang dapat dipelihara".

marsbit05/11 00:23

Setelah Pelatihan, Insinyur OpenAI Weng Jiayi Mengajukan Asumsi Paradigma Baru untuk Agentic AI

marsbit05/11 00:23

# Artikel Terkait Pembelajaran Berkelanjutan

Bapak AlphaGo Melempar AI ke 'Masyarakat Buatan' yang Sudah Berjalan 23 Tahun: 3 Tantangan Terberat Agen Cerdas Ada Semua di Sini

Setelah Pelatihan, Insinyur OpenAI Weng Jiayi Mengajukan Asumsi Paradigma Baru untuk Agentic AI

Kategori Populer

Tag Populer