# Artikel Terkait Pembelajaran Berkelanjutan

Pusat Berita HTX menyediakan artikel terbaru dan analisis mendalam mengenai "Pembelajaran Berkelanjutan", mencakup tren pasar, pembaruan proyek, perkembangan teknologi, dan kebijakan regulasi di industri kripto.

Bapak AlphaGo Melempar AI ke 'Masyarakat Buatan' yang Sudah Berjalan 23 Tahun: 3 Tantangan Terberat Agen Cerdas Ada Semua di Sini

CEO DeepMind, bapak AlphaGo Demis Hassabis, telah memulai kemitraan penelitian dengan Fenris Creations (sebelumnya CCP Games), pengembang game MMORPG luar angkasa EVE Online yang telah beroperasi selama 23 tahun. Kolaborasi ini bertujuan untuk mengatasi tiga tantangan terberat dalam penelitian agen AI: **perencanaan jangka panjang (long-horizon planning), memori, dan pembelajaran berkelanjutan (continual learning)**. EVE Online dipilih karena dunianya yang "single-shard" dan terus berjalan menyerupai masyarakat buatan yang kompleks dan dinamis, didorong oleh interaksi nyata pemain selama puluhan tahun. Di dalamnya, pemain membangun aliansi politik, sistem ekonomi, dan melakukan perang yang bisa berlangsung berbulan-bulan, yang merupakan ujian sempurna bagi kemampuan AI. DeepMind akan melakukan penelitian awal di versi offline EVE, menggunakan server lokal untuk pengujian yang terkontrol tanpa mengganggu server utama atau ekonomi pemain nyata. Langkah ini merupakan evolusi dari lingkungan penelitian AI DeepMind sebelumnya, seperti Atari, AlphaGo, AlphaStar, hingga SIMA 2, menuju dunia virtual yang lebih terbuka, persisten, dan kompleks. Intinya, kemitraan ini menjadikan EVE Online sebagai "kotak pasir" yang aman namun sangat realistis untuk melatih agen AI agar dapat bertahan, beradaptasi, dan merencanakan dalam lingkungan yang terus berubah seperti dunia nyata.

marsbit05/25 00:11

Bapak AlphaGo Melempar AI ke 'Masyarakat Buatan' yang Sudah Berjalan 23 Tahun: 3 Tantangan Terberat Agen Cerdas Ada Semua di Sini

marsbit05/25 00:11

Setelah Pelatihan, Insinyur OpenAI Weng Jiayi Mengajukan Asumsi Paradigma Baru untuk Agentic AI

Dalam eksperimen terbarunya, insinyur OpenAI, Weng Jiayi, mengusulkan paradigma baru untuk AI agentik yang disebut "Heuristic Learning" (HL). Berbeda dengan pendekatan tradisional yang mengandalkan pelatihan model neural berskala besar, HL memungkinkan AI (dalam hal ini Codex) untuk secara mandiri menulis, menjalankan, menguji, dan merevisi kode program strategi berdasarkan tujuan, lingkungan yang dapat dijalankan, dan umpan balik tertutup. Dalam eksperimen utama di lingkungan Atari Breakout, agen Codex berhasil mengembangkan strategi kode Python murni yang mencapai skor sempurna 864. Prosesnya melibatkan siklus iteratif: menulis kode, menjalankan simulasi, menganalisis log dan rekaman video, mengidentifikasi kegagalan, lalu memodifikasi kode. Pengalaman "dipelajari" tidak disimpan dalam bobot neural network, tetapi dalam sistem perangkat lunak yang dapat dibaca, diubah, dan diaudit. Eksperimen lebih lanjut di 57 game Atari menunjukkan bahwa pendekatan HL memiliki efisiensi sampel yang mengesankan di awal, mencapai kinerja sebanding dengan algoritma Reinforcement Learning (RL) seperti PPO dalam jutaan langkah. Namun, HL memiliki batasan dalam tugas yang memerlukan perencanaan jangka panjang dan urutan aksi kompleks, seperti yang terlihat dalam game Montezuma's Revenge. Paradigma HL ini berpotensi memiliki implikasi signifikan di industri, terutama dalam: 1) Kontrol robotik untuk skenario terstruktur, mengurangi ketergantungan pada inferensi neural network berat di setiap langkah; 2) Skenario kritis keamanan (mobil otonom, robot medis) di mana kemampuan audit dan penelusuran kode sangat berharga; 3) Pembelajaran berkelanjutan yang dapat diotomatisasi dan diintegrasikan ke dalam alur kerja rekayasa perangkat lunak; 4) Preservasi dan pertukaran kemampuan agen dalam bentuk aset kode yang dapat digunakan kembali. Weng Jiayi menekankan bahwa HL bukan pengganti lengkap untuk neural network, tetapi pelengkap. Visinya adalah sistem hybrid di mana neural network (System 1) menangani persepsi cepat, HL menangani pemrosesan aturan dan memori yang dapat diinterpretasikan, dan LLM agen (System 2) memberikan umpan balik tingkat tinggi. Intinya, HL menawarkan kemungkinan untuk mengubah pengalaman AI dari sesuatu yang "terkompresi dalam bobot" menjadi sesuatu yang "terkandung dalam perangkat lunak yang dapat dipelihara".

marsbit05/11 00:23

Setelah Pelatihan, Insinyur OpenAI Weng Jiayi Mengajukan Asumsi Paradigma Baru untuk Agentic AI

marsbit05/11 00:23

活动图片