Berita Terkait Ukuran Langkah – Informasi Terbaru Ukuran Langkah HTX

Penerima Turing Award Sutton Karya Baru: Selesaikan Kelemahan Besar Pembelajaran Penguatan Streaming dengan Formula 1967

Sebuah makalah baru oleh Arsalan Sharifnassab dkk. (termasuk pemenang Turing Award Richard Sutton) mengatasi "rintangan aliran" (*stream barrier*) dalam pembelajaran penguatan (*reinforcement learning*) secara mendalam. Masalahnya adalah ketidakmampuan belajar "langkah demi langkah" (*online/streaming*) dengan ukuran *batch*=1 dan tanpa *buffer replay*. Alasannya adalah langkah pembelajaran (*step-size*) tradisional hanya mengontrol seberapa besar parameter bergerak, bukan perubahan pada keluaran fungsi, sehingga menyebabkan pembaruan yang tidak stabil. Solusinya disebut **"Intentional Updates" (Pembaruan Berdasarkan Niat)**, sebuah ide yang meluas dari algoritma NLMS tahun 1967. Alih-alih menetapkan ukuran langkah untuk parameter, metode ini menetapkan **"niat"** untuk mengubah *output* fungsi—seperti memperkecil kesalahan prediksi nilai sebesar 5%—lalu menghitung mundur ukuran langkah yang diperlukan. Ini menghasilkan algoritma seperti Intentional TD, Intentional Q, dan Intentional Policy Gradient. Dalam eksperimen, metode ini mencocokkan kinerja algoritma canggih seperti SAC (dalam kontrol berkelanjutan) dan DQN (pada permainan Atari) dalam pengaturan *streaming*, dengan komputasi yang jauh lebih ringan (1/140 FLOP SAC) dan tanpa banyak penyesuaian hiperparameter. Kerangka kerja ini lebih tangguh dan mengurangi ketergantungan pada trik stabilisasi, meskipun ada masalah bias yang perlu ditangani dalam pembelajaran kebijakan. Pendekatan ini membuka jalan untuk sistem AI yang dapat belajar terus-menerus dan beradaptasi secara *online* seperti manusia, cocok untuk robotika dan perangkat *edge* dengan sumber daya terbatas.

marsbit05/10 06:38

Penerima Turing Award Sutton Karya Baru: Selesaikan Kelemahan Besar Pembelajaran Penguatan Streaming dengan Formula 1967

marsbit05/10 06:38

# Artikel Terkait Ukuran Langkah

Penerima Turing Award Sutton Karya Baru: Selesaikan Kelemahan Besar Pembelajaran Penguatan Streaming dengan Formula 1967

Kategori Populer

Tag Populer

Berita Industri

Ethereum