Dwarkesh Patel, pembawa acara podcast teknologi terkenal di Silicon Valley, baru-baru ini mengajukan pertanyaan: Apa paradigma pelatihan generasi berikutnya untuk AI?

Dwarkesh Patel adalah pembawa acara podcast dan penulis teknologi yang meroket popularitasnya dalam beberapa tahun terakhir di Silicon Valley. Baru berusia 25 tahun, ia sudah masuk ke lingkaran inti diskusi AI berkat Dwarkesh Podcast. Narasumber wawancaranya termasuk Ilya Sutskever, Andrej Karpathy, Dario Amodei, Demis Hassabis, Mark Zuckerberg, dan sejumlah tokoh besar AI dan teknologi lainnya. TIME pernah memasukkannya ke dalam TIME100 AI 2024, menyebut bahwa podcastnya telah menjadi konten penting yang didengarkan oleh banyak praktisi AI.

Dalam episode podcast terbarunya, dia merangkum jalur yang sedang diambil oleh laboratorium AI terdepan saat ini menjadi satu kata kunci: RLVR, atau Reinforcement Learning with Verifiable Rewards, Pembelajaran Penguatan dengan Imbalan yang Dapat Diverifikasi.
Sederhananya, ini berarti melatih model dalam banyak tugas yang jawaban benar-salahnya dapat dinilai secara otomatis, agar model mengembangkan kemampuan perencanaan, koreksi kesalahan, iterasi, dan eksekusi jangka panjang. Kemajuan pesat di bidang seperti kode dan matematika saat ini sebagian besar berasal dari pemikiran seperti ini.
Tapi yang benar-benar ingin ditanyakan Dwarkesh adalah: Jika generasi AI berikutnya hanya mengandalkan pelatihan "tugas yang dapat diverifikasi" ini, apakah itu cukup?
Jawabannya: Mungkin tidak.
Karena sebuah tugas tidak cukup hanya "dapat diverifikasi", tapi juga harus "dapat dikerjakan berulang".
Konsep kunci di sini adalah grindability, kemampuan untuk digiling/dikerjakan berulang. Dalam konteks pelatihan AI, ini adalah "kemampuan untuk berlatih soal berulang kali" atau "kemampuan untuk di-rollout secara besar-besaran".
Tugas kode adalah contoh tugas yang dapat dikerjakan berulang. Anda bisa menyiapkan sebuah repositori perangkat lunak, bug yang perlu diperbaiki, sebuah kasus uji, lalu menduplikasi lingkungan yang sama menjadi ribuan salinan, dan membiarkan ribuan agent mencoba secara bersamaan. Siapa yang lolos uji, dapat poin. Proses ini dapat diparalelkan, dapat direproduksi, dapat di-reset, sangat cocok untuk RLVR.
Soal matematika juga serupa. Kebenaran jawaban dapat diverifikasi, lingkungan pelatihan juga mudah diduplikasi.
Tapi Dwarkesh mengajukan pertanyaan yang menarik: Mengapa kemajuan AI dalam hal "menggunakan komputer" justru lebih lambat daripada dalam kode dan matematika?
Secara permukaan, penggunaan komputer juga dapat diverifikasi. Misalnya, apakah barang berhasil dipesan, apakah tempat acara berhasil dipesan, apakah formulir pajak sudah disampaikan, hasil-hasil ini dapat dinilai. Namun masalahnya, ini sulit untuk diduplikasi dan diputar ulang dalam skala besar. Anda tidak bisa membuat seribu agent sekaligus menjalankan proses checkout yang sama berulang kali di Amazon, karena situs web nyata akan mendeteksi bot, membekukan akun, mengubah status. Anda tentu saja dapat membuat simulator dengan mengkloning aplikasi seperti Slack, Gmail, Amazon, tetapi pada tahap ini tetap merupakan rekayasa dengan biaya tinggi dan skalabilitas rendah.
Dwarkesh menegaskan: AI maju pesat di suatu bidang, bukan hanya karena jawaban di bidang itu dapat diverifikasi, tapi karena bidang itu dapat dikemas menjadi lingkungan pelatihan yang dapat diduplikasi, diputar ulang, dan diuji-coba secara paralel.
Ini juga menjelaskan mengapa tugas-tugas seperti kode, matematika, dan permainan menjadi sarang alami bagi RLVR, sementara banyak tugas dunia nyata sulit dimasukkan langsung ke dalam paradigma pelatihan ini.
Selanjutnya, dia mengarahkan pertanyaan ke dunia nyata yang lebih kompleks.
- Bagaimana jika kita ingin melatih AI untuk memulai bisnis dari nol?
- Bagaimana jika kita ingin melatihnya memenangkan sebuah kasus pengadilan?
- Bagaimana jika kita ingin melatihnya menghasilkan uang secara stabil di pasar, atau membantu seorang kandidat memenangkan pemilihan?
Tugas-tugas ini tentu juga memiliki hasil. Apakah perusahaan berhasil, apakah kasus dimenangkan, apakah transaksi untung, apakah pemilihan menang, pada akhirnya dapat dinilai.
Masalahnya adalah: umpan balik terlalu lambat, variabel terlalu banyak, dunia tidak dapat di-reset, juga tidak dapat diduplikasi seribu kali di pusat data.
Satu usaha startup bisa berlangsung bertahun-tahun. Satu kampanye politik tergantung pada wilayah spesifik, kandidat, sentimen pemilih, lingkungan media, dan peristiwa kebetulan. Satu kasus hukum juga tidak dapat diduplikasi dari titik awal yang sama menjadi seribu alam semesta paralel, untuk diuji-coba oleh agent yang berbeda.
Lingkungan semacam ini dalam pembelajaran penguatan mendekati yang disebut lingkungan reset-free, non-stationary environment: tidak dapat di-reset sembarangan, dan lingkungan itu sendiri terus berubah.
Karena itu, Dwarkesh bertanya: Apakah agent yang dilatih oleh RLVR di lingkungan yang dapat diverifikasi dan dapat dikerjakan berulang, benar-benar dapat digeneralisasi ke tugas-tugas dunia nyata ini?
Ini bukan pertanyaan yang dapat dijawab hanya dengan slogan, tapi adalah masalah empiris.
Kalangan optimis akan berkata, selama lingkungan RLVR cukup banyak dan cukup kompleks, model pada akhirnya akan mempelajari kemampuan agent yang universal. Kemampuan perencanaan dan uji-coba yang dilatihnya dalam kode, matematika, halaman web, penggunaan alat, pada akhirnya akan ditransfer ke bidang-bidang seperti startup, manajemen organisasi, politik, hukum, penelitian ilmiah.
Tapi Dwarkesh meragukan hal ini.
Karena pengetahuan paling berharga di dunia nyata sering kali tidak muncul dalam cara yang jelas, dapat diverifikasi, dan dapat diulang. Mereka mungkin berasal dari satu umpan balik klien yang ambigu, satu rapat yang gagal, satu proses implisit internal organisasi, satu pola kegagalan yang hanya terungkap dalam tugas nyata. Untuk mempelajari hal-hal ini, model tidak bisa hanya mengandalkan "berlatih soal", tapi juga harus memiliki efisiensi sampel yang sejati.
Ini membawa diskusi ke poin terpenting dalam artikel ini: learning back to the weights, menuliskan kembali pembelajaran ke dalam bobot.
Model besar (large language model/LLM) saat ini sudah sangat mahir dalam in-context learning. Ia dapat membaca banyak bahan dalam konteks panjang, memahami latar belakang sebuah proyek, beradaptasi sementara dengan kebutuhan pengguna atau organisasi. Tapi masalahnya, pembelajaran ini sebagian besar hanya bertahan di dalam jendela konteks. Setelah sesi berakhir, model tidak selalu benar-benar "mengingatnya".
Dwarkesh menganggap ini sebagai pemborosan besar.
Karena sinyal pelatihan yang benar-benar berharga bagi model, justru muncul setelah model di-deploy. Model digunakan oleh pengguna nyata, masuk ke organisasi nyata, berpartisipasi dalam tugas nyata, dan terpapar kesalahan nyata. Ia akan melihat bagaimana perusahaan beroperasi secara internal, apa yang sebenarnya dilakukan orang dengannya, di mana tempat yang sering gagal, saran mana yang pada kenyataannya tidak bisa dijalankan.
Tapi jika pengalaman ini tidak dapat mengendap kembali ke bobot model, maka itu hanyalah adaptasi sementara dalam satu sesi, bukan pertumbuhan kemampuan jangka panjang.
Dia membuat analogi dengan pembelajaran manusia: Manusia tidak menjadi kuat dengan menghafal kata demi kata semua yang terjadi setiap hari. Seorang karyawan menjadi berguna setelah bekerja setengah tahun, bukan karena dia mengingat setiap email, setiap catatan rapat, tapi karena dia mengompresi pengalaman-pengalaman itu menjadi penilaian, intuisi, pemahaman proses, dan pola masalah.
Model juga seharusnya demikian.
Continual learning yang sejati, bukan memperbesar KV cache tanpa batas, juga bukan memasukkan semua riwayat ke dalam konteks, melainkan menyaring sedikit pengetahuan yang benar-benar berguna dari pengalaman nyata, lalu mengompresnya ke dalam bobot.
Inilah yang menurut Dwarkesh harus diselesaikan oleh paradigma pelatihan generasi berikutnya.
Lalu, bagaimana caranya secara konkret?
Dia menyebutkan satu arah yang sedang didiskusikan: on-policy self-distillation, disingkat OPSD.
Dapat dianggap secara kasar: Jadikan model yang telah mengumpulkan banyak pengalaman dalam sesi panjang sebagai "karyawan senior" atau guru (teacher); lalu latih model dasar, agar tanpa konteks lengkap ini pun, ia dapat membuat penilaian yang mirip dengan sang guru.
Dengan kata lain, mendistilasi hal-hal yang dipelajari model dalam satu tugas nyata melalui konteks, kembali ke bobot model itu sendiri.
Ini berbeda dengan SFT biasa. SFT paling sederhana mungkin hanya membuat model memprediksi token yang muncul dalam sesi, setara dengan menyuruhnya mengulang seluruh catatan kerja. Ini bukan pembelajaran yang efektif. Yang benar-benar penting bukan mengingat semua detail, melainkan menyaring wawasan-wawasan kunci yang dapat membantu model melakukan lebih baik lain kali.
Keunggulan OPSD adalah, ia tidak selalu membutuhkan imbalan eksternal yang dapat diverifikasi. Selama model dapat mempelajari hal yang berguna dalam konteks, kita dapat menjadikan "model setelah belajar" sebagai guru, dan membuat model dasar mendekatinya.
Sementara itu, dibandingkan RL biasa yang hanya memiliki reward akhir, OPSD dapat menyediakan sinyal pengawasan yang lebih padat. Ia dapat membandingkan perbedaan distribusi probabilitas guru dan siswa pada tingkat token, sehingga mengompres pengalaman langka dalam satu tugas nyata menjadi pembaruan bobot yang lebih kecil dan lebih tepat.
Selain OPSD, Dwarkesh juga mengusulkan arah lain: dreaming.
Dreaming di sini berarti AI, berdasarkan pengamatan dunia nyata, membangun sendiri sebuah lingkungan simulasi, lalu berlatih berulang kali di dalamnya, mencoba strategi, dan memperkuat perilaku yang efektif.
Kedengarannya mirip dengan model-based RL dalam tradisi pembelajaran penguatan, juga mirip dengan yang selalu ditekankan Sutton: agen mengumpulkan pengalaman melalui interaksi dengan lingkungan. Bedanya, Dwarkesh menempatkannya dalam konteks model besar dan deployment nyata.
Misalnya, setelah seorang AI mengamati suatu alur kerja bisnis di perusahaan nyata, ia tidak hanya menulis ringkasan, tetapi menghabiskan banyak komputasi untuk membangun "versi permainan lingkungan simulasi" dari alur kerja ini. Lalu ia menguji strategi komunikasi, jalur eksekusi, dan cara memajukan proyek yang berbeda di dalamnya, melihat apa yang lebih mungkin berhasil. Akhirnya, mengompres pengalaman yang didapat dari latihan simulasi ini kembali ke model.
Jika jalur ini terbukti berhasil, ia mungkin menjadi sumbu penskalaan (scaling axis) baru.
Di masa lalu, penskalaan AI terutama datang dari tiga sumbu: pretraining, RL, dan inference-time compute. Dwarkesh membayangkan, di masa depan mungkin akan ada sumbu keempat: test-time training, atau dreaming. Model tidak hanya melakukan inferensi, tetapi dalam proses inferensi dan eksekusi tugas, membangun lingkungan simulasi untuk pengguna, organisasi, atau proyek tertentu, dan melatih dirinya sendiri di dalamnya.
Ini juga mengapa di bagian komentar ada yang menyebut artikel David Silver dan Richard Sutton "Welcome to the Era of Experience": artikel itu juga menekankan, AI tidak bisa selamanya bergantung pada data manusia, kunci tahap selanjutnya adalah agen cerdas memperoleh pengalaman dari interaksinya sendiri dengan lingkungan.

Dwarkesh kemudian mengonkretkan penilaian makro ini ke dalam masalah pelatihan model besar saat ini: RLVR adalah tahap transisi penting, yang melatih model mengembangkan kemampuan agen dalam tugas yang dapat diverifikasi; tetapi untuk masuk ke dunia nyata yang lebih kompleks, model harus belajar terus-menerus dari deployment nyata, dan menuliskan pengalaman itu kembali ke bobot.
Dalam bayangan Dwarkesh di tahun 2027 atau 2028, alur pelatihan mungkin akan menjadi seperti ini:
- Pertama, RLVR melatih sebuah agent yang cukup kompeten. Agent ini dilempar ke masalah asing, setidaknya bisa memahami situasi, mencoba strategi berbeda, dan terus beriterasi setelah menemui hambatan;
- Kemudian, agent ini di-deploy ke dunia nyata, mulai melakukan pekerjaan nyata. Ia mungkin bekerja terus-menerus dengan pengguna selama seminggu, berpartisipasi dalam sebuah proyek yang tidak berada dalam distribusi pelatihan asli;
- Setelah seminggu, pengguna memberikannya thumbs up atau thumbs down, atau bahkan menulis evaluasi kerja. Jika hasilnya positif, model akan mendistilasi hal-hal yang dipelajari dalam tugas ini kembali ke model dasar. Proses ini mungkin menggunakan OPSD, mungkin menggunakan dreaming, atau mungkin menggunakan teknologi baru yang sekarang belum muncul.
Begitu jalur ini berjalan lancar, batas kemampuan AI tidak lagi dibatasi oleh "tugas yang dapat diverifikasi" awal itu.
Ia dapat pertama-tama mempelajari kode, matematika, tugas web, dan panggilan alat melalui RLVR; kemudian mempelajari manajemen organisasi, alur kerja bisnis, kolaborasi kompleks melalui deployment nyata; lalu dari pengalaman-pengalaman ini, terus meluas ke bidang yang berdekatan.
Ini juga berarti, sumber utama kemajuan AI mungkin akan berubah.
Di masa lalu, sebuah model dilatih sebelum dirilis, pengguna hanya menggunakannya. Model generasi berikutnya mungkin: dilatih dulu menjadi agent dasar sebelum dirilis, lalu terus belajar melalui banyak tugas nyata setelah dirilis. Setiap interaksi dengan pengguna, setiap eksekusi proyek nyata, setiap kegagalan dan perbaikan, mungkin menjadi bahan peningkatan kemampuan pada putaran berikutnya.
Jadi, yang dimaksud Dwarkesh dengan "paradigma pelatihan generasi berikutnya", bukan sekadar mengatakan model harus lebih besar, data harus lebih banyak, RL harus lebih kuat.
Ini benar-benar mengarah pada: AI bergerak dari pelatihan pra-rilis, menuju pembelajaran pasca-rilis; dari data manusia, menuju pengalaman lingkungan; dari adaptasi sementara dalam konteks, menuju kemampuan jangka panjang dalam bobot.
Data pelatihan AI terpenting di masa depan, mungkin tidak lagi hanya teks yang sudah ada di internet, juga bukan hanya tugas yang dapat diverifikasi yang dibangun di laboratorium, melainkan pengalaman yang dikumpulkan sendiri oleh AI saat menyelesaikan tugas nyata di dunia nyata.
Tautan Referensi:
https://x.com/dwarkesh_sp/status/2070551894674555081
Artikel ini dari akun WeChat resmi "机器之心" (ID:almosthuman2014), penulis: 关注AI训练






