Penerima Turing Award Sutton Karya Baru: Selesaikan Kelemahan Besar Pembelajaran Penguatan Streaming dengan Formula 1967

marsbitDipublikasikan tanggal 2026-05-10Terakhir diperbarui pada 2026-05-10

Abstrak

Sebuah makalah baru oleh Arsalan Sharifnassab dkk. (termasuk pemenang Turing Award Richard Sutton) mengatasi "rintangan aliran" (*stream barrier*) dalam pembelajaran penguatan (*reinforcement learning*) secara mendalam. Masalahnya adalah ketidakmampuan belajar "langkah demi langkah" (*online/streaming*) dengan ukuran *batch*=1 dan tanpa *buffer replay*. Alasannya adalah langkah pembelajaran (*step-size*) tradisional hanya mengontrol seberapa besar parameter bergerak, bukan perubahan pada keluaran fungsi, sehingga menyebabkan pembaruan yang tidak stabil. Solusinya disebut **"Intentional Updates" (Pembaruan Berdasarkan Niat)**, sebuah ide yang meluas dari algoritma NLMS tahun 1967. Alih-alih menetapkan ukuran langkah untuk parameter, metode ini menetapkan **"niat"** untuk mengubah *output* fungsi—seperti memperkecil kesalahan prediksi nilai sebesar 5%—lalu menghitung mundur ukuran langkah yang diperlukan. Ini menghasilkan algoritma seperti Intentional TD, Intentional Q, dan Intentional Policy Gradient. Dalam eksperimen, metode ini mencocokkan kinerja algoritma canggih seperti SAC (dalam kontrol berkelanjutan) dan DQN (pada permainan Atari) dalam pengaturan *streaming*, dengan komputasi yang jauh lebih ringan (1/140 FLOP SAC) dan tanpa banyak penyesuaian hiperparameter. Kerangka kerja ini lebih tangguh dan mengurangi ketergantungan pada trik stabilisasi, meskipun ada masalah bias yang perlu ditangani dalam pembelajaran kebijakan. Pendekatan ini membuka jalan untuk sistem AI ...

Akhir 2024, sebuah makalah berjudul "Streaming Deep Reinforcement Learning Finally Works" (arXiv:2410.14606) memicu diskusi luas di kalangan akademik. Penulisnya dari tim Mahmood di University of Alberta, mereka menghabiskan banyak halaman menggambarkan kenyataan yang memalukan: Reinforcement Learning (RL) sebagai metode yang seharusnya 'belajar sambil berjalan', di era jaringan saraf dalam hampir tidak dapat melakukannya. Hanya dengan menghapus replay buffer, atau menetapkan ukuran batch menjadi 1, pelatihan akan gagal. Mereka menyebutnya sebagai "stream barrier" (penghalang streaming).

Makalah tersebut mengusulkan algoritma seri StreamX, yang mengandalkan pengaturan hyperparameter yang sangat halus, inisialisasi sparse, dan berbagai trik stabilisasi, baru bisa melampaui tembok ini.

Namun, kurang dari satu setengah tahun kemudian, seorang anggota dari kelompok penelitian yang sama, bersama dengan kolaborator dari Openmind Research, memberikan jawaban yang sangat berbeda: Akar dari stream barrier bukanlah "data tidak cukup", melainkan "satuan langkah yang salah".

Judul Makalah: Intentional Updates for Streaming Reinforcement Learning

Alamat Makalah: https://arxiv.org/pdf/2604.19033v1

Repositori Kode: https://github.com/sharifnassab/Intentional_RL

Menekan Gas, Seberapa Besar Lubang yang Terbuka

Bayangkan Anda sedang belajar parkir mobil. Pelatih memberi tahu Anda untuk "menginjak gas selama 0,1 detik" setiap kali. Masalahnya, meskipun menginjak 0,1 detik yang sama, di tanjakan, turunan, kosong, atau penuh, jarak mobil bergerak bisa sangat berbeda. Kadang kurang satu sentimeter tepat masuk, kadang kurang 30 sentimeter langsung menabrak.

Langkah pembelajaran gradien tradisional melakukan hal yang persis sama: ia menentukan seberapa besar parameter bergerak setiap kali, tetapi sama sekali tidak mengendalikan berapa banyak output fungsi yang sebenarnya berubah. Dalam pelatihan batch, rata-rata kesalahan dari ratusan hingga ribuan sampel mengencerkan kasus ekstrem, masalahnya tidak terlalu terlihat. Tetapi dalam lingkungan "streaming", setiap langkah hanya memiliki satu sampel, tidak ada rata-rata. Begitu arah gradien tidak stabil, magnitudo pembaruan akan besar-kecil secara tidak menentu — hari ini maju 30 cm, besok mundur 50 cm, proses pembelajaran runtuh dalam osilasi yang keras.

Fenomena "overshooting and undershooting" ini sangat parah dalam reinforcement learning, karena gradien pada setiap time step tidak hanya memiliki magnitudo yang berbeda, tetapi arahnya juga berubah dengan sangat cepat.

Mendefinisikan Ulang "Seberapa Banyak Satu Langkah Harus Dilakukan"

Arsalan Sharifnassab dari Openmind Research, bersama Mohamed Elsayed, A. Rupam Mahmood, dan Richard Sutton dari University of Alberta, dalam makalah yang baru diterbitkan mengusulkan solusi untuk berpikir dari sudut pandang lain: Daripada menentukan seberapa banyak parameter bergerak, lebih baik menentukan secara langsung seberapa banyak output fungsi yang harus berubah.

Ide ini tidak muncul begitu saja. Pada tahun 1967, ilmuwan Jepang Nagumo dan Noda dalam makalah "A learning method for system identification" telah mengusulkan algoritma "Normalized Least Mean Squares" (NLMS) dalam bidang adaptive filtering; pada dasarnya juga menggunakan perubahan output yang diharapkan untuk menghitung mundur langkah, bukan sebaliknya. Hanya saja algoritma itu hanya berlaku untuk skenario linear sederhana.

Para peneliti menggeneralisasi ide ini ke dalam deep reinforcement learning. Mereka menyebutnya sebagai "Intentional Updates" (Pembaruan Intensional): Sebelum setiap pembaruan, tentukan dulu "apa yang ingin saya capai dengan langkah ini", kemudian hitung mundur langkah yang seharusnya digunakan.

Untuk pembelajaran nilai (yaitu memprediksi reward masa depan), mereka mendefinisikan intensi sebagai: Setelah setiap pembaruan, kesalahan prediksi nilai state saat ini harus menyusut dengan proporsi tetap — misalnya menyusut 5%, tidak lebih dan tidak kurang. Untuk pembelajaran kebijakan (yaitu mengoptimalkan keputusan tindakan), mereka mendefinisikan intensi sebagai: Probabilitas pemilihan tindakan saat ini hanya diperbolehkan berubah dengan jumlah yang "moderat" setiap langkah.

Dengan analogi mengemudi: Ini seperti pengemudi memutuskan sebelum setiap operasi "Saya ingin mobil bergerak maju 20 cm", kemudian secara otomatis menghitung seberapa dalam gas harus diinjak berdasarkan kondisi jalan saat ini (kemiringan, muatan), daripada menginjak kedalaman yang sama setiap kali dan menyerahkannya pada nasib.

Penerima Turing Award dan Teka-tekinya

Salah satu penandatangan makalah adalah Richard S. Sutton — penerima Turing Award 2024, yang secara luas disebut sebagai "Bapak Reinforcement Learning Modern".

Posisi Sutton di dunia akademis kira-kira setara dengan Feynman dalam fisika: Dia tidak hanya mengusulkan pembelajaran selisih waktu (TD learning) dan gradien kebijakan (policy gradient), dua kerangka dasar RL modern, tetapi juga bersama Andrew Barto menulis buku teks paling otoritatif di bidang ini, "Reinforcement Learning: An Introduction" (sekarang edisi kedua, dapat dibaca online gratis). Dia dan Barto berbagi Turing Award 2024, dengan kata-kata penghargaan "untuk meletakkan dasar konseptual dan algoritmik bagi reinforcement learning".

Setelah mendapat penghargaan, Sutton tidak memilih pensiun, tetapi menginvestasikan hadiahnya untuk mendirikan Openmind Research, khusus mendanai para peneliti muda yang bersedia "mengeksplorasi masalah mendasar dalam lingkungan tanpa tekanan komersialisasi". Makalah baru ini lahir dari lembaga nirlaba ini.

Dan penulis pertama Sharifnassab, sebelumnya baru saja menerbitkan kerangka MetaOptimize di ICML 2025, mempelajari cara menyesuaikan learning rate secara online dan otomatis. Fokus kedua topik ini sangat konsisten: bagaimana membuat langkah itu sendiri menjadi lebih cerdas.

Detail Algoritma: Lebih Sederhana dari yang Dibayangkan

Penurunan matematis dari "intentional updates" tidak rumit, rumus intinya dapat digambarkan dalam satu kalimat: Langkah sama dengan "jumlah perubahan output yang diharapkan" dibagi dengan "pengaruh aktual arah gradien terhadap output".

Dalam pembelajaran nilai, "pengaruh aktual" ini adalah norma vektor gradien (setara dengan mengukur seberapa "curam" area parameter saat ini): semakin curam, semakin kecil langkahnya; semakin datar, semakin besar langkahnya, sehingga memastikan dampak setiap pembaruan terhadap fungsi nilai tetap konsisten.

Dalam pembelajaran kebijakan, "jumlah perubahan yang diharapkan" didefinisikan sebanding dengan fungsi keunggulan (advantage function): seberapa baik tindakan saat ini dibandingkan rata-rata, kebijakan bergerak ke arah itu sebanyak itu — dinormalisasi besarnya dengan running average, memastikan bahwa dalam jangka panjang, besarnya perubahan kebijakan stabil dalam rentang yang dapat dijelaskan.

Para peneliti juga menggabungkan ide inti ini dengan dua praktik rekayasa: penskalaan diagonal gaya RMSProp (menangani perbedaan skala dimensi parameter yang berbeda) dan eligibility traces (membantu sinyal reward menyebar ke time step sebelumnya).

Akhirnya membentuk tiga algoritma lengkap: Intentional TD (λ) untuk prediksi nilai, Intentional Q (λ) untuk kontrol tindakan diskrit, dan Intentional Policy Gradient untuk kontrol kontinu.

Hasil Eksperimen: Bisa Menyamai SAC Tanpa GPU

Makalah ini mengevaluasi metode ini di beberapa benchmark standar, dan hasilnya sangat mengesankan.

Pada tugas kontrol kontinu MuJoCo (termasuk robot simulasi kompleks seperti Ant, Humanoid, HalfCheetah), metode baru Intentional AC dalam pengaturan streaming (ukuran batch = 1, tanpa replay buffer) kinerja akhirnya berulang kali mendekati bahkan menyaingi SAC — sebuah algoritma yang menggunakan replay buffer batch besar, hampir menjadi standar emas untuk tugas kontrol kontinu saat ini. Dalam hal komputasi, operasi floating point yang dibutuhkan untuk setiap pembaruan Intentional AC hanya sekitar 1/140 dari satu pembaruan SAC.

Pada permainan dengan tindakan diskrit Atari dan MinAtar, kinerja Intentional Q-learning juga setara dengan DQN yang menggunakan replay buffer, dan berhasil menjalankan semua tugas dengan setelan hyperparameter yang sama, tanpa perlu penyesuaian satu per satu.

Para peneliti juga secara khusus memverifikasi apakah "intensi" benar-benar tercapai: Mereka mengukur rasio jumlah pembaruan aktual dengan jumlah yang diharapkan. Dalam pengaturan sederhana dengan traces tidak diaktifkan, deviasi standar rasio ini hanya 0,016 hingga 0,029, persentil ke-99 berada dalam 1,07; artinya dalam sebagian besar kasus, pembaruan memang melakukan "apa yang dikatakan akan dilakukan".

Selain itu, satu set eksperimen ablasi menunjukkan bahwa menghilangkan normalisasi RMSProp atau istilah σ menyebabkan penurunan kinerja tetapi masih kompetitif, dan "penskalaan intensi" ini sendiri adalah kontributor utama, komponen lainnya hanyalah penunjang.

Masih Ada Masalah

Kerangka "intentional updates" juga menunjukkan keunggulan yang jelas dalam hal ketangguhan. Ketika para peneliti satu per satu menghilangkan berbagai trik stabilisasi tambahan yang menjadi sandaran metode StreamX (inisialisasi sparse, penskalaan reward, normalisasi input, LayerNorm), degradasi kinerja Intentional AC jelas lebih sedikit daripada StreamAC asli, menunjukkan bahwa penskalaan intensi mengurangi ketergantungan pada "tongkat penyangga" eksternal dari akarnya.

Namun, makalah ini juga secara jujur mengakui masalah yang belum sepenuhnya terpecahkan: Dalam pembelajaran kebijakan, langkah bergantung pada tindakan yang di-sampel saat ini, yang secara implisit memberikan "bobot" yang berbeda pada tindakan yang berbeda, mungkin mengubah arah yang diharapkan dari gradien kebijakan. Dalam tugas Humanoid dan HumanoidStandup, dengan mengukur kesamaan kosinus arah pembaruan yang diharapkan, para peneliti menemukan bias ini mendekati 0,96 pada fase pembelajaran kritis (hampir tidak berpengaruh); tetapi di Ant-v4, keselarasan turun ke median 0,63, menunjukkan bahwa masalah tidak selalu bisa diabaikan.

Penulis menunjukkan bahwa penelitian di masa depan harus mencari strategi pemilihan langkah yang tidak bergantung pada tindakan, sehingga "intensi" juga tetap tidak bias dalam arti harapan. Ini adalah pekerjaan rumah yang jelas bagi para peneliti berikutnya dalam arah ini.

Kesimpulan: Membuat AI Belajar Sambil Bertindak Seperti Manusia

Paradigma pelatihan model besar saat ini bergantung pada pencernaan batch data dalam jumlah besar: memasukkan semua teks dan kode dari internet, mengulanginya berulang kali, akhirnya memunculkan kemampuan yang menakjubkan. Rute ini telah terbukti efektif, tetapi pada dasarnya adalah "belajar dulu baru digunakan": setelah pelatihan selesai, model dibekukan, tidak dapat terus diperbarui dari setiap interaksi aktual berikutnya.

Apa yang dikejar oleh pembelajaran penguatan streaming adalah mode pembelajaran yang sangat berbeda: tidak bergantung pada replay massal, tidak bergantung pada kluster GPU besar, setiap langkah pengalaman segera diubah menjadi pembaruan parameter, berkelanjutan, murah, dan adaptif. Ini lebih mendekati cara belajar manusia dan hewan yang sebenarnya.

Dari terobosan awal Elsayed dkk. pada 2024 yang "akhirnya berhasil", hingga prinsip "intentional updates" yang diusulkan dalam makalah ini, pembelajaran penguatan dalam streaming sedang menuju kematangan dengan kecepatan yang mengejutkan. Ia tidak akan menggantikan model besar yang dilatih secara batch, tetapi untuk robot yang membutuhkan adaptasi online jangka panjang, perangkat edge, dan skenario aplikasi apa pun yang tidak mampu menanggung buffer replay dan kluster GPU skala besar, jalur ini semakin meyakinkan.

Langkah bukan hanya hyperparameter, itu adalah janji AI tentang "berapa banyak yang ingin dilakukan" setiap langkah. Ketika janji ini akhirnya dapat dikendalikan, pembelajaran itu sendiri menjadi stabil.

Artikel ini berasal dari akun WeChat "机器之心" (ID: almosthuman2014), penulis: 关注RL的

Pertanyaan Terkait

QApa yang dimaksud dengan 'stream barrier' dalam konteks pembelajaran penguatan (reinforcement learning) yang dibahas dalam artikel?

ADalam artikel, 'stream barrier' mengacu pada kenyataan memalukan bahwa pembelajaran penguatan, yang seharusnya secara alami mampu belajar 'sambil berjalan', hampir tidak dapat melakukannya di era jaringan saraf dalam. Jika buffer replay dihapuskan dan ukuran batch diatur menjadi 1, pelatihan akan gagal total. Hambatan ini disebut sebagai 'stream barrier' atau penghalang aliran.

QMenurut penelitian terbaru yang melibatkan Richard Sutton, apa akar penyebab dari 'stream barrier' tersebut?

AMenurut penelitian terbaru tersebut, akar penyebab 'stream barrier' bukanlah 'data yang tidak cukup', melainkan 'satuan yang salah dalam memilih ukuran langkah pembelajaran'. Masalahnya terletak pada fakta bahwa langkah pembelajaran tradisional menentukan seberapa besar parameter bergerak, tetapi tidak mengontrol seberapa besar keluaran fungsi benar-benar berubah, yang menyebabkan ketidakstabilan dalam lingkungan streaming.

QApa itu 'Intentional Updates' (Pembaruan Intensional) yang diusulkan dalam penelitian ini, dan bagaimana cara kerjanya?

A'Intentional Updates' adalah kerangka kerja yang diusulkan di mana alih-alih menentukan seberapa banyak parameter harus bergerak, peneliti langsung menentukan seberapa banyak keluaran fungsi yang diinginkan untuk berubah. Caranya adalah dengan menetapkan 'niat' terlebih dahulu (misalnya, mengurangi kesalahan prediksi nilai sebesar 5% per pembaruan), lalu menghitung mundur ukuran langkah pembelajaran yang diperlukan untuk mencapai perubahan keluaran yang diinginkan tersebut.

QBagaimana performa algoritma 'Intentional AC' dibandingkan dengan algoritma SAC (Soft Actor-Critic) yang dianggap sebagai standar emas?

ADalam pengaturan streaming (ukuran batch = 1, tanpa buffer replay), algoritma Intentional AC menunjukkan kinerja akhir yang mendekati atau bahkan menyamai SAC di berbagai tugas kendali berkelanjutan seperti Ant dan Humanoid. Yang lebih mengesankan, setiap pembaruan Intentional AC hanya membutuhkan sekitar 1/140 dari operasi floating-point yang dibutuhkan oleh satu pembaruan SAC, menjadikannya sangat efisien secara komputasi.

QMasalah apa yang masih diakui oleh peneliti dalam kerangka 'Intentional Updates' untuk pembelajaran kebijakan (policy learning)?

AMasalah yang diakui adalah bahwa dalam pembelajaran kebijakan, ukuran langkah bergantung pada aksi yang diambil sampel saat ini. Hal ini dapat secara implisit memberikan 'bobot' yang berbeda pada aksi yang berbeda, yang berpotensi mengubah arah yang diharapkan dari gradien kebijakan. Meskipun dampaknya kecil di banyak tugas, dalam beberapa kasus seperti Ant-v4, penyelarasan arah pembaruan yang diharapkan berkurang, menunjukkan bias yang perlu ditangani di penelitian mendatang.

Bacaan Terkait

Undang-Undang CLARITY: Asosiasi Perbankan Dorong Revisi Perjanjian Hasil (Yield) – Detail

Kelompok perdagangan perbankan AS mendesak amendemen pada kompromi imbal hasil (yield) stablecoin dalam RUU CLARITY yang dinantikan, menjelang tahap mark-up minggu depan. RUU tersebut bertujuan melarang semua bentuk bunga pasif seperti deposito pada stablecoin untuk mencegah persaingan dengan tabungan bank tradisional, namun mengizinkan imbalan terkait aktivitas nyata seperti staking. Dalam surat terbaru, asosiasi perbankan mengusulkan revisi bahasa di Bagian 404(c)(1) RUU, mengganti frasa "kesetaraan fungsional dan ekonomi" dengan "secara substansial serupa" untuk memperjelas pelarangan dan mencegah penerbangan dana dari institusi keuangan tradisional. Mereka juga merekomendasikan penghapusan satu subsection yang dinilai ambigu. Namun, upaya revisi ini dilaporkan mendapat tanggapan minimal dari para pembuat undang-undang, dengan seorang asisten Senat menyebutnya "cukup lemah". Sementara itu, Komite Perbankan Senat dijadwalkan mengadakan sesi mark-up untuk RUU CLARITY pada 14 Mei, sebagai langkah kunci sebelum proses voting di Senat dan DPR.

bitcoinist1j yang lalu

Undang-Undang CLARITY: Asosiasi Perbankan Dorong Revisi Perjanjian Hasil (Yield) – Detail

bitcoinist1j yang lalu

CEO Keuangan Ini Memilih Solana Daripada Bitcoin — Inilah Alasannya

CEO Keuangan Raoul Pal menyatakan preferensi jelas untuk Solana atas Bitcoin, bukan sebagai perbandingan aset sederhana, melainkan terkait visi fase berikutnya industri crypto. Ia percaya bahwa masa depan industri ini akan dipimpin oleh jaringan berkecepatan tinggi untuk aktivitas massal, bukan hanya peran Bitcoin sebagai penyimpan nilai. Pal menjelaskan pilihannya didasari oleh peluang pertumbuhan tinggi di era AI. Solana dengan throughput tinggi dan biaya transaksi rendah dinilai lebih cocok untuk transaksi mikro mesin-ke-mesin, aktivitas berbasis AI, dan interaksi DeFi yang cepat. Sementara Bitcoin berfungsi terutama sebagai aset moneter. Ia memprediksi bahwa dalam lima tahun, agen AI akan membentuk 60% pengguna DeFi, melampaui pengguna manusia. Jaringan seperti Solana yang mampu memproses transaksi frekuensi tinggi dan berbiaya rendah dianggap penting untuk mendukung gelombang pengguna otomatis ini. Pandangan Pal ini sejalan dengan tema utama Konferensi Consensus 2026, yang berfokus pada agen AI, DeFi, dan infrastruktur crypto institusional, menandakan pergeseran diskusi industri ke arah utilitas dan adopsi teknologi baru.

bitcoinist1j yang lalu

CEO Keuangan Ini Memilih Solana Daripada Bitcoin — Inilah Alasannya

bitcoinist1j yang lalu

GensynAI : Jangan Biarkan AI Mengulangi Kesalahan Internet

Beberapa bulan terakhir, banyak talenta dari industri kripto beralih ke AI karena pesatnya perkembangan industri kecerdasan buatan. Para peneliti yang bergerak di kedua bidang ini terus mengeksplorasi satu pertanyaan yang belum terjawab: **Bisakah blockchain menjadi bagian dari infrastruktur AI?** Proyek yang menggabungkan AI dan Crypto, seperti AI Agent, on-chain reasoning, pasar data, dan penyewaan daya komputasi, telah banyak bermunculan. Namun, sebagian besar masih berada di "lapisan aplikasi AI" dan belum membentuk closed-loop bisnis yang nyata. Berbeda dengan itu, **Gensyn** justru menyasar lapisan paling inti dan mahal dalam industri AI: **pelatihan model**. Gensyn bertujuan untuk mengorganisir sumber daya GPU yang tersebar secara global menjadi jaringan pelatihan AI terbuka. Pengembang dapat mengirimkan tugas pelatihan, node menyediakan daya komputasi, dan jaringan bertugas memverifikasi hasil pelatihan serta mendistribusikan insentif. Nilai utama di balik ini bukan semata-mata "desentralisasi", melainkan solusi atas masalah mendesak dalam industri AI: **sumber daya komputasi (GPU) yang semakin terkonsentrasi di tangan segelintir raksasa teknologi.** Kelangkaan pasokan H100, kenaikan harga layanan cloud, dan persaingan ketat untuk mengunci sumber daya komputasi menunjukkan bahwa kepemilikan GPU kini menjadi penentu kecepatan pengembangan AI, terutama di era model besar (large models). **Mengapa Gensyn Menarik Perhatian?** 1. **Menyasar Lapisan Infrastruktur Inti AI:** Gensyn langsung masuk ke dalam proses pelatihan model, bagian yang paling menantang secara teknis dan paling banyak mengonsumsi sumber daya. Ini adalah lapisan yang mudah membentuk hambatan platform (platform壁垒). Jika jaringan pelatihannya mencapai skala, ia berpotensi menjadi pintu masuk penting bagi pengembangan AI di masa depan. 2. **Menawarkan Model Kolaborasi Komputasi yang Lebih Terbuka:** Berbeda dengan ketergantungan pada platform cloud terpusat yang biayanya terus naik, Gensyn mengusung model yang memanfaatkan GPU menganggur dan menjadwalkan sumber daya komputasi secara dinamis. Ini dapat meningkatkan efisiensi penggunaan daya komputasi secara keseluruhan dan mengurangi hambatan inovasi bagi tim AI kecil-menengah. 3. **Tingkat Kesulitan Teknis sebagai Keunggulan:** Tantangan sebenarnya bukan sekadar menghubungkan GPU, tetapi **cara memverifikasi hasil pelatihan, memastikan kejujuran node, dan menjaga keandalan pelatihan di lingkungan terdistribusi.** Gensyn fokus pada solusi teknis ini (seperti mekanisme verifikasi probabilistik, model distribusi tugas), menjadikannya lebih mirip perusahaan infrastruktur teknologi mendalam (deep tech). 4. **Memiliki Closed-Loop Bisnis Nyata:** Kebutuhan akan pelatihan AI adalah pasar nyata yang terus berkembang, dengan celah pasokan GPU yang berkelanjutan. Gensyn tidak sekadar menambahkan blockchain untuk kepentingannya sendiri, tetapi menjawab kebutuhan industri akan sistem penjadwalan sumber daya yang lebih fleksibel dan terbuka. Singkatnya, batas antara Crypto (sistem finansial) dan AI (sistem teknologi) semakin kabur. AI membutuhkan koordinasi sumber daya, mekanisme insentif, dan kolaborasi global—hal-hal yang menjadi keahlian Crypto. Gensyn mewakili upaya untuk membuka akses kemampuan pelatihan, yang selama ini dikuasai sedikit perusahaan besar, menjadi sistem yang lebih terbuka dan dapat dikolaborasikan. Inisiatif ini tidak lagi sekadar cerita konsep, tetapi berkembang menuju infrastruktur AI nyata, di mana perusahaan paling bernilai di era AI sering kali lahir dari lapisan infrastruktur.

marsbit2j yang lalu

GensynAI : Jangan Biarkan AI Mengulangi Kesalahan Internet

marsbit2j yang lalu

Mengapa AI China Berkembang Begitu Cepat? Jawabannya Tersembunyi di Dalam Laboratorium

Pengarang mencatat bahwa laboratorium AI China telah menjadi kekuatan yang semakin sulit diabaikan dalam kompetisi model besar global. Keunggulannya tidak hanya terletak pada banyaknya talenta, kemampuan rekayasa yang kuat, dan iterasi cepat, tetapi juga berasal dari cara organisasi yang sangat realistis: lebih banyak fokus pada pembuatan model daripada konsep, lebih menekankan eksekusi tim daripada individu bintang, dan lebih memilih menguasai tumpukan teknologi inti sendiri daripada bergantung pada layanan eksternal. Dari kunjungan ke sejumlah laboratorium AI terkemuka China, penulis menemukan ekosistem AI China tidak sepenuhnya sama dengan AS. AS lebih menekankan orisinalitas, investasi modal, dan pengaruh ilmuwan puncak, sedangkan China lebih mahir dalam mengejar cepat arah yang sudah ada. Melalui sumber terbuka, optimasi rekayasa, dan kontribusi banyak peneliti muda, China mendorong kemampuan model ke garis depan dengan cepat. Yang paling menarik untuk diperhatikan bukanlah apakah AI China telah melampaui AS, melainkan dua jalur pengembangan berbeda yang terbentuk: AS lebih seperti kompetisi garis depan yang digerakkan modal dan laboratorium bintang, sedangkan China lebih seperti kompetisi industri yang didorong oleh kemampuan rekayasa, ekosistem sumber terbuka, dan kesadaran penguasaan teknologi mandiri. Ini berarti kompetisi AI di masa depan tidak hanya soal peringkat model, tetapi juga kemampuan organisasi, ekosistem pengembang, dan eksekusi industri. Perubahan nyata AI China terletak pada cara mereka berpartisipasi dalam garis depan global dengan caranya sendiri, bukan hanya meniru Silicon Valley. Penulis juga menyoroti beberapa perbedaan utama dalam ekosistem AI China: permintaan AI domestik mulai muncul, banyak pengembang terpengaruh Claude, perusahaan memiliki mentalitas kepemilikan teknologi, ada dukungan pemerintah meski skalanya belum jelas, industri data kurang berkembang dibanding Barat, dan ada kebutuhan kuat akan chip NVIDIA lebih banyak. Penutupnya menekankan pentingnya ekosistem global yang terbuka dan kolaboratif untuk menciptakan AI yang lebih aman, mudah diakses, dan bermanfaat bagi dunia.

marsbit3j yang lalu

Mengapa AI China Berkembang Begitu Cepat? Jawabannya Tersembunyi di Dalam Laboratorium

marsbit3j yang lalu

3 Tahun 5 Kali Lipat, Pabrik Kaca Berusia Satu Abad Dibangkitkan Kembali

Menurut CRU, permintaan serat optik untuk pusat data AI meningkat 75.9% per tahun, dan kesenjangan pasokan-meningkat dari 6% menjadi 15%. Harga serat optik melonjak lebih dari 3 kali lipat dalam beberapa bulan, dan kapasitas produksi tidak dapat mengimbangi. Inilah alasan NVIDIA berinvestasi di Corning dan mempercepat ekspansi kapasitas serat optik, dengan total investasi $45 miliar dalam tiga perusahaan di seluruh rantai optik. Corning, perusahaan kaca berusia 175 tahun dari New York, melihat sahamnya naik 316.81% dalam setahun terakhir, mencapai kapitalisasi pasar $160 miliar. NVIDIA memilih Corning karena keahliannya dalam serat optik khusus berkinerja tinggi yang penting untuk pusat data AI, seperti serat dengan kehilangan sinyal ultra-rendah (0.15 dB/km), kepadatan tinggi, dan ketahanan tekuk yang baik. Penghasilan Corning dari segmen komunikasi optik untuk perusahaan (Enterprise) melonjak dari $1.3 miliar pada 2023 menjadi lebih dari $3 miliar pada 2025. Perusahaan telah mengamankan kontrak pasokan jangka panjang bernilai miliaran dolar dari klien seperti Meta dan NVIDIA. Meskipun bukan produsen serat optik terbesar secara global, keunggulan teknis Corning di pasar serat canggih untuk AI, ditambah dengan investasi R&D tahunan sebesar $1 miliar, memberinya posisi unik. Percepatan adopsi teknologi **CPO (Co-Packaged Optics)** oleh NVIDIA, yang dijadwalkan mulai produksi massal pada paruh kedua 2026, menjadi katalis penting bagi permintaan serat optik premium Corning. Namun, valuasi sahamnya yang telah melonjak pesat dan potensi keterlambatan dalam eksekusi pesanan menjadi faktor risiko yang perlu diperhatikan.

marsbit4j yang lalu

3 Tahun 5 Kali Lipat, Pabrik Kaca Berusia Satu Abad Dibangkitkan Kembali

marsbit4j yang lalu

Trading

Spot

Futures

Penerima Turing Award Sutton Karya Baru: Selesaikan Kelemahan Besar Pembelajaran Penguatan Streaming dengan Formula 1967

Abstrak

Menekan Gas, Seberapa Besar Lubang yang Terbuka

Penerima Turing Award dan Teka-tekinya

Detail Algoritma: Lebih Sederhana dari yang Dibayangkan

Hasil Eksperimen: Bisa Menyamai SAC Tanpa GPU

Masih Ada Masalah

Kesimpulan: Membuat AI Belajar Sambil Bertindak Seperti Manusia

Pertanyaan Terkait

Bacaan Terkait

Undang-Undang CLARITY: Asosiasi Perbankan Dorong Revisi Perjanjian Hasil (Yield) – Detail

CEO Keuangan Ini Memilih Solana Daripada Bitcoin — Inilah Alasannya

GensynAI : Jangan Biarkan AI Mengulangi Kesalahan Internet

Mengapa AI China Berkembang Begitu Cepat? Jawabannya Tersembunyi di Dalam Laboratorium

3 Tahun 5 Kali Lipat, Pabrik Kaca Berusia Satu Abad Dibangkitkan Kembali

Trading

Kategori Populer

Tag Populer