Penerima Turing Award Sutton Karya Baru: Selesaikan Kelemahan Besar Pembelajaran Penguatan Streaming dengan Formula 1967

marsbitDipublikasikan tanggal 2026-05-10Terakhir diperbarui pada 2026-05-10

Abstrak

Sebuah makalah baru oleh Arsalan Sharifnassab dkk. (termasuk pemenang Turing Award Richard Sutton) mengatasi "rintangan aliran" (*stream barrier*) dalam pembelajaran penguatan (*reinforcement learning*) secara mendalam. Masalahnya adalah ketidakmampuan belajar "langkah demi langkah" (*online/streaming*) dengan ukuran *batch*=1 dan tanpa *buffer replay*. Alasannya adalah langkah pembelajaran (*step-size*) tradisional hanya mengontrol seberapa besar parameter bergerak, bukan perubahan pada keluaran fungsi, sehingga menyebabkan pembaruan yang tidak stabil. Solusinya disebut **"Intentional Updates" (Pembaruan Berdasarkan Niat)**, sebuah ide yang meluas dari algoritma NLMS tahun 1967. Alih-alih menetapkan ukuran langkah untuk parameter, metode ini menetapkan **"niat"** untuk mengubah *output* fungsi—seperti memperkecil kesalahan prediksi nilai sebesar 5%—lalu menghitung mundur ukuran langkah yang diperlukan. Ini menghasilkan algoritma seperti Intentional TD, Intentional Q, dan Intentional Policy Gradient. Dalam eksperimen, metode ini mencocokkan kinerja algoritma canggih seperti SAC (dalam kontrol berkelanjutan) dan DQN (pada permainan Atari) dalam pengaturan *streaming*, dengan komputasi yang jauh lebih ringan (1/140 FLOP SAC) dan tanpa banyak penyesuaian hiperparameter. Kerangka kerja ini lebih tangguh dan mengurangi ketergantungan pada trik stabilisasi, meskipun ada masalah bias yang perlu ditangani dalam pembelajaran kebijakan. Pendekatan ini membuka jalan untuk sistem AI ...

Akhir 2024, sebuah makalah berjudul "Streaming Deep Reinforcement Learning Finally Works" (arXiv:2410.14606) memicu diskusi luas di kalangan akademik. Penulisnya dari tim Mahmood di University of Alberta, mereka menghabiskan banyak halaman menggambarkan kenyataan yang memalukan: Reinforcement Learning (RL) sebagai metode yang seharusnya 'belajar sambil berjalan', di era jaringan saraf dalam hampir tidak dapat melakukannya. Hanya dengan menghapus replay buffer, atau menetapkan ukuran batch menjadi 1, pelatihan akan gagal. Mereka menyebutnya sebagai "stream barrier" (penghalang streaming).

Makalah tersebut mengusulkan algoritma seri StreamX, yang mengandalkan pengaturan hyperparameter yang sangat halus, inisialisasi sparse, dan berbagai trik stabilisasi, baru bisa melampaui tembok ini.

Namun, kurang dari satu setengah tahun kemudian, seorang anggota dari kelompok penelitian yang sama, bersama dengan kolaborator dari Openmind Research, memberikan jawaban yang sangat berbeda: Akar dari stream barrier bukanlah "data tidak cukup", melainkan "satuan langkah yang salah".

Judul Makalah: Intentional Updates for Streaming Reinforcement Learning

Alamat Makalah: https://arxiv.org/pdf/2604.19033v1

Repositori Kode: https://github.com/sharifnassab/Intentional_RL

Menekan Gas, Seberapa Besar Lubang yang Terbuka

Bayangkan Anda sedang belajar parkir mobil. Pelatih memberi tahu Anda untuk "menginjak gas selama 0,1 detik" setiap kali. Masalahnya, meskipun menginjak 0,1 detik yang sama, di tanjakan, turunan, kosong, atau penuh, jarak mobil bergerak bisa sangat berbeda. Kadang kurang satu sentimeter tepat masuk, kadang kurang 30 sentimeter langsung menabrak.

Langkah pembelajaran gradien tradisional melakukan hal yang persis sama: ia menentukan seberapa besar parameter bergerak setiap kali, tetapi sama sekali tidak mengendalikan berapa banyak output fungsi yang sebenarnya berubah. Dalam pelatihan batch, rata-rata kesalahan dari ratusan hingga ribuan sampel mengencerkan kasus ekstrem, masalahnya tidak terlalu terlihat. Tetapi dalam lingkungan "streaming", setiap langkah hanya memiliki satu sampel, tidak ada rata-rata. Begitu arah gradien tidak stabil, magnitudo pembaruan akan besar-kecil secara tidak menentu — hari ini maju 30 cm, besok mundur 50 cm, proses pembelajaran runtuh dalam osilasi yang keras.

Fenomena "overshooting and undershooting" ini sangat parah dalam reinforcement learning, karena gradien pada setiap time step tidak hanya memiliki magnitudo yang berbeda, tetapi arahnya juga berubah dengan sangat cepat.

Mendefinisikan Ulang "Seberapa Banyak Satu Langkah Harus Dilakukan"

Arsalan Sharifnassab dari Openmind Research, bersama Mohamed Elsayed, A. Rupam Mahmood, dan Richard Sutton dari University of Alberta, dalam makalah yang baru diterbitkan mengusulkan solusi untuk berpikir dari sudut pandang lain: Daripada menentukan seberapa banyak parameter bergerak, lebih baik menentukan secara langsung seberapa banyak output fungsi yang harus berubah.

Ide ini tidak muncul begitu saja. Pada tahun 1967, ilmuwan Jepang Nagumo dan Noda dalam makalah "A learning method for system identification" telah mengusulkan algoritma "Normalized Least Mean Squares" (NLMS) dalam bidang adaptive filtering; pada dasarnya juga menggunakan perubahan output yang diharapkan untuk menghitung mundur langkah, bukan sebaliknya. Hanya saja algoritma itu hanya berlaku untuk skenario linear sederhana.

Para peneliti menggeneralisasi ide ini ke dalam deep reinforcement learning. Mereka menyebutnya sebagai "Intentional Updates" (Pembaruan Intensional): Sebelum setiap pembaruan, tentukan dulu "apa yang ingin saya capai dengan langkah ini", kemudian hitung mundur langkah yang seharusnya digunakan.

Untuk pembelajaran nilai (yaitu memprediksi reward masa depan), mereka mendefinisikan intensi sebagai: Setelah setiap pembaruan, kesalahan prediksi nilai state saat ini harus menyusut dengan proporsi tetap — misalnya menyusut 5%, tidak lebih dan tidak kurang. Untuk pembelajaran kebijakan (yaitu mengoptimalkan keputusan tindakan), mereka mendefinisikan intensi sebagai: Probabilitas pemilihan tindakan saat ini hanya diperbolehkan berubah dengan jumlah yang "moderat" setiap langkah.

Dengan analogi mengemudi: Ini seperti pengemudi memutuskan sebelum setiap operasi "Saya ingin mobil bergerak maju 20 cm", kemudian secara otomatis menghitung seberapa dalam gas harus diinjak berdasarkan kondisi jalan saat ini (kemiringan, muatan), daripada menginjak kedalaman yang sama setiap kali dan menyerahkannya pada nasib.

Penerima Turing Award dan Teka-tekinya

Salah satu penandatangan makalah adalah Richard S. Sutton — penerima Turing Award 2024, yang secara luas disebut sebagai "Bapak Reinforcement Learning Modern".

Posisi Sutton di dunia akademis kira-kira setara dengan Feynman dalam fisika: Dia tidak hanya mengusulkan pembelajaran selisih waktu (TD learning) dan gradien kebijakan (policy gradient), dua kerangka dasar RL modern, tetapi juga bersama Andrew Barto menulis buku teks paling otoritatif di bidang ini, "Reinforcement Learning: An Introduction" (sekarang edisi kedua, dapat dibaca online gratis). Dia dan Barto berbagi Turing Award 2024, dengan kata-kata penghargaan "untuk meletakkan dasar konseptual dan algoritmik bagi reinforcement learning".

Setelah mendapat penghargaan, Sutton tidak memilih pensiun, tetapi menginvestasikan hadiahnya untuk mendirikan Openmind Research, khusus mendanai para peneliti muda yang bersedia "mengeksplorasi masalah mendasar dalam lingkungan tanpa tekanan komersialisasi". Makalah baru ini lahir dari lembaga nirlaba ini.

Dan penulis pertama Sharifnassab, sebelumnya baru saja menerbitkan kerangka MetaOptimize di ICML 2025, mempelajari cara menyesuaikan learning rate secara online dan otomatis. Fokus kedua topik ini sangat konsisten: bagaimana membuat langkah itu sendiri menjadi lebih cerdas.

Detail Algoritma: Lebih Sederhana dari yang Dibayangkan

Penurunan matematis dari "intentional updates" tidak rumit, rumus intinya dapat digambarkan dalam satu kalimat: Langkah sama dengan "jumlah perubahan output yang diharapkan" dibagi dengan "pengaruh aktual arah gradien terhadap output".

Dalam pembelajaran nilai, "pengaruh aktual" ini adalah norma vektor gradien (setara dengan mengukur seberapa "curam" area parameter saat ini): semakin curam, semakin kecil langkahnya; semakin datar, semakin besar langkahnya, sehingga memastikan dampak setiap pembaruan terhadap fungsi nilai tetap konsisten.

Dalam pembelajaran kebijakan, "jumlah perubahan yang diharapkan" didefinisikan sebanding dengan fungsi keunggulan (advantage function): seberapa baik tindakan saat ini dibandingkan rata-rata, kebijakan bergerak ke arah itu sebanyak itu — dinormalisasi besarnya dengan running average, memastikan bahwa dalam jangka panjang, besarnya perubahan kebijakan stabil dalam rentang yang dapat dijelaskan.

Para peneliti juga menggabungkan ide inti ini dengan dua praktik rekayasa: penskalaan diagonal gaya RMSProp (menangani perbedaan skala dimensi parameter yang berbeda) dan eligibility traces (membantu sinyal reward menyebar ke time step sebelumnya).

Akhirnya membentuk tiga algoritma lengkap: Intentional TD (λ) untuk prediksi nilai, Intentional Q (λ) untuk kontrol tindakan diskrit, dan Intentional Policy Gradient untuk kontrol kontinu.

Hasil Eksperimen: Bisa Menyamai SAC Tanpa GPU

Makalah ini mengevaluasi metode ini di beberapa benchmark standar, dan hasilnya sangat mengesankan.

Pada tugas kontrol kontinu MuJoCo (termasuk robot simulasi kompleks seperti Ant, Humanoid, HalfCheetah), metode baru Intentional AC dalam pengaturan streaming (ukuran batch = 1, tanpa replay buffer) kinerja akhirnya berulang kali mendekati bahkan menyaingi SAC — sebuah algoritma yang menggunakan replay buffer batch besar, hampir menjadi standar emas untuk tugas kontrol kontinu saat ini. Dalam hal komputasi, operasi floating point yang dibutuhkan untuk setiap pembaruan Intentional AC hanya sekitar 1/140 dari satu pembaruan SAC.

Pada permainan dengan tindakan diskrit Atari dan MinAtar, kinerja Intentional Q-learning juga setara dengan DQN yang menggunakan replay buffer, dan berhasil menjalankan semua tugas dengan setelan hyperparameter yang sama, tanpa perlu penyesuaian satu per satu.

Para peneliti juga secara khusus memverifikasi apakah "intensi" benar-benar tercapai: Mereka mengukur rasio jumlah pembaruan aktual dengan jumlah yang diharapkan. Dalam pengaturan sederhana dengan traces tidak diaktifkan, deviasi standar rasio ini hanya 0,016 hingga 0,029, persentil ke-99 berada dalam 1,07; artinya dalam sebagian besar kasus, pembaruan memang melakukan "apa yang dikatakan akan dilakukan".

Selain itu, satu set eksperimen ablasi menunjukkan bahwa menghilangkan normalisasi RMSProp atau istilah σ menyebabkan penurunan kinerja tetapi masih kompetitif, dan "penskalaan intensi" ini sendiri adalah kontributor utama, komponen lainnya hanyalah penunjang.

Masih Ada Masalah

Kerangka "intentional updates" juga menunjukkan keunggulan yang jelas dalam hal ketangguhan. Ketika para peneliti satu per satu menghilangkan berbagai trik stabilisasi tambahan yang menjadi sandaran metode StreamX (inisialisasi sparse, penskalaan reward, normalisasi input, LayerNorm), degradasi kinerja Intentional AC jelas lebih sedikit daripada StreamAC asli, menunjukkan bahwa penskalaan intensi mengurangi ketergantungan pada "tongkat penyangga" eksternal dari akarnya.

Namun, makalah ini juga secara jujur mengakui masalah yang belum sepenuhnya terpecahkan: Dalam pembelajaran kebijakan, langkah bergantung pada tindakan yang di-sampel saat ini, yang secara implisit memberikan "bobot" yang berbeda pada tindakan yang berbeda, mungkin mengubah arah yang diharapkan dari gradien kebijakan. Dalam tugas Humanoid dan HumanoidStandup, dengan mengukur kesamaan kosinus arah pembaruan yang diharapkan, para peneliti menemukan bias ini mendekati 0,96 pada fase pembelajaran kritis (hampir tidak berpengaruh); tetapi di Ant-v4, keselarasan turun ke median 0,63, menunjukkan bahwa masalah tidak selalu bisa diabaikan.

Penulis menunjukkan bahwa penelitian di masa depan harus mencari strategi pemilihan langkah yang tidak bergantung pada tindakan, sehingga "intensi" juga tetap tidak bias dalam arti harapan. Ini adalah pekerjaan rumah yang jelas bagi para peneliti berikutnya dalam arah ini.

Kesimpulan: Membuat AI Belajar Sambil Bertindak Seperti Manusia

Paradigma pelatihan model besar saat ini bergantung pada pencernaan batch data dalam jumlah besar: memasukkan semua teks dan kode dari internet, mengulanginya berulang kali, akhirnya memunculkan kemampuan yang menakjubkan. Rute ini telah terbukti efektif, tetapi pada dasarnya adalah "belajar dulu baru digunakan": setelah pelatihan selesai, model dibekukan, tidak dapat terus diperbarui dari setiap interaksi aktual berikutnya.

Apa yang dikejar oleh pembelajaran penguatan streaming adalah mode pembelajaran yang sangat berbeda: tidak bergantung pada replay massal, tidak bergantung pada kluster GPU besar, setiap langkah pengalaman segera diubah menjadi pembaruan parameter, berkelanjutan, murah, dan adaptif. Ini lebih mendekati cara belajar manusia dan hewan yang sebenarnya.

Dari terobosan awal Elsayed dkk. pada 2024 yang "akhirnya berhasil", hingga prinsip "intentional updates" yang diusulkan dalam makalah ini, pembelajaran penguatan dalam streaming sedang menuju kematangan dengan kecepatan yang mengejutkan. Ia tidak akan menggantikan model besar yang dilatih secara batch, tetapi untuk robot yang membutuhkan adaptasi online jangka panjang, perangkat edge, dan skenario aplikasi apa pun yang tidak mampu menanggung buffer replay dan kluster GPU skala besar, jalur ini semakin meyakinkan.

Langkah bukan hanya hyperparameter, itu adalah janji AI tentang "berapa banyak yang ingin dilakukan" setiap langkah. Ketika janji ini akhirnya dapat dikendalikan, pembelajaran itu sendiri menjadi stabil.

Artikel ini berasal dari akun WeChat "机器之心" (ID: almosthuman2014), penulis: 关注RL的

Pertanyaan Terkait

QApa yang dimaksud dengan 'stream barrier' dalam konteks pembelajaran penguatan (reinforcement learning) yang dibahas dalam artikel?

ADalam artikel, 'stream barrier' mengacu pada kenyataan memalukan bahwa pembelajaran penguatan, yang seharusnya secara alami mampu belajar 'sambil berjalan', hampir tidak dapat melakukannya di era jaringan saraf dalam. Jika buffer replay dihapuskan dan ukuran batch diatur menjadi 1, pelatihan akan gagal total. Hambatan ini disebut sebagai 'stream barrier' atau penghalang aliran.

QMenurut penelitian terbaru yang melibatkan Richard Sutton, apa akar penyebab dari 'stream barrier' tersebut?

AMenurut penelitian terbaru tersebut, akar penyebab 'stream barrier' bukanlah 'data yang tidak cukup', melainkan 'satuan yang salah dalam memilih ukuran langkah pembelajaran'. Masalahnya terletak pada fakta bahwa langkah pembelajaran tradisional menentukan seberapa besar parameter bergerak, tetapi tidak mengontrol seberapa besar keluaran fungsi benar-benar berubah, yang menyebabkan ketidakstabilan dalam lingkungan streaming.

QApa itu 'Intentional Updates' (Pembaruan Intensional) yang diusulkan dalam penelitian ini, dan bagaimana cara kerjanya?

A'Intentional Updates' adalah kerangka kerja yang diusulkan di mana alih-alih menentukan seberapa banyak parameter harus bergerak, peneliti langsung menentukan seberapa banyak keluaran fungsi yang diinginkan untuk berubah. Caranya adalah dengan menetapkan 'niat' terlebih dahulu (misalnya, mengurangi kesalahan prediksi nilai sebesar 5% per pembaruan), lalu menghitung mundur ukuran langkah pembelajaran yang diperlukan untuk mencapai perubahan keluaran yang diinginkan tersebut.

QBagaimana performa algoritma 'Intentional AC' dibandingkan dengan algoritma SAC (Soft Actor-Critic) yang dianggap sebagai standar emas?

ADalam pengaturan streaming (ukuran batch = 1, tanpa buffer replay), algoritma Intentional AC menunjukkan kinerja akhir yang mendekati atau bahkan menyamai SAC di berbagai tugas kendali berkelanjutan seperti Ant dan Humanoid. Yang lebih mengesankan, setiap pembaruan Intentional AC hanya membutuhkan sekitar 1/140 dari operasi floating-point yang dibutuhkan oleh satu pembaruan SAC, menjadikannya sangat efisien secara komputasi.

QMasalah apa yang masih diakui oleh peneliti dalam kerangka 'Intentional Updates' untuk pembelajaran kebijakan (policy learning)?

AMasalah yang diakui adalah bahwa dalam pembelajaran kebijakan, ukuran langkah bergantung pada aksi yang diambil sampel saat ini. Hal ini dapat secara implisit memberikan 'bobot' yang berbeda pada aksi yang berbeda, yang berpotensi mengubah arah yang diharapkan dari gradien kebijakan. Meskipun dampaknya kecil di banyak tugas, dalam beberapa kasus seperti Ant-v4, penyelarasan arah pembaruan yang diharapkan berkurang, menunjukkan bias yang perlu ditangani di penelitian mendatang.

Bacaan Terkait

Wawancara Era AI, Revolusi Industri, dan Peradaban Masa Depan - Zhang Dingwen: Masa Depan Bukan Milik Pengejar

AI menjawab: - Artikel ini mewawancarai pengusaha Zhang Dingwen tentang pandangannya mengenai inovasi bisnis di era AI. - Fokus utamanya bukanlah mengejar "angin pundi" jangka pendek, tetapi mengidentifikasi dan memposisikan diri pada arah evolusi jangka panjang sebuah era. - Dia percaya bahwa peluang bisnis yang sebenarnya berasal dari perubahan dalam cara manusia terhubung dengan dunia digital, dan melihat potensi perangkat wearable sebagai pintu masuk atau "entri" baru untuk layanan dan ekosistem digital. - Perusahaan seharusnya tidak hanya fokus pada produk atau keuntungan, tetapi membangun kepercayaan dan menciptakan nilai yang tahan lama. - Dia membedakan antara perusahaan "sukses" dan "hebat", di mana perusahaan hebat tidak hanya menjawab kebutuhan pasar, tetapi membentuk cara hidup baru dan berpartisipasi dalam membangun aturan untuk peradaban masa depan. - Bisnis pada akhirnya bersaing dalam pemahaman dan definisi masa depan. Visi dan kemampuan untuk terus belajar lebih penting daripada sekadar kecepatan eksekusi.

marsbit4m yang lalu

Wawancara Era AI, Revolusi Industri, dan Peradaban Masa Depan - Zhang Dingwen: Masa Depan Bukan Milik Pengejar

marsbit4m yang lalu

Konsesi Gedung Putih Hapus Hambatan Etika, Akankah Clarity Act Menyusul di Jendela Waktu Terakhir Sebelum Reses?

Artikel asli oleh Odaily Planet Daily, penulis Azuma. Pada 21 Juli waktu Beijing, beberapa sumber mengungkapkan bahwa pemerintahan Trump telah setuju untuk memasukkan klausul etika ke dalam "Clarity Act" (Undang-Undang Struktur Pasar Aset Digital). Kemajuan ini diharapkan dapat menghilangkan hambatan terakhir untuk pembaruan teks RUU dan pemungutan suara di Senat. Klausul etika dirancang untuk menangani potensi konflik kepentingan antara pejabat pemerintah AS dan industri kripto. Selain itu, Patrick Witt, Direktur Eksekutif Komite Penasihat Aset Digital Gedung Putih, akan tetap menjabat untuk membantu proses terakhir RUU, setelah pelatihan militernya ditunda. Ini adalah sinyal positif lainnya. Dikenal sebagai *Digital Asset Market Clarity Act of 2025*, Clarity Act bertujuan menciptakan kerangka kerja regulasi federal yang seragam untuk pasar aset digital AS. RUU ini berupaya mengklarifikasi status hukum aset digital dan membagi tanggung jawab pengawasan antara SEC dan CFTC. Tujuannya adalah mengakhiri ambiguitas regulasi yang telah lama dihadapi industri kripto AS. Perbedaan utama terakhir dalam negosiasi seputar RUU ini adalah masalah etika. Sementara itu, tenggat waktu yang mendesak adalah masa reses Kongres pada pertengahan Agustus, yang hanya menyisakan sekitar belasan hari kerja untuk menyelesaikan koordinasi. CEO Blockchain Association Kristin Smith menekankan bahwa ini adalah momen kritis. Jika kontroversi etika dapat diselesaikan dalam beberapa minggu ke depan, Clarity Act berpeluang mencapai terobosan sebelum masa reses. Jika tidak, prosesnya mungkin tertunda lebih lama. Jika berhasil disahkan, Clarity Act berpotensi menjadi titik balik bersejarah dalam regulasi kripto, tidak hanya bagi AS tetapi juga secara global. RUU ini dapat memberikan landasan hukum yang lebih jelas, mengurangi ketidakpastian, dan menarik lebih banyak modal institusional ke ruang aset digital.

Odaily星球日报5m yang lalu

Konsesi Gedung Putih Hapus Hambatan Etika, Akankah Clarity Act Menyusul di Jendela Waktu Terakhir Sebelum Reses?

Odaily星球日报5m yang lalu

Penanda Arah Saham Kripto丨Strategi Meningkatkan Cadangan Kas Menjadi $3.23 Miliar, Hentikan Pembelian BTC; Lembaga Manajemen Aset Seperti Vanguard Group Meningkatkan Kepemilikan Saham Strategi (21 Juli)

Ulasan Pasar: Pasar saham global, termasuk AS, Korea, dan A-saham, menghadapi periode volatilitas tinggi karena kekhawatiran bubble AI, ekspektasi kenaikan suku bunga, dan pengetatan likuiditas. Pasar kripto juga masih lesu. Perusahaan dengan Perbendaharaan Kripto: * **Strategy** meningkatkan cadangan kasnya menjadi $3.23 miliar dan **menghentikan pembelian BTC** untuk sementara. Namun, sahamnya dibeli oleh institusi besar seperti Vanguard Group, Swedbank AB, dan Capital Group. * **Strive** membeli 21 BTC senilai $1.15 juta. * **BitMine** menambah kepemilikan ETH menjadi 5.78 juta keping (mendekati 5% dari pasokan beredar). * Aktivitas pembelian BTC global oleh perusahaan publik minggu lalu turun drastis menjadi hanya $1.33 juta.

marsbit16m yang lalu

Penanda Arah Saham Kripto丨Strategi Meningkatkan Cadangan Kas Menjadi $3.23 Miliar, Hentikan Pembelian BTC; Lembaga Manajemen Aset Seperti Vanguard Group Meningkatkan Kepemilikan Saham Strategi (21 Juli)

marsbit16m yang lalu

Transparansi Cadangan Dibangun Melalui Operasi Berkelanjutan: Matrixdock Menandai Dua Tahun Verifikasi Independen

**Ringkasan Artikel:** Matrixdock menyelesaikan audit cadangan independen semi-tahunan keempatnya secara berturut-turut dengan Bureau Veritas, menandai dua tahun verifikasi berkelanjutan. Untuk pertama kalinya, audit ini mencakup produk perak tokenisasi (XAGm) di samping emas (XAUm). Audit Juli 2026 memverifikasi secara fisik 574 batang emas dan perak di fasilitas penyimpanan di Singapura dan Hong Kong. Cadangan emas yang diaudit setara dengan 16.331,184 ons troy, didukung oleh pasokan token XAUm yang beredar senilai sekitar $66,09 juta. Cadangan perak yang baru diaudit berjumlah 65.934 ons troy, didukung oleh pasokan token XAGm senilai sekitar $4,04 juta. Tidak ada perbedaan yang ditemukan. Transparansi cadangan dibangun melalui lapisan verifikasi yang disebut *Reserve Transparency Stack*, yang mencakup audit rutin, laporan aset bulanan, bukti cadangan on-chain, dan alat pelacakan alokasi. Komitmen terhadap operasi dan verifikasi yang berkelanjutan ini adalah fondasi untuk membangun *Reserve Layer* yang tepercaya dalam keuangan on-chain, memungkinkan aset cadangan digunakan dengan percaya diri sebagai jaminan atau dalam penyelesaian transaksi.

TheNewsCrypto44m yang lalu

Transparansi Cadangan Dibangun Melalui Operasi Berkelanjutan: Matrixdock Menandai Dua Tahun Verifikasi Independen

TheNewsCrypto44m yang lalu

Analisis Bernstein: Dapatkah Pesanan Jangka Panjang Senilai $1420 Miliar Menopang Siklus Memori?

Laporan Bernstein membahas dampak Perjanjian Pembelian Jangka Panjang (LTA) dengan jaminan keuangan dalam industri memori. Micron dan SanDisk telah menandatangani LTA dengan klien strategis, dengan total pendapatan kontrak minimum sekitar $1420 miliar dan jaminan keuangan sekitar $330 miliar. LTA ini bertujuan memberikan lantai pendapatan dan stabilitas pasokan. Namun, analisis menunjukkan bahwa jaminan sebesar $330 miliar hanya mencakup sekitar 0,6% dari $5,2 triliun pendapatan industri yang mungkin memerlukan perlindungan dalam 3-5 tahun ke depan. LTA berfungsi sebagai bantalan selama penurunan siklus, tetapi tidak menghilangkan siklus sepenuhnya. Dalam penurunan harga yang dalam, klien tetap dapat mempertimbangkan untuk membatalkan kontrak jika harga spot jauh lebih murah, meskipun terkena denda. Penerapan LTA juga terbatas. Klien ideal adalah penyedia layanan cloud AS, sementara segmen konsumen seperti smartphone dan PC cenderung lebih transaksional. Diperkirakan 30%-50% pasar DRAM/NAND sulit dicakup oleh LTA. Kesimpulannya, LTA meningkatkan visibilitas pendapatan dan memberikan perlindungan parsial, terutama didorong oleh permintaan AI. Namun, skala jaminan belum cukup untuk menopang profitabilitas puncak selama siklus turun yang berat. LTA lebih merupakan peredam gejolak siklus, bukan pengakhirnya.

marsbit1j yang lalu

Analisis Bernstein: Dapatkah Pesanan Jangka Panjang Senilai $1420 Miliar Menopang Siklus Memori?

marsbit1j yang lalu

Trading

Spot

Penerima Turing Award Sutton Karya Baru: Selesaikan Kelemahan Besar Pembelajaran Penguatan Streaming dengan Formula 1967

Abstrak

Menekan Gas, Seberapa Besar Lubang yang Terbuka

Penerima Turing Award dan Teka-tekinya

Detail Algoritma: Lebih Sederhana dari yang Dibayangkan

Hasil Eksperimen: Bisa Menyamai SAC Tanpa GPU

Masih Ada Masalah

Kesimpulan: Membuat AI Belajar Sambil Bertindak Seperti Manusia

Pertanyaan Terkait

Bacaan Terkait

Wawancara Era AI, Revolusi Industri, dan Peradaban Masa Depan - Zhang Dingwen: Masa Depan Bukan Milik Pengejar

Konsesi Gedung Putih Hapus Hambatan Etika, Akankah Clarity Act Menyusul di Jendela Waktu Terakhir Sebelum Reses?

Penanda Arah Saham Kripto丨Strategi Meningkatkan Cadangan Kas Menjadi $3.23 Miliar, Hentikan Pembelian BTC; Lembaga Manajemen Aset Seperti Vanguard Group Meningkatkan Kepemilikan Saham Strategi (21 Juli)

Transparansi Cadangan Dibangun Melalui Operasi Berkelanjutan: Matrixdock Menandai Dua Tahun Verifikasi Independen

Analisis Bernstein: Dapatkah Pesanan Jangka Panjang Senilai $1420 Miliar Menopang Siklus Memori?

Trading

Kategori Populer

Tag Populer