Penerima Turing Award Sutton Karya Baru: Selesaikan Kelemahan Besar Pembelajaran Penguatan Streaming dengan Formula 1967

marsbitDipublikasikan tanggal 2026-05-10Terakhir diperbarui pada 2026-05-10

Abstrak

Sebuah makalah baru oleh Arsalan Sharifnassab dkk. (termasuk pemenang Turing Award Richard Sutton) mengatasi "rintangan aliran" (*stream barrier*) dalam pembelajaran penguatan (*reinforcement learning*) secara mendalam. Masalahnya adalah ketidakmampuan belajar "langkah demi langkah" (*online/streaming*) dengan ukuran *batch*=1 dan tanpa *buffer replay*. Alasannya adalah langkah pembelajaran (*step-size*) tradisional hanya mengontrol seberapa besar parameter bergerak, bukan perubahan pada keluaran fungsi, sehingga menyebabkan pembaruan yang tidak stabil. Solusinya disebut **"Intentional Updates" (Pembaruan Berdasarkan Niat)**, sebuah ide yang meluas dari algoritma NLMS tahun 1967. Alih-alih menetapkan ukuran langkah untuk parameter, metode ini menetapkan **"niat"** untuk mengubah *output* fungsi—seperti memperkecil kesalahan prediksi nilai sebesar 5%—lalu menghitung mundur ukuran langkah yang diperlukan. Ini menghasilkan algoritma seperti Intentional TD, Intentional Q, dan Intentional Policy Gradient. Dalam eksperimen, metode ini mencocokkan kinerja algoritma canggih seperti SAC (dalam kontrol berkelanjutan) dan DQN (pada permainan Atari) dalam pengaturan *streaming*, dengan komputasi yang jauh lebih ringan (1/140 FLOP SAC) dan tanpa banyak penyesuaian hiperparameter. Kerangka kerja ini lebih tangguh dan mengurangi ketergantungan pada trik stabilisasi, meskipun ada masalah bias yang perlu ditangani dalam pembelajaran kebijakan. Pendekatan ini membuka jalan untuk sistem AI ...

Akhir 2024, sebuah makalah berjudul "Streaming Deep Reinforcement Learning Finally Works" (arXiv:2410.14606) memicu diskusi luas di kalangan akademik. Penulisnya dari tim Mahmood di University of Alberta, mereka menghabiskan banyak halaman menggambarkan kenyataan yang memalukan: Reinforcement Learning (RL) sebagai metode yang seharusnya 'belajar sambil berjalan', di era jaringan saraf dalam hampir tidak dapat melakukannya. Hanya dengan menghapus replay buffer, atau menetapkan ukuran batch menjadi 1, pelatihan akan gagal. Mereka menyebutnya sebagai "stream barrier" (penghalang streaming).

Makalah tersebut mengusulkan algoritma seri StreamX, yang mengandalkan pengaturan hyperparameter yang sangat halus, inisialisasi sparse, dan berbagai trik stabilisasi, baru bisa melampaui tembok ini.

Namun, kurang dari satu setengah tahun kemudian, seorang anggota dari kelompok penelitian yang sama, bersama dengan kolaborator dari Openmind Research, memberikan jawaban yang sangat berbeda: Akar dari stream barrier bukanlah "data tidak cukup", melainkan "satuan langkah yang salah".

Judul Makalah: Intentional Updates for Streaming Reinforcement Learning

Alamat Makalah: https://arxiv.org/pdf/2604.19033v1

Repositori Kode: https://github.com/sharifnassab/Intentional_RL

Menekan Gas, Seberapa Besar Lubang yang Terbuka

Bayangkan Anda sedang belajar parkir mobil. Pelatih memberi tahu Anda untuk "menginjak gas selama 0,1 detik" setiap kali. Masalahnya, meskipun menginjak 0,1 detik yang sama, di tanjakan, turunan, kosong, atau penuh, jarak mobil bergerak bisa sangat berbeda. Kadang kurang satu sentimeter tepat masuk, kadang kurang 30 sentimeter langsung menabrak.

Langkah pembelajaran gradien tradisional melakukan hal yang persis sama: ia menentukan seberapa besar parameter bergerak setiap kali, tetapi sama sekali tidak mengendalikan berapa banyak output fungsi yang sebenarnya berubah. Dalam pelatihan batch, rata-rata kesalahan dari ratusan hingga ribuan sampel mengencerkan kasus ekstrem, masalahnya tidak terlalu terlihat. Tetapi dalam lingkungan "streaming", setiap langkah hanya memiliki satu sampel, tidak ada rata-rata. Begitu arah gradien tidak stabil, magnitudo pembaruan akan besar-kecil secara tidak menentu — hari ini maju 30 cm, besok mundur 50 cm, proses pembelajaran runtuh dalam osilasi yang keras.

Fenomena "overshooting and undershooting" ini sangat parah dalam reinforcement learning, karena gradien pada setiap time step tidak hanya memiliki magnitudo yang berbeda, tetapi arahnya juga berubah dengan sangat cepat.

Mendefinisikan Ulang "Seberapa Banyak Satu Langkah Harus Dilakukan"

Arsalan Sharifnassab dari Openmind Research, bersama Mohamed Elsayed, A. Rupam Mahmood, dan Richard Sutton dari University of Alberta, dalam makalah yang baru diterbitkan mengusulkan solusi untuk berpikir dari sudut pandang lain: Daripada menentukan seberapa banyak parameter bergerak, lebih baik menentukan secara langsung seberapa banyak output fungsi yang harus berubah.

Ide ini tidak muncul begitu saja. Pada tahun 1967, ilmuwan Jepang Nagumo dan Noda dalam makalah "A learning method for system identification" telah mengusulkan algoritma "Normalized Least Mean Squares" (NLMS) dalam bidang adaptive filtering; pada dasarnya juga menggunakan perubahan output yang diharapkan untuk menghitung mundur langkah, bukan sebaliknya. Hanya saja algoritma itu hanya berlaku untuk skenario linear sederhana.

Para peneliti menggeneralisasi ide ini ke dalam deep reinforcement learning. Mereka menyebutnya sebagai "Intentional Updates" (Pembaruan Intensional): Sebelum setiap pembaruan, tentukan dulu "apa yang ingin saya capai dengan langkah ini", kemudian hitung mundur langkah yang seharusnya digunakan.

Untuk pembelajaran nilai (yaitu memprediksi reward masa depan), mereka mendefinisikan intensi sebagai: Setelah setiap pembaruan, kesalahan prediksi nilai state saat ini harus menyusut dengan proporsi tetap — misalnya menyusut 5%, tidak lebih dan tidak kurang. Untuk pembelajaran kebijakan (yaitu mengoptimalkan keputusan tindakan), mereka mendefinisikan intensi sebagai: Probabilitas pemilihan tindakan saat ini hanya diperbolehkan berubah dengan jumlah yang "moderat" setiap langkah.

Dengan analogi mengemudi: Ini seperti pengemudi memutuskan sebelum setiap operasi "Saya ingin mobil bergerak maju 20 cm", kemudian secara otomatis menghitung seberapa dalam gas harus diinjak berdasarkan kondisi jalan saat ini (kemiringan, muatan), daripada menginjak kedalaman yang sama setiap kali dan menyerahkannya pada nasib.

Penerima Turing Award dan Teka-tekinya

Salah satu penandatangan makalah adalah Richard S. Sutton — penerima Turing Award 2024, yang secara luas disebut sebagai "Bapak Reinforcement Learning Modern".

Posisi Sutton di dunia akademis kira-kira setara dengan Feynman dalam fisika: Dia tidak hanya mengusulkan pembelajaran selisih waktu (TD learning) dan gradien kebijakan (policy gradient), dua kerangka dasar RL modern, tetapi juga bersama Andrew Barto menulis buku teks paling otoritatif di bidang ini, "Reinforcement Learning: An Introduction" (sekarang edisi kedua, dapat dibaca online gratis). Dia dan Barto berbagi Turing Award 2024, dengan kata-kata penghargaan "untuk meletakkan dasar konseptual dan algoritmik bagi reinforcement learning".

Setelah mendapat penghargaan, Sutton tidak memilih pensiun, tetapi menginvestasikan hadiahnya untuk mendirikan Openmind Research, khusus mendanai para peneliti muda yang bersedia "mengeksplorasi masalah mendasar dalam lingkungan tanpa tekanan komersialisasi". Makalah baru ini lahir dari lembaga nirlaba ini.

Dan penulis pertama Sharifnassab, sebelumnya baru saja menerbitkan kerangka MetaOptimize di ICML 2025, mempelajari cara menyesuaikan learning rate secara online dan otomatis. Fokus kedua topik ini sangat konsisten: bagaimana membuat langkah itu sendiri menjadi lebih cerdas.

Detail Algoritma: Lebih Sederhana dari yang Dibayangkan

Penurunan matematis dari "intentional updates" tidak rumit, rumus intinya dapat digambarkan dalam satu kalimat: Langkah sama dengan "jumlah perubahan output yang diharapkan" dibagi dengan "pengaruh aktual arah gradien terhadap output".

Dalam pembelajaran nilai, "pengaruh aktual" ini adalah norma vektor gradien (setara dengan mengukur seberapa "curam" area parameter saat ini): semakin curam, semakin kecil langkahnya; semakin datar, semakin besar langkahnya, sehingga memastikan dampak setiap pembaruan terhadap fungsi nilai tetap konsisten.

Dalam pembelajaran kebijakan, "jumlah perubahan yang diharapkan" didefinisikan sebanding dengan fungsi keunggulan (advantage function): seberapa baik tindakan saat ini dibandingkan rata-rata, kebijakan bergerak ke arah itu sebanyak itu — dinormalisasi besarnya dengan running average, memastikan bahwa dalam jangka panjang, besarnya perubahan kebijakan stabil dalam rentang yang dapat dijelaskan.

Para peneliti juga menggabungkan ide inti ini dengan dua praktik rekayasa: penskalaan diagonal gaya RMSProp (menangani perbedaan skala dimensi parameter yang berbeda) dan eligibility traces (membantu sinyal reward menyebar ke time step sebelumnya).

Akhirnya membentuk tiga algoritma lengkap: Intentional TD (λ) untuk prediksi nilai, Intentional Q (λ) untuk kontrol tindakan diskrit, dan Intentional Policy Gradient untuk kontrol kontinu.

Hasil Eksperimen: Bisa Menyamai SAC Tanpa GPU

Makalah ini mengevaluasi metode ini di beberapa benchmark standar, dan hasilnya sangat mengesankan.

Pada tugas kontrol kontinu MuJoCo (termasuk robot simulasi kompleks seperti Ant, Humanoid, HalfCheetah), metode baru Intentional AC dalam pengaturan streaming (ukuran batch = 1, tanpa replay buffer) kinerja akhirnya berulang kali mendekati bahkan menyaingi SAC — sebuah algoritma yang menggunakan replay buffer batch besar, hampir menjadi standar emas untuk tugas kontrol kontinu saat ini. Dalam hal komputasi, operasi floating point yang dibutuhkan untuk setiap pembaruan Intentional AC hanya sekitar 1/140 dari satu pembaruan SAC.

Pada permainan dengan tindakan diskrit Atari dan MinAtar, kinerja Intentional Q-learning juga setara dengan DQN yang menggunakan replay buffer, dan berhasil menjalankan semua tugas dengan setelan hyperparameter yang sama, tanpa perlu penyesuaian satu per satu.

Para peneliti juga secara khusus memverifikasi apakah "intensi" benar-benar tercapai: Mereka mengukur rasio jumlah pembaruan aktual dengan jumlah yang diharapkan. Dalam pengaturan sederhana dengan traces tidak diaktifkan, deviasi standar rasio ini hanya 0,016 hingga 0,029, persentil ke-99 berada dalam 1,07; artinya dalam sebagian besar kasus, pembaruan memang melakukan "apa yang dikatakan akan dilakukan".

Selain itu, satu set eksperimen ablasi menunjukkan bahwa menghilangkan normalisasi RMSProp atau istilah σ menyebabkan penurunan kinerja tetapi masih kompetitif, dan "penskalaan intensi" ini sendiri adalah kontributor utama, komponen lainnya hanyalah penunjang.

Masih Ada Masalah

Kerangka "intentional updates" juga menunjukkan keunggulan yang jelas dalam hal ketangguhan. Ketika para peneliti satu per satu menghilangkan berbagai trik stabilisasi tambahan yang menjadi sandaran metode StreamX (inisialisasi sparse, penskalaan reward, normalisasi input, LayerNorm), degradasi kinerja Intentional AC jelas lebih sedikit daripada StreamAC asli, menunjukkan bahwa penskalaan intensi mengurangi ketergantungan pada "tongkat penyangga" eksternal dari akarnya.

Namun, makalah ini juga secara jujur mengakui masalah yang belum sepenuhnya terpecahkan: Dalam pembelajaran kebijakan, langkah bergantung pada tindakan yang di-sampel saat ini, yang secara implisit memberikan "bobot" yang berbeda pada tindakan yang berbeda, mungkin mengubah arah yang diharapkan dari gradien kebijakan. Dalam tugas Humanoid dan HumanoidStandup, dengan mengukur kesamaan kosinus arah pembaruan yang diharapkan, para peneliti menemukan bias ini mendekati 0,96 pada fase pembelajaran kritis (hampir tidak berpengaruh); tetapi di Ant-v4, keselarasan turun ke median 0,63, menunjukkan bahwa masalah tidak selalu bisa diabaikan.

Penulis menunjukkan bahwa penelitian di masa depan harus mencari strategi pemilihan langkah yang tidak bergantung pada tindakan, sehingga "intensi" juga tetap tidak bias dalam arti harapan. Ini adalah pekerjaan rumah yang jelas bagi para peneliti berikutnya dalam arah ini.

Kesimpulan: Membuat AI Belajar Sambil Bertindak Seperti Manusia

Paradigma pelatihan model besar saat ini bergantung pada pencernaan batch data dalam jumlah besar: memasukkan semua teks dan kode dari internet, mengulanginya berulang kali, akhirnya memunculkan kemampuan yang menakjubkan. Rute ini telah terbukti efektif, tetapi pada dasarnya adalah "belajar dulu baru digunakan": setelah pelatihan selesai, model dibekukan, tidak dapat terus diperbarui dari setiap interaksi aktual berikutnya.

Apa yang dikejar oleh pembelajaran penguatan streaming adalah mode pembelajaran yang sangat berbeda: tidak bergantung pada replay massal, tidak bergantung pada kluster GPU besar, setiap langkah pengalaman segera diubah menjadi pembaruan parameter, berkelanjutan, murah, dan adaptif. Ini lebih mendekati cara belajar manusia dan hewan yang sebenarnya.

Dari terobosan awal Elsayed dkk. pada 2024 yang "akhirnya berhasil", hingga prinsip "intentional updates" yang diusulkan dalam makalah ini, pembelajaran penguatan dalam streaming sedang menuju kematangan dengan kecepatan yang mengejutkan. Ia tidak akan menggantikan model besar yang dilatih secara batch, tetapi untuk robot yang membutuhkan adaptasi online jangka panjang, perangkat edge, dan skenario aplikasi apa pun yang tidak mampu menanggung buffer replay dan kluster GPU skala besar, jalur ini semakin meyakinkan.

Langkah bukan hanya hyperparameter, itu adalah janji AI tentang "berapa banyak yang ingin dilakukan" setiap langkah. Ketika janji ini akhirnya dapat dikendalikan, pembelajaran itu sendiri menjadi stabil.

Artikel ini berasal dari akun WeChat "机器之心" (ID: almosthuman2014), penulis: 关注RL的

Pertanyaan Terkait

QApa yang dimaksud dengan 'stream barrier' dalam konteks pembelajaran penguatan (reinforcement learning) yang dibahas dalam artikel?

ADalam artikel, 'stream barrier' mengacu pada kenyataan memalukan bahwa pembelajaran penguatan, yang seharusnya secara alami mampu belajar 'sambil berjalan', hampir tidak dapat melakukannya di era jaringan saraf dalam. Jika buffer replay dihapuskan dan ukuran batch diatur menjadi 1, pelatihan akan gagal total. Hambatan ini disebut sebagai 'stream barrier' atau penghalang aliran.

QMenurut penelitian terbaru yang melibatkan Richard Sutton, apa akar penyebab dari 'stream barrier' tersebut?

AMenurut penelitian terbaru tersebut, akar penyebab 'stream barrier' bukanlah 'data yang tidak cukup', melainkan 'satuan yang salah dalam memilih ukuran langkah pembelajaran'. Masalahnya terletak pada fakta bahwa langkah pembelajaran tradisional menentukan seberapa besar parameter bergerak, tetapi tidak mengontrol seberapa besar keluaran fungsi benar-benar berubah, yang menyebabkan ketidakstabilan dalam lingkungan streaming.

QApa itu 'Intentional Updates' (Pembaruan Intensional) yang diusulkan dalam penelitian ini, dan bagaimana cara kerjanya?

A'Intentional Updates' adalah kerangka kerja yang diusulkan di mana alih-alih menentukan seberapa banyak parameter harus bergerak, peneliti langsung menentukan seberapa banyak keluaran fungsi yang diinginkan untuk berubah. Caranya adalah dengan menetapkan 'niat' terlebih dahulu (misalnya, mengurangi kesalahan prediksi nilai sebesar 5% per pembaruan), lalu menghitung mundur ukuran langkah pembelajaran yang diperlukan untuk mencapai perubahan keluaran yang diinginkan tersebut.

QBagaimana performa algoritma 'Intentional AC' dibandingkan dengan algoritma SAC (Soft Actor-Critic) yang dianggap sebagai standar emas?

ADalam pengaturan streaming (ukuran batch = 1, tanpa buffer replay), algoritma Intentional AC menunjukkan kinerja akhir yang mendekati atau bahkan menyamai SAC di berbagai tugas kendali berkelanjutan seperti Ant dan Humanoid. Yang lebih mengesankan, setiap pembaruan Intentional AC hanya membutuhkan sekitar 1/140 dari operasi floating-point yang dibutuhkan oleh satu pembaruan SAC, menjadikannya sangat efisien secara komputasi.

QMasalah apa yang masih diakui oleh peneliti dalam kerangka 'Intentional Updates' untuk pembelajaran kebijakan (policy learning)?

AMasalah yang diakui adalah bahwa dalam pembelajaran kebijakan, ukuran langkah bergantung pada aksi yang diambil sampel saat ini. Hal ini dapat secara implisit memberikan 'bobot' yang berbeda pada aksi yang berbeda, yang berpotensi mengubah arah yang diharapkan dari gradien kebijakan. Meskipun dampaknya kecil di banyak tugas, dalam beberapa kasus seperti Ant-v4, penyelarasan arah pembaruan yang diharapkan berkurang, menunjukkan bias yang perlu ditangani di penelitian mendatang.

Bacaan Terkait

Dari Web3 ke AI Agent, VC Kripto Legendaris Variant Taruhan Transformasi 2 Triliun Rupiah

**Variant Luncurkan Dana Baru Rp 3,55 Triliun, Fokus Beralih dari "Kepemilikan Digital" ke "Otonomi" (Autonomy)** Variant Fund, sebuah venture capital (VC) kripto ternama, mengumumkan peluncuran dana baru senilai USD 222 juta (sekitar Rp 3,55 triliun) bernama Variant 4. Dana ini akan berinvestasi pada tahap awal (early-stage) dan tahap pertumbuhan/likuiditas. Filosofi investasi Variant mengalami evolusi. Dari sebelumnya berfokus pada **"Kepemilikan Digital"** (atas uang, identitas, data, produk), kini berkembang menjadi tema yang lebih luas: **"Otonomi" (Autonomy)**. Inti dari Otonomi adalah **meningkatkan daya pikir dan kendali pengguna** atas hidup, aset, dan identitas mereka sendiri. Variant membedakan ini dengan sekadar **otomatisasi cerdas**. Menurut mereka, teknologi otomatisasi harus meningkatkan kedaulatan pengguna, bukan hanya menguntungkan platform. Kunci utamanya adalah: teknologi itu melayani pengguna atau pihak lain? Variant meyakini bahwa **agen AI (AI Agent)** dan **infrastruktur keuangan global yang terbuka** akan mengubah struktur internet — dari model di mana pengguna adalah produk, menjadi internet di mana pengguna memiliki daya pikir yang belum pernah terjadi sebelumnya. Pergeseran ini tidak hanya untuk konsumen, tetapi juga mencakup pasar, alat, dan layanan baru untuk pengembang dan bisnis. Oleh karena itu, tesis investasi baru mereka adalah: **Variant berinvestasi pada teknologi yang memperluas Otonomi**, dengan fokus pada pasar, infrastruktur, dan aplikasi baru yang memberdayakan pengguna melalui peningkatan akses, pengetahuan, dan kepemilikan. Tesis ini mencakup investasi masa lalu mereka di pemimpin kategori blockchain (Ethereum, Solana), infrastruktur pengembang (Blockaid, Turnkey, Relay), pasar keuangan baru (Uniswap, Morpho, OpenFX), dan produk konsumen (Phantom, World). Ini juga tercermin dalam investasi baru-baru ini seperti: * **Honcho**: Solusi penyimpanan memori agen yang di-host sendiri. * **Octet**: Memungkinkan aplikasi memverifikasi lokasi fisik pengguna secara kriptografis sebagai blok pembangun identitas digital. * **here.now**: "Awan agen" yang memungkinkan kepemilikan dan komposisi konten yang dihasilkan. Variant mengundang para pendiri yang membangun dengan tujuan untuk memperluas otonomi pengguna untuk menghubungi mereka.

marsbit4m yang lalu

Dari Web3 ke AI Agent, VC Kripto Legendaris Variant Taruhan Transformasi 2 Triliun Rupiah

marsbit4m yang lalu

Momen Ballmer Ethereum: Saat Semua Meragukan, Pasokan yang Beredar Mulai Menghilang

**Ringkasan: Saat Semua Meremehkan Ethereum, Pasokan yang Beredar Justru Menyusut** Narasi bearish tentang Ethereum kini mendominasi: pendiri Bankless menjual ETH, developer muda beralih ke Solana, dan Ethereum Foundation dianggap menghindari risiko. Situasi ini disebut sebagai "Era Ballmer" Ethereum, mengacu pada periode Microsoft di bawah Steve Ballmer yang dianggap stagnan, namun sebenarnya fondasi bisnisnya terus tumbuh solid di balik layar. Di balik narasi permukaan, dasar fundamental Ethereum menunjukkan tren positif: * **30% dari total pasokan ETH telah di-staking**, mengunci likuiditas. * Perusahaan seperti BitMine dan calon ETF spot terus menyerap ETH dari pasar. * Regulasi yang semakin jelas (seperti keputusan SEC tentang staking, GENIUS Act, CLARITY Act) mengubah crypto dari ancaman menjadi kerangka hukum yang diakui, membuka jalan bagi modal institusional. Sementara dominasi Ethereum dalam aset tokenisasi (seperti stablecoin USDC) dan DeFi berkurang dibandingkan pesaing seperti Solana, Ethereum tetap menjadi *settlement layer* netral tepercaya pilihan utama untuk aset tokenisasi institusional. Kompresi pasokan yang beredar, permintaan akan yield staking, dan statusnya sebagai pilihan default institusi dapat mendorong penilaian ulang harga ETH, bahkan tanpa kemenangan dalam "perang fee". Kesimpulannya, meskipun energi budaya dan inovasi mungkin bergeser ke chain lain, lanskap crypto secara keseluruhan sedang mengadopsi bentuk yang lebih terlembaga. Ethereum, dengan efek jaringan dan netralitasnya, diposisikan dengan baik untuk menangkap nilai dari gelombang institusional ini. Narasi bearish yang telah menjadi konsensus justru menciptakan peluang saat fondasi sebenarnya sedang diperkuat.

marsbit15m yang lalu

Momen Ballmer Ethereum: Saat Semua Meragukan, Pasokan yang Beredar Mulai Menghilang

marsbit15m yang lalu

Bloomberg Mengungkap: Bagaimana Orang Kaya China Mengatasi Batas 50.000 Dolar per Tahun untuk Memindahkan Aset?

Penelitian Bloomberg mengungkap cara orang kaya China menghindari batas penukaran valuta asing sebesar $50.000 per tahun. Meski kontrol modal ketat diterapkan sejak 1994 dan diperkuat pasca 2015, diperkirakan $150 miliar masih bocor setiap tahun melalui lima jalur utama: 1. **Jaringan Hawala/“Duiqiao”**: Transfer terbesar tanpa dana fisik melintasi batas. Uang RMB disetor ke rekening dalam negeri, dan mitra luar negeri menyetorkan mata uang asing ke rekening klien di luar negeri. 2. **“Semut Pindah”**: Menggunakan kuota $50.000 legal banyak orang untuk dikirim ke satu rekening luar negeri, namun kini diburu algoritma. 3. **Pemalsuan Faktur Perdagangan**: Perusahaan menaikkan nilai faktur impor atau menurunkan nilai ekspor untuk mengalirkan dana ke perusahaan shell luar negeri. 4. **Migrasi Saluran**: Beralih dari broker online yang dilarang ke jalur manajemen kekayaan lintas batas bank besar (seperti BOC Hong Kong) atau program QDII yang disetujui negara. 5. **Pengaturan Struktural**: Menggunakan kombinasi perwalian keluarga lepas pantai, asuransi jiwa Hong Kong, dan program investasi imigrasi. Regulator merespons dengan fokus baru pada individu, bukan hanya perusahaan. Penerapan CRS sejak 2024 membuat rekening luar negeri warga China di 100+ negara menjadi transparan bagi otoritas pajak. Cryptocurrency seperti USDT juga telah menjadi target penindakan hukum. Dengan lebih dari 6,2 juta rumah tangga kaya di China, tekanan untuk mendiversifikasi aset ke luar negeri tetap kuat di tengah ketidakpastian ekonomi dan geopolitik.

marsbit17m yang lalu

Bloomberg Mengungkap: Bagaimana Orang Kaya China Mengatasi Batas 50.000 Dolar per Tahun untuk Memindahkan Aset?

marsbit17m yang lalu

Trading

Spot
Futures
活动图片