Makalah Baru AMD Mengubah Persepsi: Ketidakstabilan Pelatihan FP4 Bukan Karena Kurangnya Randomness
AMD dan Penn State University menerbitkan makalah baru yang mengungkap alasan di balik ketidakstabilan pelatihan model bahasa besar (LLM) dengan presisi FP4. Bertentangan dengan keyakinan sebelumnya bahwa masalahnya adalah kurangnya randomness, penelitian ini mengidentifikasi penyebab utamanya sebagai akumulasi dan amplifikasi kesalahan struktural dari mikro-skala (micro-scaling) di jalur gradien sensitif, khususnya saat menghitung gradien bobot (Wgrad).
Makalah ini berhasil melakukan pra-pelatihan penuh model Llama 3.1-8B menggunakan format MXFP4 pada perangkat keras native FP4 (AMD Instinct MI355X). Untuk menstabilkan pelatihan, tim menerapkan rotasi Hadamard deterministik, bukan metode acak, yang berhasil mengurangi overhead token hanya 8-9% dibandingkan baseline FP8, dengan percepatan pelatihan ujung-ke-ujung 9-10%.
Temuan ini memiliki implikasi signifikan: (1) Memberikan diagnosis jelas untuk ketidakstabilan pelatihan presisi rendah, (2) Membuka kemungkinan penggunaan FP4 tidak hanya untuk inferensi tetapi juga untuk pelatihan, berpotensi menggandakan efisiensi perangkat keras yang ada, dan (3) Menggunakan standar terbuka OCP Microscaling, memastikan portabilitas di berbagai perangkat keras. Ini merupakan langkah penting menuju pelatihan AI yang lebih efisien secara ekonomis.
marsbit05/27 06:22