Berita Terkait Pelatihan FP4 – Informasi Terbaru Pelatihan FP4 HTX

Makalah Baru AMD Mengubah Persepsi: Ketidakstabilan Pelatihan FP4 Bukan Karena Kurangnya Randomness

AMD dan Penn State University menerbitkan makalah baru yang mengungkap alasan di balik ketidakstabilan pelatihan model bahasa besar (LLM) dengan presisi FP4. Bertentangan dengan keyakinan sebelumnya bahwa masalahnya adalah kurangnya randomness, penelitian ini mengidentifikasi penyebab utamanya sebagai akumulasi dan amplifikasi kesalahan struktural dari mikro-skala (micro-scaling) di jalur gradien sensitif, khususnya saat menghitung gradien bobot (Wgrad). Makalah ini berhasil melakukan pra-pelatihan penuh model Llama 3.1-8B menggunakan format MXFP4 pada perangkat keras native FP4 (AMD Instinct MI355X). Untuk menstabilkan pelatihan, tim menerapkan rotasi Hadamard deterministik, bukan metode acak, yang berhasil mengurangi overhead token hanya 8-9% dibandingkan baseline FP8, dengan percepatan pelatihan ujung-ke-ujung 9-10%. Temuan ini memiliki implikasi signifikan: (1) Memberikan diagnosis jelas untuk ketidakstabilan pelatihan presisi rendah, (2) Membuka kemungkinan penggunaan FP4 tidak hanya untuk inferensi tetapi juga untuk pelatihan, berpotensi menggandakan efisiensi perangkat keras yang ada, dan (3) Menggunakan standar terbuka OCP Microscaling, memastikan portabilitas di berbagai perangkat keras. Ini merupakan langkah penting menuju pelatihan AI yang lebih efisien secara ekonomis.

marsbit05/27 06:22

Makalah Baru AMD Mengubah Persepsi: Ketidakstabilan Pelatihan FP4 Bukan Karena Kurangnya Randomness

marsbit05/27 06:22

# Artikel Terkait Pelatihan FP4

Makalah Baru AMD Mengubah Persepsi: Ketidakstabilan Pelatihan FP4 Bukan Karena Kurangnya Randomness

Kategori Populer

Tag Populer

Bitcoin

Lainnya