NVIDIA Merilis MoE Baru: Tambah Satu Baris 'import', Kecepatan Fine-tuning Meningkat 3.7x

marsbit發佈於 2026-06-26更新於 2026-06-26

文章摘要

Dengan hanya menambahkan satu baris import, NeMo AutoModel NVIDIA mempercepat fine-tuning model MoE hingga 3,7 kali lipat dan mengurangi penggunaan memori GPU sebesar 29%-32%. Solusi ini kompatibel dengan API Hugging Face Transformers v5, sehingga tidak perlu mengubah kode secara signifikan. Teknologi utamanya mencakup Expert Parallelism (EP) untuk mendistribusikan bobot ahli ke beberapa GPU, DeepEP untuk menggabungkan komputasi dan komunikasi, serta TransformerEngine untuk mempercepat operasi inti. Dalam pengujian pada model Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B, throughput pelatihan meningkat 3,4-3,7 kali. Untuk model skala besar seperti Nemotron 3 Ultra 550B, solusi ini tetap dapat dijalankan tanpa kehabisan memori. Kode dan panduan telah tersedia open-source di GitHub NVIDIA.

Satu baris import, fine-tuning model besar MoE 3.7 kali lebih cepat.

Hasil penelitian terbaru NVIDIA kini tersedia sumber terbuka: NeMo AutoModel, dirancang khusus untuk membangun dan melakukan fine-tuning model AI generatif skala besar.

Dengan dasar Hugging Face Transformers v5, NeMo AutoModel mampu melakukan fine-tuning model MoE lebih cepat hanya dengan menambahkan satu baris import, tanpa mengubah kode atau API.

Eksperimen menunjukkan, dibandingkan dengan versi asli Hugging Face Transformers v5, NVIDIA NeMo AutoModel dapat mencapai peningkatan throughput pelatihan sebesar 3.4-3.7 kali dalam fine-tuning MoE, serta mengurangi penggunaan memori GPU sebesar 29%-32%.

Pada node tunggal dengan 8xH100 GPU 80GB, dengan contoh Qwen3-30B-A3B, NeMo AutoModel langsung meningkatkan TPS/GPU (throughput per detik per GPU) dari 3075 menjadi 11340, peningkatan mencapai 3.69 kali.

Analisis Inti Teknologi

MoE telah menjadi arsitektur utama model terkini, namun MoE juga membawa tantangan baru untuk pelatihan yang efisien:

Expert Parallelism, fusi komunikasi, optimisasi kernel... infrastruktur pendukung diperlukan untuk semua rekayasa kompleks ini.

HuggingFace Transformers v5 saat ini adalah "landasan umum" untuk pelatihan MoE yang banyak digunakan. V5 meningkatkan dukungan native untuk MoE, memperkenalkan kemampuan dasar MoE seperti expert backends, dynamic weight loading, dan eksekusi terdistribusi.

Kali ini, pendekatan NVIDIA adalah berdiri di atas pencapaian sebelumnya, kompatibel dengan API HuggingFace Transformers, sehingga memungkinkan pengguna untuk tidak banyak mengubah kode, namun mendapatkan throughput pelatihan yang lebih tinggi dan penggunaan memori yang lebih rendah dalam fine-tuning MoE.

Secara spesifik, NeMo AutoModel menambahkan Expert Parallelism (EP), DeepEP, dan TransformerEngine di atas Transformers v5.

Expert Parallelism (Paralelisme Ahli)

Teknologi Expert Parallelism terutama digunakan untuk mengurangi tekanan memori.

EP mendistribusikan bobot expert ke beberapa GPU, setiap GPU tidak lagi menyimpan seluruh parameter expert, tetapi hanya sebagian dari mereka.

Sebagai contoh, pada 8 GPU dengan ep_size=8, bobot expert didistribusikan ke 8 GPU, penggunaan memori MoE per GPU dapat turun menjadi 1/8 dari aslinya.

Dari hasil eksperimen, untuk Qwen3, teknologi ini dapat menurunkan memori puncak dari 68.2GiB menjadi 48.1GiB, penurunan 29%.

Untuk model Nemotron Nanomo, penggunaan memori turun dari 62.1 GiB menjadi 42.5 GiB, penurunan 32%.

Ruang yang dibebaskan dapat digunakan untuk mendukung ukuran batch yang lebih besar atau urutan yang lebih panjang.

DeepEP

DeepEP mencapai fusi komputasi dan komunikasi.

Dalam metode tradisional, ada biaya komunikasi yang jelas antara distribusi token dan komputasi expert. DeepEP mengintegrasikan operasi distribusi dan penggabungan token ke dalam kernel GPU yang dioptimalkan, mencapai tumpang tindih antara proses komunikasi dan komputasi expert.

TransformerEngine

Kernel TransformerEngine memberikan akselerasi untuk berbagai operasi inti.

Teknologi ini menyediakan implementasi fused untuk mekanisme perhatian, lapisan linier, dan RMSNorm, tidak hanya mempercepat lapisan MoE tetapi juga lapisan Transformer biasa.

Satu Baris 'import', Peningkatan Kecepatan 3 Kali Lipat

Kesimpulannya, bagi pengguna yang sudah menggunakan Transformers v5, NVIDIA NeMo AutoModel menawarkan solusi upgrade tanpa rasa sakit:

Cukup tambahkan satu baris kode import, untuk mendapatkan peningkatan kecepatan fine-tuning MoE 3 kali lipat.

Pada Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B, dibandingkan dengan Transformers v5, solusi ini dapat mencapai peningkatan throughput pelatihan 3.4-3.7 kali, sambil mengurangi konsumsi memori sebesar 29%-32%.

NVIDIA juga menunjukkan hasil fine-tuning parameter penuh untuk Nemotron 3 Ultra 550B A55B pada 16 node H100 dengan 128 GPU.

TPS/GPU adalah 815, TFLOP/s/GPU sekitar 293, memori puncak adalah 58.2GiB.

Alasan tidak ada perbandingan dengan v5 di sini adalah karena Transformers v5 pada skala ini akan langsung membuat memori meluap ̄_(ツ)_/ ̄

Jika tertarik, NVIDIA telah menyediakan kode, konfigurasi, dan skrip benchmark di GitHub: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments

Panduan penggunaan spesifik ada di sini: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility

Artikel ini berasal dari akun WeChat publik "Qubit", penulis: Yu Yang

熱門幣種推薦

相關問答

QApa keuntungan utama menggunakan NeMo AutoModel dari NVIDIA dalam fine-tuning model MoE?

AKeuntungan utamanya adalah peningkatan kecepatan fine-tuning hingga 3.4-3.7 kali lebih cepat dan pengurangan penggunaan memori GPU sebesar 29%-32%, hanya dengan menambahkan satu baris kode `import` tanpa mengubah kode yang ada.

QTeknologi inti apa saja yang ditambahkan oleh NeMo AutoModel di atas Transformers v5 untuk mencapai peningkatan kinerja tersebut?

ANeMo AutoModel menambahkan tiga teknologi inti: Expert Parallelism (EP) untuk mendistribusikan bobot ahli ke beberapa GPU, DeepEP untuk menggabungkan komputasi dan komunikasi, serta TransformerEngine untuk akselerasi kernel pada operasi inti seperti attention mechanism.

QBagaimana Expert Parallelism (EP) dalam NeMo AutoModel membantu menghemat memori GPU?

AExpert Parallelism mendistribusikan bobot para ahli (expert weights) model MoE ke beberapa GPU. Misalnya, dengan 8 GPU, setiap GPU hanya menyimpan 1/8 dari total parameter ahli, sehingga mengurangi beban memori per GPU secara signifikan, seperti yang ditunjukkan dengan penurunan dari 68.2GiB menjadi 48.1GiB untuk model Qwen3.

QModel apa saja yang diuji dalam artikel ini untuk menunjukkan peningkatan kinerja NeMo AutoModel?

AArtikel ini menguji peningkatan kinerja pada model Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B untuk fine-tuning. Selain itu, juga ditunjukkan hasil fine-tuning penuh parameter pada model skala besar Nemotron 3 Ultra 550B A55B menggunakan 128 GPU H100.

QDi mana kita dapat menemukan kode, konfigurasi, dan pedoman penggunaan untuk NeMo AutoModel?

AKode, konfigurasi, dan skrip benchmark untuk NeMo AutoModel tersedia di repositori GitHub NVIDIA: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments. Panduan penggunaan lengkap dapat ditemukan di: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility.

你可能也喜歡

印度USDT溢价突破8.5%,监管压力收紧供应

印度国内USDT(泰达币)溢价率已飙升至8.5%以上,主要原因是监管压力导致稳定币供应收紧。目前,监管机构通过执法行动和加强监督,抑制了资本流入。 供应紧张使得USDT对印度卢比的价格升至102.88卢比,而官方美元/卢比汇率约为94.65,溢价远超通常的3-4%范围。这表明套利效率降低,合规风险阻碍了资本流入。交易员、跨境用户和企业持续争夺有限的稳定币供应。若监管不确定性持续,高溢价可能维持,并促使市场更多依赖非正式交易渠道。 监管压力正深刻改变印度稳定币市场的结构,而不仅是造成暂时性价格波动。近几个月,监管执法减缓了新的USDT流入,降低了P2P市场、场外交易柜和交易所订单簿的流动性。尽管供应下降,但活跃钱包地址数和交易量保持相对强劲,显示出跨境支付、贸易结算和美元价值存储等需求依然坚挺。 当前,市场效率因监管不确定性而降低,获取美元流动性的成本增加。数据显示,尽管单日交易笔数超过14万,但成交金额因流动性不足而较低,买单量远低于卖单量,做市能力受限。长期来看,若现状持续,交易者可能寻求替代途径或离岸美元流动性。 总之,印度市场对USDT的需求保持韧性,但持续的供应限制可能使国内溢价居高不下。USDT流动性的恢复依赖于更明确的监管框架,需要更强的合规路径来重建高效的市场定价。

ambcrypto12 分鐘前

印度USDT溢价突破8.5%,监管压力收紧供应

ambcrypto12 分鐘前

交易

現貨

熱門文章

如何購買ONE

歡迎來到HTX.com!在這裡,購買Harmony (ONE)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Harmony (ONE)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Harmony (ONE)購買Harmony (ONE)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Harmony (ONE)在HTX的現貨市場輕鬆交易Harmony (ONE)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

668 人學過發佈於 2024.12.12更新於 2026.06.02

如何購買ONE

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 ONE (ONE)幣價的意見。

活动图片