NVIDIA Merilis MoE Baru: Tambah Satu Baris 'import', Kecepatan Fine-tuning Meningkat 3.7x

marsbit發佈於 2026-06-26更新於 2026-06-26

文章摘要

Dengan hanya menambahkan satu baris import, NeMo AutoModel NVIDIA mempercepat fine-tuning model MoE hingga 3,7 kali lipat dan mengurangi penggunaan memori GPU sebesar 29%-32%. Solusi ini kompatibel dengan API Hugging Face Transformers v5, sehingga tidak perlu mengubah kode secara signifikan. Teknologi utamanya mencakup Expert Parallelism (EP) untuk mendistribusikan bobot ahli ke beberapa GPU, DeepEP untuk menggabungkan komputasi dan komunikasi, serta TransformerEngine untuk mempercepat operasi inti. Dalam pengujian pada model Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B, throughput pelatihan meningkat 3,4-3,7 kali. Untuk model skala besar seperti Nemotron 3 Ultra 550B, solusi ini tetap dapat dijalankan tanpa kehabisan memori. Kode dan panduan telah tersedia open-source di GitHub NVIDIA.

Satu baris import, fine-tuning model besar MoE 3.7 kali lebih cepat.

Hasil penelitian terbaru NVIDIA kini tersedia sumber terbuka: NeMo AutoModel, dirancang khusus untuk membangun dan melakukan fine-tuning model AI generatif skala besar.

Dengan dasar Hugging Face Transformers v5, NeMo AutoModel mampu melakukan fine-tuning model MoE lebih cepat hanya dengan menambahkan satu baris import, tanpa mengubah kode atau API.

Eksperimen menunjukkan, dibandingkan dengan versi asli Hugging Face Transformers v5, NVIDIA NeMo AutoModel dapat mencapai peningkatan throughput pelatihan sebesar 3.4-3.7 kali dalam fine-tuning MoE, serta mengurangi penggunaan memori GPU sebesar 29%-32%.

Pada node tunggal dengan 8xH100 GPU 80GB, dengan contoh Qwen3-30B-A3B, NeMo AutoModel langsung meningkatkan TPS/GPU (throughput per detik per GPU) dari 3075 menjadi 11340, peningkatan mencapai 3.69 kali.

Analisis Inti Teknologi

MoE telah menjadi arsitektur utama model terkini, namun MoE juga membawa tantangan baru untuk pelatihan yang efisien:

Expert Parallelism, fusi komunikasi, optimisasi kernel... infrastruktur pendukung diperlukan untuk semua rekayasa kompleks ini.

HuggingFace Transformers v5 saat ini adalah "landasan umum" untuk pelatihan MoE yang banyak digunakan. V5 meningkatkan dukungan native untuk MoE, memperkenalkan kemampuan dasar MoE seperti expert backends, dynamic weight loading, dan eksekusi terdistribusi.

Kali ini, pendekatan NVIDIA adalah berdiri di atas pencapaian sebelumnya, kompatibel dengan API HuggingFace Transformers, sehingga memungkinkan pengguna untuk tidak banyak mengubah kode, namun mendapatkan throughput pelatihan yang lebih tinggi dan penggunaan memori yang lebih rendah dalam fine-tuning MoE.

Secara spesifik, NeMo AutoModel menambahkan Expert Parallelism (EP), DeepEP, dan TransformerEngine di atas Transformers v5.

Expert Parallelism (Paralelisme Ahli)

Teknologi Expert Parallelism terutama digunakan untuk mengurangi tekanan memori.

EP mendistribusikan bobot expert ke beberapa GPU, setiap GPU tidak lagi menyimpan seluruh parameter expert, tetapi hanya sebagian dari mereka.

Sebagai contoh, pada 8 GPU dengan ep_size=8, bobot expert didistribusikan ke 8 GPU, penggunaan memori MoE per GPU dapat turun menjadi 1/8 dari aslinya.

Dari hasil eksperimen, untuk Qwen3, teknologi ini dapat menurunkan memori puncak dari 68.2GiB menjadi 48.1GiB, penurunan 29%.

Untuk model Nemotron Nanomo, penggunaan memori turun dari 62.1 GiB menjadi 42.5 GiB, penurunan 32%.

Ruang yang dibebaskan dapat digunakan untuk mendukung ukuran batch yang lebih besar atau urutan yang lebih panjang.

DeepEP

DeepEP mencapai fusi komputasi dan komunikasi.

Dalam metode tradisional, ada biaya komunikasi yang jelas antara distribusi token dan komputasi expert. DeepEP mengintegrasikan operasi distribusi dan penggabungan token ke dalam kernel GPU yang dioptimalkan, mencapai tumpang tindih antara proses komunikasi dan komputasi expert.

TransformerEngine

Kernel TransformerEngine memberikan akselerasi untuk berbagai operasi inti.

Teknologi ini menyediakan implementasi fused untuk mekanisme perhatian, lapisan linier, dan RMSNorm, tidak hanya mempercepat lapisan MoE tetapi juga lapisan Transformer biasa.

Satu Baris 'import', Peningkatan Kecepatan 3 Kali Lipat

Kesimpulannya, bagi pengguna yang sudah menggunakan Transformers v5, NVIDIA NeMo AutoModel menawarkan solusi upgrade tanpa rasa sakit:

Cukup tambahkan satu baris kode import, untuk mendapatkan peningkatan kecepatan fine-tuning MoE 3 kali lipat.

Pada Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B, dibandingkan dengan Transformers v5, solusi ini dapat mencapai peningkatan throughput pelatihan 3.4-3.7 kali, sambil mengurangi konsumsi memori sebesar 29%-32%.

NVIDIA juga menunjukkan hasil fine-tuning parameter penuh untuk Nemotron 3 Ultra 550B A55B pada 16 node H100 dengan 128 GPU.

TPS/GPU adalah 815, TFLOP/s/GPU sekitar 293, memori puncak adalah 58.2GiB.

Alasan tidak ada perbandingan dengan v5 di sini adalah karena Transformers v5 pada skala ini akan langsung membuat memori meluap ̄_(ツ)_/ ̄

Jika tertarik, NVIDIA telah menyediakan kode, konfigurasi, dan skrip benchmark di GitHub: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments

Panduan penggunaan spesifik ada di sini: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility

Artikel ini berasal dari akun WeChat publik "Qubit", penulis: Yu Yang

你可能也喜歡

印度USDT溢价突破8.5%，监管压力收紧供应

印度国内USDT（泰达币）溢价率已飙升至8.5%以上，主要原因是监管压力导致稳定币供应收紧。目前，监管机构通过执法行动和加强监督，抑制了资本流入。供应紧张使得USDT对印度卢比的价格升至102.88卢比，而官方美元/卢比汇率约为94.65，溢价远超通常的3-4%范围。这表明套利效率降低，合规风险阻碍了资本流入。交易员、跨境用户和企业持续争夺有限的稳定币供应。若监管不确定性持续，高溢价可能维持，并促使市场更多依赖非正式交易渠道。监管压力正深刻改变印度稳定币市场的结构，而不仅是造成暂时性价格波动。近几个月，监管执法减缓了新的USDT流入，降低了P2P市场、场外交易柜和交易所订单簿的流动性。尽管供应下降，但活跃钱包地址数和交易量保持相对强劲，显示出跨境支付、贸易结算和美元价值存储等需求依然坚挺。当前，市场效率因监管不确定性而降低，获取美元流动性的成本增加。数据显示，尽管单日交易笔数超过14万，但成交金额因流动性不足而较低，买单量远低于卖单量，做市能力受限。长期来看，若现状持续，交易者可能寻求替代途径或离岸美元流动性。总之，印度市场对USDT的需求保持韧性，但持续的供应限制可能使国内溢价居高不下。USDT流动性的恢复依赖于更明确的监管框架，需要更强的合规路径来重建高效的市场定价。

ambcrypto12 分鐘前

ambcrypto12 分鐘前

美CFTC对Polymarket发起广泛调查，预测市场狂欢季要凉了？

美国商品期货交易委员会（CFTC）正对预测市场平台Polymarket展开广泛调查，涉及对其社交媒体活动等业务的审查。此次调查源于两位美国参议员联名致信，指控Polymarket存在付费KOL虚假营销等行为。此举可能为当前因世界杯而交易量激增的预测市场赛道带来监管寒意。数据显示，预测市场近期增长迅猛，多个平台交易量创新高，并吸引了如Meta等巨头的关注。随着行业扩张，监管力度预计将加强，重点在于明确市场营销、合约内容等方面的边界，以保护投资者并与传统博彩区分。同时，监管权责的博弈也浮出水面。CFTC与肯塔基等多个州就管辖权产生冲突，各州指控此类平台经营非法博彩，而CFTC则主张对相关衍生品合约拥有专属管辖权。争议背后涉及地方税收利益与新兴行业的监管定义。此外，传统交易所如芝商所（CME）也已起诉CFTC，反对其批准预测市场平台推出加密永续合约。资本层面，特朗普家族成员小特朗普同时在Kalshi和Polymarket担任顾问并进行投资，其家族政治影响力也被认为与行业监管环境相关。分析认为，CFTC的调查可能是规范行业发展的必要步骤，预示预测市场将从野蛮生长进入更成熟的发展阶段。

Odaily星球日报1 小時前

Odaily星球日报1 小時前

Claude Code之父最新判断：AI时代团队分工被重写，这「五种人」最吃香

在AI重塑软件行业的背景下，Anthropic Claude Code团队负责人Boris Cherny提出，传统的工程、产品、设计等岗位标签正被打破，团队分工演变为基于行为模式的五类新型角色： 1. **原型师**：专注提出大量创意与颠覆性想法，不追求每个都落地。 2. **构建者**：负责将粗糙原型转化为可投入生产的高可用产品或基础设施。 3. **清理师**：做减法，精简界面、重构代码、移除冗余，提升系统性能与可维护性。 4. **增长师**：推动成型产品小步快跑迭代，结合产品、数据与用户理解，使其从“能用”走向“被需要”。 5. **维护者**：保障成熟系统的长期稳定，专注安全性、可靠性及弹性。这些角色不绑定传统岗位，个人可横跨多种角色。团队组合需根据产品阶段动态调整：探索期需要原型师、构建者和清理师；增长期侧重构建者、清理师和增长师；成熟期则以清理师、增长师和维护者为主。讨论中，许多人认同角色应随项目灵活变化，避免自我固化。尽管AI能力增强，但人类在构建、清理等工作中仍不可或缺。未来，团队更关注成员能在产品生命周期的哪一阶段推动进展，而非僵化的岗位划分。

marsbit1 小時前

marsbit1 小時前

深圳机器人又要敲钟了

深圳机器人行业迎来上市潮。越疆科技创业板IPO申请获受理，进入问询阶段，这家从深圳南山成长起来的协作机器人公司，继2024年港股上市后，正冲刺A股。与此同时，智平方、自变量等深圳机器人企业近日密集宣布融资，“八大金刚”势头强劲，深圳作为“人形机器人第一城”备受瞩目。越疆科技创始人刘培超2014年南下深圳，在南山起步，依托当地完整的电子制造与供应链，将机械臂从工业场景拓展至商业与家庭领域。其发展路径体现了深圳机器人产业的特点：技术、制造与市场需求在紧密的半径内高效协同。南山区西丽湖一带已成为重要的机器人产业集聚区，通过“X-Day”西丽湖路演社等平台，早期项目能快速对接资本与资源。目前该路演活动已助力多家企业获得融资与授信，持续推动深圳机器人生态的创新与成长。

marsbit2 小時前

marsbit2 小時前

Siren价格今日为何下跌？多单清算、资金费率及其他因素解析...

Siren（SIREN）价格在过去24小时内下跌14%，多头清算达17.2万美元，远高于空头清算（2.2万美元）。尽管出现资金外流和未平仓合约减少15%，但多项指标显示短期可能出现反弹。MACD在6月27日出现看涨交叉，MFI从超卖区间回升至38附近，资金费率保持正数（0.0951%），表明市场仍偏向看涨。此外，上方流动性密集区可能吸引价格上行。综合来看，若买盘动力增强，SIREN有望迎来短期反弹，但需价格走势进一步确认。

ambcrypto2 小時前

ambcrypto2 小時前

交易

現貨

NVIDIA Merilis MoE Baru: Tambah Satu Baris 'import', Kecepatan Fine-tuning Meningkat 3.7x

文章摘要

Analisis Inti Teknologi

Expert Parallelism (Paralelisme Ahli)

DeepEP

TransformerEngine

Satu Baris 'import', Peningkatan Kecepatan 3 Kali Lipat

熱門幣種推薦

相關問答

你可能也喜歡

印度USDT溢价突破8.5%，监管压力收紧供应

美CFTC对Polymarket发起广泛调查，预测市场狂欢季要凉了？

Claude Code之父最新判断：AI时代团队分工被重写，这「五种人」最吃香

深圳机器人又要敲钟了

Siren价格今日为何下跌？多单清算、资金费率及其他因素解析...

交易

熱門文章

如何購買ONE

相關討論

熱門問答

熱門分類

熱門標籤