英伟达MoE新开源:一行import,微调加速3.7倍

marsbit發佈於 2026-06-26更新於 2026-06-26

文章摘要

英伟达开源NeMo AutoModel,为MoE大模型微调提供高效方案。该工具基于Hugging Face Transformers v5开发,用户只需添加一行import代码,即可在不改动原有API的情况下,显著提升训练效率。 实验显示,在单节点8×H100 GPU上,相比原版Transformers v5,NeMo AutoModel在Qwen3-30B-A3B等模型上可实现3.4-3.7倍的训练吞吐量提升,同时GPU显存占用减少29%-32%。其核心技术包括专家并行(EP),通过将专家权重分布到多GPU来降低内存压力;DeepEP,融合计算与通信以减少延迟;以及TransformerEngine,对注意力机制等核心运算进行内核加速。 该方案尤其适合已使用Transformers v5的用户,能以最小代码变更获得性能大幅优化。代码与详细指南已在GitHub及英伟达文档中公开。

一行import,MoE大模型微调提速3.7倍

英伟达最新研究成果现已开源:NeMo AutoModel,专为大规模构建和微调生成式AI模型而打造。

在Hugging Face Transformers v5的基础之上,NeMo AutoModel能做到不改代码API,只添一行import,就实现对MoE模型更快速的微调。

实验显示,相比Hugging Face原版Transformers v5,英伟达NeMo AutoModel能在MoE微调中实现3.4-3.7倍训练吞吐提升,并减少29%-32% GPU显存占用

在单节点8xH100 80GB GPU上,以Qwen3-30B-A3B为例,NeMo AutoModel直接把TPS/GPU(每GPU每秒吞吐量)从3075拉到11340,提升达到3.69倍。

核心技术解析

MoE已经成为当前前沿模型的主流架构,但MoE也给高效训练带来了新的挑战:

专家并行、通信融合、kernel优化......这些复杂工程都需要配套的基础设施来支持。

HuggingFace的Transformers v5是目前被用得比较多的MoE训练“通用底座”。v5增强了对MoE的原生支持,引入了expert backends、dynamic weight loading、分布式执行等MoE基础能力。

这一次,英伟达的思路就是站在前辈的肩膀上,兼容HuggingFace Transformers的API,让大家能不大改代码,就在MoE微调里获得更高训练吞吐和更低显存占用

具体来说,NeMo AutoModel在Transformers v5的基础上,增加了专家并行(EP)DeepEPTransformerEngine

专家并行(Expert Parallelism)

专家并行技术主要用来降低内存压力。

EP把专家权重分布到了多个GPU上,每张GPU不再完整持有所有expert,而是只持有其中一部分参数。

举个例子,8张GPU上ep_size=8,专家权重被分布至8块GPU,每张GPU的MoE内存占用能降到原来的1/8

从实验结果来看,对于Qwen3,这项技术能将峰值内存从68.2GiB降至48.1GiB,降幅29%。

对于Nemotron Nanomo模型,内存占用从62.1 GiB降至42.5 GiB,降幅 32%。

释放出的空间可以用来支持更大批次、更长的序列。

DeepEP

DeepEP实现了计算和通信的融合。

传统方式里,token分发和专家计算之间有明显通信成本。DeepEP把token分发和组合操作整合进优化的GPU内核,实现了通信过程和专家计算的重叠。

TransformerEngine

TransformerEngine内核为各类核心运算提供加速。

这项技术提供了融合注意力机制、线性层和RMSNorm等实现,不只加速MoE层,也加速普通Transformer层。

一行import,3倍速度提升

总结来说,对于原本就用上了Transformers v5的盆友们来说,英伟达NeMo AutoModel带来了一个无痛升级方案:

只需加上一行import代码,即可获得3倍MoE微调速度提升。

在Qwen3-30B-A3B和Nemotron 3 Nano 30B-A3B上,相较于Transformers v5,该方案可以实现3.4-3.7倍的训练吞吐量提升,同时内存消耗降低29%-32%。

英伟达还展示了Nemotron 3 Ultra 550B A55B在16个H100节点、128张GPU上的全参数微调结果。

TPS/GPU为815,TFLOP/s/GPU约为293,峰值内存为58.2GiB。

这里没跟v5对比的原因,是Transformers v5在这种规模下会直接撑爆内存 ̄_(ツ)_/ ̄

感兴趣的话,英伟达已经把代码、配置和基准测试脚本都放在GitHub上了:https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments

具体使用指南在这里:https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility

本文来自微信公众号“量子位”,作者:鱼羊

熱門幣種推薦

相關問答

Q英伟达的NeMo AutoModel主要解决了什么问题?

ANeMo AutoModel主要解决了在微调MoE(混合专家)大模型时面临的效率问题。它旨在提升训练吞吐量并降低GPU显存占用,通过与Hugging Face Transformers v5 API兼容,使用户无需大量修改代码即可获得显著的性能提升。

QNeMo AutoModel相比Hugging Face Transformers v5,在训练吞吐和显存占用上具体提升了多少?

A根据实验,相比Hugging Face Transformers v5,英伟达NeMo AutoModel在MoE微调中实现了3.4-3.7倍的训练吞吐提升,同时减少了29%-32%的GPU显存占用。以Qwen3-30B-A3B为例,在8xH100 GPU上,每GPU每秒吞吐量从3075提升到了11340。

QNeMo AutoModel在技术层面主要引入了哪三项关键技术?

ANeMo AutoModel在Transformers v5的基础上,主要引入了三项关键技术:1. 专家并行(EP),用于将专家权重分布在多个GPU上以降低内存压力;2. DeepEP,通过融合计算和通信来减少通信成本;3. TransformerEngine,为注意力机制、线性层等核心运算提供优化的GPU内核加速。

Q什么是专家并行(EP)?它带来了什么好处?

A专家并行(EP)是一种分布式训练技术,它将MoE模型中的专家权重分布到多个GPU上,每张GPU只持有部分专家参数。这样做的好处是大幅降低了单张GPU的内存占用(例如在8张GPU上可降至原来的1/8),从而可以支持更大的批次大小或更长的序列长度进行训练。

Q如何开始使用NeMo AutoModel来加速MoE模型的微调?

A对于已经使用Hugging Face Transformers v5的用户,只需在代码中添加一行导入(import)NeMo AutoModel的语句,无需大规模修改现有代码和API,即可实现对MoE模型更快速的微调,获得更高的训练吞吐和更低的显存占用。具体代码和指南可以在GitHub和NVIDIA NeMo文档中找到。

你可能也喜歡

韩国机构的加密竞赛:稳定币与 RWA 双线爆发

韩国加密货币市场正经历结构性变革,金融与互联网巨头依托庞大的散户基础,积极布局机构级区块链基础设施,其中稳定币和现实资产(RWA)代币化是两大核心驱动力。 在稳定币领域,各方正围绕合规韩元稳定币的发行主体展开博弈。银行(如KB金融、韩亚金融)、支付商(如新韩信用卡、BC Card、Danal)及互联网平台(如KakaoPay、NAVER Pay)均已开展试点,旨在防御因美元稳定币流行导致的资金外流,并将数字金融活动锚定在本土体系内。加密原生项目若能在此期间主动提供底层技术解决方案,有望在监管放开后成为关键基建一环。 RWA代币化方面,韩国机构进展迅速,且聚焦本土特色产业,如船舶融资、军工供应链、K-pop知识产权等。相关法律框架(《资本市场法》修订)将于2027年初生效,新韩投资证券等机构已牵头搭建交易平台。加密项目的机遇在于弥补韩国券商的技术短板,提供全球分发渠道、跨链流动性方案及资产赋能工具,而非试图颠覆现有机构。 用户入口方面,互联网平台掌握关键流量。NAVER拟收购Upbit母公司Dunamu,Kakao正打造统一数字钱包,Toss则拥有全金融牌照和广泛线下网络。它们将区块链视为底层基建,是加密项目触达海量普通用户的重要渠道。 当前韩国监管框架逐步明晰,市场已具备散户基础、机构试点和民众认知。在监管完全落地前,与本土机构建立深度合作、落地实用场景的加密企业,将更有可能定义韩国数字资产行业的未来格局。美国《CLARITY法案》等外部监管进展也可能影响韩国市场的推进节奏。

Foresight News31 分鐘前

韩国机构的加密竞赛:稳定币与 RWA 双线爆发

Foresight News31 分鐘前

如何判断AI视频真假?综述动态、可溯源、可解释的检测体系

随着AI生成视频技术(如Sora、Veo等模型)的飞速发展,生成内容的逼真度已大幅提升,对虚假视频的检测变得日益困难且紧迫。传统仅输出“真假”二分类的检测方法已无法满足需求,检测目标应重新定义为“事实保真度验证”,即核查视频内容在感知和认知层面是否与真实世界一致。 本文综述了AI生成视频检测领域的最新进展。首先,将AI生成视频分为三类范式:局部操控视频、跨模态音视频编辑和端到端生成式视频合成。针对检测,提出了一个从低层到高层的四层方法框架: 1. 底层视觉线索分析:检测像素异常、生理信号等底层伪迹。 2. 时空一致性分析:核查视频在时间和空间上的连续性与合理性。 3. 跨模态一致性分析:验证视频内画面、声音、文字等多模态信息是否对齐。 4. 语言引导的世界级推理:引入外部知识,判断视频内容是否符合常识、物理规律和事实。 检测方法的演进趋势是从依赖视觉线索(第1、2层)逐步转向结合语言和多模态推理(第3、4层)。评测体系也需相应发展,不仅评估分类准确率,更要关注模型判断的可解释性、证据的可靠性以及在真实复杂环境下的鲁棒性。 未来的可信检测系统需要协同视觉与语言双视角,建立“识别-定位-解释”的清晰推理路径,并将内容分析与来源追溯相结合。这需要计算机视觉、自然语言处理、多模态理解等领域的共同努力,构建动态、可溯源、可解释的检测体系,以应对日益严峻的AI生成视频挑战。

marsbit1 小時前

如何判断AI视频真假?综述动态、可溯源、可解释的检测体系

marsbit1 小時前

万万没想到,AI x Crypto 最先落地的是安全审计

AI正深刻改变加密领域安全审计的格局。数据显示,2026年上半年DeFi领域安全事件频发,累计损失约9.42亿美元,其中第二季度尤为严重。传统观点认为安全审计需求稳定,但以Claude Mythos为代表的新一代AI工具大幅降低了发现智能合约漏洞的门槛,攻击者可快速扫描并利用漏洞,使得传统审计报告的有效期急剧缩短。 攻击不再局限于小型协议,即使经过多家知名机构审计的头部协议也频繁遭殃。攻击手段扩展到社会工程学、基础设施配置缺陷等领域,显示代码审计的覆盖范围存在局限。例如,Drift Protocol和KelpDAO均因非代码层面的漏洞导致重大损失。同时,AI也在辅助攻击者挖掘多年前部署的旧合约漏洞,使历史审计的保护价值归零。OpenZeppelin联合创始人甚至公开表示“所有DeFi都不安全”,引发行业广泛讨论。 面对挑战,项目方开始基于新标准进行防御性的重复审计,但这更多是应对风险的被动支出。审计机构则加速转型,一方面研发AI辅助审计系统提升效率,如OpenZeppelin推出Skills系统将安全防线前移;另一方面,商业模式正从一次性报告交付转向提供持续监控、形式化验证等嵌入式服务。例如,AI原生审计工具Firepan在已被多重人工审计的Curve合约中发现了新的组合型漏洞,展现了AI在防守端的潜力。 总之,AI加剧了攻防两端的竞赛。对于项目方,安全已成为需要持续投入的基础设施;对于审计机构,唯有加快技术和服务模式的重构,才能适应新时代的竞争。安全审计赛道正从红利模式转向激烈的竞争模式。

链捕手1 小時前

万万没想到,AI x Crypto 最先落地的是安全审计

链捕手1 小時前

交易

現貨

熱門文章

如何購買ONE

歡迎來到HTX.com!在這裡,購買Harmony (ONE)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Harmony (ONE)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Harmony (ONE)購買Harmony (ONE)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Harmony (ONE)在HTX的現貨市場輕鬆交易Harmony (ONE)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

658 人學過發佈於 2024.12.12更新於 2026.06.02

如何購買ONE

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 ONE (ONE)幣價的意見。

活动图片