英伟达MoE新开源：一行import，微调加速3.7倍

marsbit发布于2026-06-26更新于2026-06-26

文章摘要

英伟达开源NeMo AutoModel，为MoE大模型微调提供高效方案。该工具基于Hugging Face Transformers v5开发，用户只需添加一行import代码，即可在不改动原有API的情况下，显著提升训练效率。实验显示，在单节点8×H100 GPU上，相比原版Transformers v5，NeMo AutoModel在Qwen3-30B-A3B等模型上可实现3.4-3.7倍的训练吞吐量提升，同时GPU显存占用减少29%-32%。其核心技术包括专家并行（EP），通过将专家权重分布到多GPU来降低内存压力；DeepEP，融合计算与通信以减少延迟；以及TransformerEngine，对注意力机制等核心运算进行内核加速。该方案尤其适合已使用Transformers v5的用户，能以最小代码变更获得性能大幅优化。代码与详细指南已在GitHub及英伟达文档中公开。

一行import,MoE大模型微调提速3.7倍。

英伟达最新研究成果现已开源:NeMo AutoModel,专为大规模构建和微调生成式AI模型而打造。

在Hugging Face Transformers v5的基础之上,NeMo AutoModel能做到不改代码API,只添一行import,就实现对MoE模型更快速的微调。

实验显示,相比Hugging Face原版Transformers v5,英伟达NeMo AutoModel能在MoE微调中实现3.4-3.7倍训练吞吐提升,并减少29%-32% GPU显存占用。

在单节点8xH100 80GB GPU上,以Qwen3-30B-A3B为例,NeMo AutoModel直接把TPS/GPU(每GPU每秒吞吐量)从3075拉到11340,提升达到3.69倍。

核心技术解析

MoE已经成为当前前沿模型的主流架构,但MoE也给高效训练带来了新的挑战:

专家并行、通信融合、kernel优化......这些复杂工程都需要配套的基础设施来支持。

HuggingFace的Transformers v5是目前被用得比较多的MoE训练“通用底座”。v5增强了对MoE的原生支持,引入了expert backends、dynamic weight loading、分布式执行等MoE基础能力。

这一次,英伟达的思路就是站在前辈的肩膀上,兼容HuggingFace Transformers的API,让大家能不大改代码,就在MoE微调里获得更高训练吞吐和更低显存占用。

具体来说,NeMo AutoModel在Transformers v5的基础上,增加了专家并行(EP)、DeepEP和TransformerEngine。

专家并行(Expert Parallelism)

专家并行技术主要用来降低内存压力。

EP把专家权重分布到了多个GPU上,每张GPU不再完整持有所有expert,而是只持有其中一部分参数。

举个例子,8张GPU上ep_size=8,专家权重被分布至8块GPU,每张GPU的MoE内存占用能降到原来的1/8。

从实验结果来看,对于Qwen3,这项技术能将峰值内存从68.2GiB降至48.1GiB,降幅29%。

对于Nemotron Nanomo模型,内存占用从62.1 GiB降至42.5 GiB,降幅 32%。

释放出的空间可以用来支持更大批次、更长的序列。

DeepEP

DeepEP实现了计算和通信的融合。

传统方式里,token分发和专家计算之间有明显通信成本。DeepEP把token分发和组合操作整合进优化的GPU内核,实现了通信过程和专家计算的重叠。

TransformerEngine

TransformerEngine内核为各类核心运算提供加速。

这项技术提供了融合注意力机制、线性层和RMSNorm等实现,不只加速MoE层,也加速普通Transformer层。

一行import,3倍速度提升

总结来说,对于原本就用上了Transformers v5的盆友们来说,英伟达NeMo AutoModel带来了一个无痛升级方案:

只需加上一行import代码,即可获得3倍MoE微调速度提升。

在Qwen3-30B-A3B和Nemotron 3 Nano 30B-A3B上,相较于Transformers v5,该方案可以实现3.4-3.7倍的训练吞吐量提升,同时内存消耗降低29%-32%。

英伟达还展示了Nemotron 3 Ultra 550B A55B在16个H100节点、128张GPU上的全参数微调结果。

TPS/GPU为815,TFLOP/s/GPU约为293,峰值内存为58.2GiB。

这里没跟v5对比的原因,是Transformers v5在这种规模下会直接撑爆内存 ̄_(ツ)_/ ̄

感兴趣的话,英伟达已经把代码、配置和基准测试脚本都放在GitHub上了:https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments

具体使用指南在这里:https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility

本文来自微信公众号“量子位”,作者:鱼羊

你可能也喜欢

Collector Crypt晋升链上“印钞机”：日活不足千人，巨鲸撑起97%收入

近期，TCG项目Collector Crypt凭借强劲的盈利能力冲入全网协议收入榜前十，并一度登顶Solana收入最高协议，成为市场焦点。它将收藏和抽卡玩法搬到链上，推动了代币化TCG赛道的增长。链上TCG市场在2026年6月交易额突破4.9亿美元，同比增长超7倍，月活用户约5300人。其表现已超过同期的NFT市场，这得益于实体卡牌的价值支撑、游戏属性和链上流动性。Solana凭借先发优势和Collector Crypt等应用，占据了该市场超80%的份额。 Collector Crypt在该赛道占据统治地位，其近一周交易额占市场总额的74.3%，单周协议收入约520万美元。然而，其收入高度集中于少数“巨鲸”用户：仅占用户总数14.6%的高消费用户，贡献了平台约97.1%的收入。同时，平台毛利率持续走低，收入留存率也偏低。推动其增长的核心是链上扭蛋（Gacha）机制，它刺激了用户的重复消费。宝可梦IP是主要流量来源，占平台代币化收藏品价值的73.8%。其原生代币CARDS通过回购机制和空投激励，构建了增长飞轮，年内涨幅显著。但需注意，代币将持续解锁，可能带来市场抛压。总体而言，Collector Crypt验证了链上TCG商业模式的潜力，但该赛道仍处早期，在用户拓展和降低对巨鲸依赖等方面面临挑战。

marsbit刚刚

Collector Crypt晋升链上“印钞机”：日活不足千人，巨鲸撑起97%收入

marsbit刚刚

计算机安全第一人宋晓冬，加入Meta

本周四，加州大学伯克利分校（UC Berkeley）计算机教授、被誉为“计算机安全第一人”的宋晓冬（Dawn Song）宣布加入Meta的超级智能实验室（Superintelligence Labs），担任AI研究副总裁，直接向实验室主管Nat Friedman汇报。宋晓冬是全球计算机安全与AI安全领域最具影响力的学者之一，在伯克利任教期间，她还担任去中心化智能中心联合主任。她是麦克阿瑟天才奖得主，同时也是ACM Fellow、IEEE Fellow和美国艺术与科学院院士。她在2005年提出的“污点分析法”是计算机安全领域的经典论文。近年来，她的研究重点扩展到对抗性机器学习和智能体安全领域，并深度参与了生成式AI安全基准测试的制定。她也是Oasis Labs和专注于企业级AI安全基础设施的Virtue AI公司的创始人。据报道，此次Virtue AI的另两位创始人Bo Li、Sanmi Koyejo及其他团队成员也一同加入了Meta。此举被认为是Meta为了加强其在智能体安全方面的措施，以应对日益受到关注的AI安全问题，并向监管机构和公众证明其模型具备抵御恶意滥用的能力。文章同时提及，谷歌Gemini Reasoning Team的创始人Denny Zhou已于数月前离开谷歌加入Meta，他在推动大模型推理技术（如思维链、自我一致性等方法）方面是关键人物。

marsbit31分钟前

marsbit31分钟前

韩国机构的加密竞赛：稳定币与 RWA 双线爆发

韩国加密货币市场正经历结构性变革，金融与互联网巨头依托庞大的散户基础，积极布局机构级区块链基础设施，其中稳定币和现实资产（RWA）代币化是两大核心驱动力。在稳定币领域，各方正围绕合规韩元稳定币的发行主体展开博弈。银行（如KB金融、韩亚金融）、支付商（如新韩信用卡、BC Card、Danal）及互联网平台（如KakaoPay、NAVER Pay）均已开展试点，旨在防御因美元稳定币流行导致的资金外流，并将数字金融活动锚定在本土体系内。加密原生项目若能在此期间主动提供底层技术解决方案，有望在监管放开后成为关键基建一环。 RWA代币化方面，韩国机构进展迅速，且聚焦本土特色产业，如船舶融资、军工供应链、K-pop知识产权等。相关法律框架（《资本市场法》修订）将于2027年初生效，新韩投资证券等机构已牵头搭建交易平台。加密项目的机遇在于弥补韩国券商的技术短板，提供全球分发渠道、跨链流动性方案及资产赋能工具，而非试图颠覆现有机构。用户入口方面，互联网平台掌握关键流量。NAVER拟收购Upbit母公司Dunamu，Kakao正打造统一数字钱包，Toss则拥有全金融牌照和广泛线下网络。它们将区块链视为底层基建，是加密项目触达海量普通用户的重要渠道。当前韩国监管框架逐步明晰，市场已具备散户基础、机构试点和民众认知。在监管完全落地前，与本土机构建立深度合作、落地实用场景的加密企业，将更有可能定义韩国数字资产行业的未来格局。美国《CLARITY法案》等外部监管进展也可能影响韩国市场的推进节奏。

Foresight News40分钟前

Foresight News40分钟前

如何判断AI视频真假？综述动态、可溯源、可解释的检测体系

随着AI生成视频技术（如Sora、Veo等模型）的飞速发展，生成内容的逼真度已大幅提升，对虚假视频的检测变得日益困难且紧迫。传统仅输出“真假”二分类的检测方法已无法满足需求，检测目标应重新定义为“事实保真度验证”，即核查视频内容在感知和认知层面是否与真实世界一致。本文综述了AI生成视频检测领域的最新进展。首先，将AI生成视频分为三类范式：局部操控视频、跨模态音视频编辑和端到端生成式视频合成。针对检测，提出了一个从低层到高层的四层方法框架： 1. 底层视觉线索分析：检测像素异常、生理信号等底层伪迹。 2. 时空一致性分析：核查视频在时间和空间上的连续性与合理性。 3. 跨模态一致性分析：验证视频内画面、声音、文字等多模态信息是否对齐。 4. 语言引导的世界级推理：引入外部知识，判断视频内容是否符合常识、物理规律和事实。检测方法的演进趋势是从依赖视觉线索（第1、2层）逐步转向结合语言和多模态推理（第3、4层）。评测体系也需相应发展，不仅评估分类准确率，更要关注模型判断的可解释性、证据的可靠性以及在真实复杂环境下的鲁棒性。未来的可信检测系统需要协同视觉与语言双视角，建立“识别-定位-解释”的清晰推理路径，并将内容分析与来源追溯相结合。这需要计算机视觉、自然语言处理、多模态理解等领域的共同努力，构建动态、可溯源、可解释的检测体系，以应对日益严峻的AI生成视频挑战。

marsbit1小时前

marsbit1小时前

万万没想到，AI x Crypto 最先落地的是安全审计

AI正深刻改变加密领域安全审计的格局。数据显示，2026年上半年DeFi领域安全事件频发，累计损失约9.42亿美元，其中第二季度尤为严重。传统观点认为安全审计需求稳定，但以Claude Mythos为代表的新一代AI工具大幅降低了发现智能合约漏洞的门槛，攻击者可快速扫描并利用漏洞，使得传统审计报告的有效期急剧缩短。攻击不再局限于小型协议，即使经过多家知名机构审计的头部协议也频繁遭殃。攻击手段扩展到社会工程学、基础设施配置缺陷等领域，显示代码审计的覆盖范围存在局限。例如，Drift Protocol和KelpDAO均因非代码层面的漏洞导致重大损失。同时，AI也在辅助攻击者挖掘多年前部署的旧合约漏洞，使历史审计的保护价值归零。OpenZeppelin联合创始人甚至公开表示“所有DeFi都不安全”，引发行业广泛讨论。面对挑战，项目方开始基于新标准进行防御性的重复审计，但这更多是应对风险的被动支出。审计机构则加速转型，一方面研发AI辅助审计系统提升效率，如OpenZeppelin推出Skills系统将安全防线前移；另一方面，商业模式正从一次性报告交付转向提供持续监控、形式化验证等嵌入式服务。例如，AI原生审计工具Firepan在已被多重人工审计的Curve合约中发现了新的组合型漏洞，展现了AI在防守端的潜力。总之，AI加剧了攻防两端的竞赛。对于项目方，安全已成为需要持续投入的基础设施；对于审计机构，唯有加快技术和服务模式的重构，才能适应新时代的竞争。安全审计赛道正从红利模式转向激烈的竞争模式。

链捕手1小时前

链捕手1小时前

交易

现货

英伟达MoE新开源：一行import，微调加速3.7倍

文章摘要

核心技术解析

专家并行(Expert Parallelism)

DeepEP

TransformerEngine

一行import,3倍速度提升

热门币种推荐

相关问答

你可能也喜欢

Collector Crypt晋升链上“印钞机”：日活不足千人，巨鲸撑起97%收入

计算机安全第一人宋晓冬，加入Meta

韩国机构的加密竞赛：稳定币与 RWA 双线爆发

如何判断AI视频真假？综述动态、可溯源、可解释的检测体系

万万没想到，AI x Crypto 最先落地的是安全审计

交易

热门文章

如何购买ONE

相关讨论

热门问答

热门分类

热门标签