AMD新论文颠覆认知:FP4训练不稳定,原因不是随机性不足

marsbit发布于2026-05-27更新于2026-05-27

文章摘要

AMD最新研究发现,FP4训练不稳定的主要原因并非此前认为的随机性不足,而是结构性微缩放误差在关键梯度路径上累积放大所致。 过去,尝试使用FP4从头训练大模型常因训练不稳定而失败。AMD与宾夕法尼亚州立大学的论文通过实验证明,在Transformer的权重梯度计算路径上使用FP4量化会导致收敛质量显著下降。此前用于缓解量化误差的随机性策略(如随机舍入)在此场景下反而加剧了不稳定性。 研究团队采用MXFP4数据格式,并引入确定性Hadamard旋转作为稳定化方法,成功在AMD MI355X GPU上完成了Llama 3.1-8B模型的全流程FP4预训练。结果显示,该方法在仅增加8-9%训练数据开销的情况下,实现了比FP8基线快9-10%的端到端训练速度。 这项研究首次在原生FP4硬件上验证了低精度训练的可行性,为降低大模型训练成本提供了新方向,并指出结构性误差分析比增加随机性更为关键。基于开放标准OCP的MXFP4格式也增强了该方案在不同硬件平台间的可移植性。

众所周知,大模型训练成本极高。

但大家又知道,降低训练精度能够显著降低训练成本。DeepSeek-V3 用 FP8 训练把成本打到了 560 万美元,已经让全行业侧目。

在 FP8 成功后,行业仍然在不断探索低精度的边界:从 FP8 降到 FP4,训练成本还能再降多少?

理论上,FP4 的计算吞吐可以是 FP8 的两倍。NVIDIA Blackwell 和 AMD MI350 系列都已经在硬件层面原生支持了 FP4 运算,前者在 B200 上标称 FP4 算力可达 4500 TOPS(稀疏)。硬件已经准备好了,但软件和算法那一侧,一直卡在一个问题上:

用 FP4 从头训练大模型,训练过程非常不稳定。

过去两年里,LLM-FP4、NVFP4 预训练等工作陆续尝试了这条路,但鲜有方案能在 4 比特精度下干净利落地跑通全流程预训练,同时保持接近 FP8 的收敛质量。

更棘手的是,崩溃的原因一直不清楚,分析认为,FP4 训练不稳定的原因很可能来自随机性不足。

但就在最近,AMD 联合宾夕法尼亚州立大学发布了一篇论文,颠覆了传统的认知,为原生 FP4 训练给出了一个全新的清晰诊断。

  • 论文标题:Pretraining large language models with MXFP4 on Native FP4 Hardware
  • 论文链接:https://arxiv.org/abs/2605.09825

这篇论文在 AMD Instinct MI355X GPU 上,用 MXFP4 格式完成了 Llama 3.1-8B 的全流程预训练,端到端训练速度比 FP8 基线快 9-10%,token 开销仅多 8-9%。这是目前第一个在原生 FP4 硬件(非软件模拟)上完成大模型预训练的完整实验。

更重要的是,论文揭示了核心问题:FP4 训练的不稳定性的来源不是随机性不足,是结构性微缩放误差沿敏感梯度路径累积放大。

MXFP4 是什么

在拆解论文之前,有必要先理解 MXFP4 这个数据格式。

传统的整数量化通常对整个张量使用一个缩放因子。MXFP4 的核心设计叫「微缩放」(Micro-scaling):把一个张量切成小块(比如每 32 个元素一组),为每个小块分配一个共享指数(E8M0 格式),块内的每个元素用 4 比特浮点数表示。重建公式可以写成:

其中 E_shared 是块内最大指数,Q_FP4 是最近舍入到 4 比特浮点可表示值。

微缩放的好处在于:每个小块有自己的动态范围,不会被全局异常值「绑架」。这让 4 比特浮点数的表示质量比朴素的全局量化好很多。

但即便有了微缩放,FP4 训练依然不稳定。

排查实验:不稳定的根源

研究团队先设计了一个逐步排查的控制实验。

一次完整的 Transformer 线性层计算,涉及三个通用矩阵乘法操作:

Fprop(前向传播):计算 Y = XW^T,产出激活值

Dgrad(激活梯度):计算 ∇X = ∇Y · W,将梯度回传给输入

Wgrad(权重梯度):计算 ∇W = (∇Y)^T · X,产出用于更新权重的梯度

研究团队保持其他所有因素不变,逐步把这三个操作从 FP8 替换成 MXFP4,观察每一步对收敛的影响。所有实验都在 AMD Instinct MI355X 上用原生 FP4 tensor core 执行,不依赖软件模拟。

训练任务是 MLPerf 标准设置,在 C4 数据集上预训练 Llama 3.1-8B,收敛目标是验证集困惑度达到 3.3。

前两步只带来了温和的额外 token 开销,但一旦把 Wgrad 也换成 MXFP4,开销直接跳到 26-27%。

Wgrad 是 FP4 训练的瓶颈所在。 前向传播和激活梯度对 FP4 量化有相当的容忍度,但权重梯度一旦被量化到 4 比特,收敛质量就出现了显著退化。

业界此前的主流直觉是:FP4 量化误差本质上是噪声问题,因此可以通过注入随机性来「平滑」误差分布。两种常见策略是:

随机舍入(Stochastic Rounding):在量化时引入随机性,使舍入误差的期望值为零

随机 Hadamard 旋转(Randomized Hadamard):在量化前用带随机符号翻转的 Hadamard 变换打散数据分布

当 Wgrad 被量化后,两种随机性策略不仅没有稳定训练,反而直接导致了不收敛。随机性非但没有帮忙,还在关键的梯度路径上引入了更多有效量化误差。

相比之下,确定性 Hadamard 旋转一把将全流程 token 开销从 26-27% 压回到 8-9%,训练轨迹紧密跟踪 FP8 基线。

这是一个非常有诊断价值的结果。随机和确定性 Hadamard 旋转都是正交变换,都能打散异常值的能量分布,理论上对量化误差的缓解效果应该类似。但它们在 Wgrad 场景下的表现截然相反,这揭示了问题的本质:

FP4 训练的不稳定性,是由 MXFP4 微缩放在敏感梯度路径上产生的结构性误差驱动的。 随机性策略失败是因为它们在每一步引入了不同的误差模式(pattern),而这些变化的误差模式沿梯度路径累积,反而放大了不稳定性。确定性旋转之所以有效,恰恰因为它在每一步施加相同的变换,让误差模式保持一致,避免了误差累积。

端到端效率:训练步吞吐 +20%,综合加速 9-10%

把确定性 Hadamard 旋转加上全流程 MXFP4 之后,效率数据如下:

训练步吞吐提升了 20%,扣掉多出的 8-9% token 开销之后,端到端综合加速仍有 9-10%

考虑到这是把精度从 8 比特直接砍到 4 比特,这个收敛质量和加速幅度都相当可观。

左图:在 C4 数据集上进行 MLPerf 预训练时,Llama 3.1–8B 的验证困惑度随训练 token 数变化的曲线。结果显示,MXFP4 + 确定性 Hadamard 与 FP8 的表现非常接近,而未进行稳定化处理的全流程 MXFP4 收敛速度更慢,训练稳定性也更差。右图:训练后期的局部放大视图。MLPerf 的目标困惑度为 3.3。与未稳定化的 MXFP4 运行相比,确定性 Hadamard(H16)能够与 FP8 基线保持更紧密的一致性。

值得注意的是,作者在论文中明确强调了一项重要限制:这套 FP4 训练方案(MLPerf C4 数据集 + Llama 3.1-8B)的效果已经得到验证,但不能直接假设它能无缝迁移到所有模型、所有数据集和所有训练方法。FP4 训练的行为可能是高度设置依赖的,具体的稳定策略需要根据场景重新验证。

结语

把这篇论文放到更大的产业脉络里,至少有三层意义。

第一层:它回答了一个根本性的「为什么」。 过去的 FP4 训练工作大多聚焦于「怎么让它不崩」,这篇论文第一次给出了清晰的因果诊断:崩溃源于 Wgrad 路径上的结构性微缩放误差,而非随机性不足。这个诊断本身就具有方法论价值,它告诉后续研究者:在低精度训练中遇到不稳定性时,应该优先排查结构性误差源,而非盲目增加随机性。

第二层:它把 FP4 从「推理专属」推向了「训练可用」。此前行业共识是 FP4 只适合推理量化,训练至少要用 FP8。NVIDIA 在 Blackwell 上主推 FP4 推理而非训练,也反映了这一判断。这篇论文在原生 FP4 硬件上跑通了全流程预训练,意味着 MI355X 和 Blackwell 上那些为推理准备的 FP4 算力,理论上也可以用来训练。如果 FP4 训练在更大模型和更多场景上被验证可行,等于现有硬件的可用训练算力直接翻倍。

第三层:它使用了 OCP 开放标准。 MXFP4 是 OCP Microscaling 格式标准的一部分,背后有 AMD、NVIDIA、Intel、Meta、Microsoft、Arm、Qualcomm 七家公司联合支持。基于开放标准意味着这套方法在不同厂商的硬件上都有可移植性,不会被锁定在单一生态里。

从 FP16 到 FP8,DeepSeek-V3 已经证明精度减半可以大幅降低训练成本。从 FP8 到 FP4,这篇论文迈出了关键的第一步。精度每砍一刀,整个大模型训练的经济性都在发生转变。

本文来自微信公众号 “机器之心”(ID:almosthuman2014),编辑:冷猫

相关问答

QAMD与宾夕法尼亚州立大学的联合论文,关于FP4训练不稳定的根源提出了什么新观点?

A该论文颠覆了传统认知,指出FP4训练不稳定的根源不是随机性不足,而是结构性微缩放误差沿敏感梯度路径(特别是权重梯度Wgrad路径)累积并放大所导致的。

Q论文中提到的MXFP4数据格式,其核心设计“微缩放”具体是什么?与传统量化有何不同?

AMXFP4的“微缩放”核心设计是将一个张量切成小块(如每32个元素一组),并为每个小块分配一个共享指数(E8M0格式),块内元素用4比特浮点数表示。与传统对整个张量使用单一缩放因子的整数量化相比,微缩放让每个小块有自己的动态范围,避免了全局异常值的影响,从而提升了4比特浮点的表示质量。

Q在排查实验中,将Transformer线性层的哪个操作替换为MXFP4导致了最显著的收敛质量退化?

A在排查实验中,将权重梯度计算操作(Wgrad)替换为MXFP4导致了最显著的收敛质量退化,使训练所需的token开销从温和增加飙升至26-27%,这表明Wgrad是FP4训练的瓶颈所在。

Q为了稳定FP4训练,论文中验证的有效策略是什么?它为何比随机性策略更有效?

A论文验证的有效策略是使用确定性Hadamard旋转。它比随机舍入或随机Hadamard旋转等随机性策略更有效,因为它在每一步施加相同的正交变换,使得量化误差模式保持一致,从而避免了变化的误差模式沿梯度路径累积放大所引起的不稳定性。而随机性策略引入了变化的误差模式,反而加剧了不稳定。

Q这项研究在端到端训练效率上取得了什么具体成果?对产业有何潜在意义?

A端到端训练效率上,使用全流程MXFP4加确定性Hadamard旋转后,训练步吞吐提升了20%,综合考虑到多出的8-9% token开销,最终端到端综合加速达到9-10%。产业意义在于:1. 为FP4训练不稳定性提供了清晰的因果诊断;2. 证明了FP4可用于训练而不仅是推理,有望使现有硬件的可用训练算力翻倍;3. 基于OCP开放标准MXFP4,提高了方案在不同硬件厂商间的可移植性。

你可能也喜欢

AI PC大战:不要押阵营,要押收费站

英伟达与联发科切入AI PC,标志着Windows端侧AI生态进入多玩家竞争阶段。作者认为,不应简单将其视为“x86对Arm”的阵营之争,而应关注谁能持续获取利润与产业链定价权。 AI PC的投资机会可分为三层:一是先进制程“收费站”,无论哪方胜出,台积电(TSMC)都将受益;二是算力与平台外溢,以AMD(x86进攻)和英伟达(GPU软件栈延伸)为代表;三是架构扩散和困境反转,Arm和英特尔(INTC)具备弹性但需谨慎。 行业已从概念进入出货验证期。尽管短期出货预测有所下调,但AI PC长期标配化趋势不变。投资难点在于用户换机意愿,若企业端广泛部署隐私计算等应用,将推动市场从消费电子转向企业IT更新。 竞争格局上,各芯片厂商优势各异,但高端芯片均依赖先进制程。台积电在晶圆代工市场占据超70%份额,成为AI硬件时代的确定性受益者。 投资策略上,作者建议分层配置:将台积电视为底仓(确定性现金流),AMD作为进攻性选择,Arm和英特尔则用于捕捉弹性机会。核心逻辑是投资“收费站”和平台,而非押注单一架构。 风险包括:AI PC应用不及预期、Windows on Arm兼容性改善缓慢、关税与宏观因素影响需求、先进制程供需错配,以及整体AI估值偏高可能引发的回调。因此,应将AI PC视为长期产业趋势,在情绪退潮后布局生态与现金流稳定的公司。

marsbit15分钟前

AI PC大战:不要押阵营,要押收费站

marsbit15分钟前

万字解析:从10美元到290美元,MRVL靠「不做GPU」赢了整个AI时代

Marvell Technology(MRVL)股价从2016年不到10美元涨至2026年的290美元,涨幅达30倍,核心在于其独特定位:不做GPU,而是专注于AI时代的“连接”基础设施。 公司业务分为三块:一是光互连(光DSP),在400G以上数据中心光模块市场占约70%份额,技术护城河深;二是定制AI芯片,为Amazon等云巨头设计XPU,拥有18个项目、750亿美元潜在收入;三是以太网交换芯片与企业存储,提供稳定现金流。 CEO Matt Murphy上任后大幅改革,砍掉非核心业务,收购Inphi(光DSP)、Cavium、Celestial AI(光子织网)等公司,聚焦数据中心,并绑定大客户获得长期订单。 英伟达投资20亿美元战略入股,认可Marvell在AI互连生态的价值。市场常将Marvell视为“小Broadcom”,但两者本质不同:Marvell在光DSP是领导者,而定制芯片业务虽毛利率较低,但随规模扩大有望改善。 主要风险包括:丢失Amazon Trainium3订单、客户集中度高、毛利率天花板、英伟达既是伙伴也是潜在竞争者、内部人士减持及供应链产能压力。但公司光互连技术优势显著,结合PEG约0.6的估值,仍有增长空间。 本质上,Marvell抓住了AI基础设施从“堆算力”转向“建系统”的趋势。在AI集群规模不断扩大、数据流动需求激增的背景下,“连接”的价值日益凸显,而Marvell正处在这一核心位置。

marsbit44分钟前

万字解析:从10美元到290美元,MRVL靠「不做GPU」赢了整个AI时代

marsbit44分钟前

AI中转站引发知乎热议:便宜Token背后,用户真正担心什么?

知乎上关于“AI中转站与便宜Token”的讨论引发广泛关注,焦点从单纯的工具选择转向了深层的成本与信任问题。 用户首要担忧的是模型真实性。AI中转站被类比为“AI版黄牛”,技术门槛不高,但上游来源常不透明,存在“模型掉包”风险。由于大模型输出具有随机性,普通用户难以辨别自己是否真的在使用所付费的旗舰模型,这本质上是一种信息不对称交易。 其次,便宜Token的性价比需要理性看待。其“低价感”常源于与官方API按量价的对比,若与官方订阅套餐、国产模型或免费额度相比,未必总是最优。讨论强调用户应先明确自身需求——是偶尔使用还是高频调用,再选择合适渠道。 便宜Token的来源复杂,既可能有批量采购、缓存优化等合法路径,也可能涉及订阅拆分、地区价差套利甚至更灰色的渠道。这种混合供给导致服务稳定性和余额风险难以评估。真正的成本计算需涵盖模型真实性、服务稳定性和数据安全。 数据安全成为核心关切,尤其在AI编程、Agent和企业应用场景中。经过中转站的prompt、代码、业务文档和密钥可能面临泄露风险。对于企业,这还涉及商业秘密、数据合规与供应商审查等治理问题。 讨论形成的普遍共识是:AI中转站可用于低敏感、可替代的任务(如公开资料总结、简单测试),但不建议作为默认入口,尤其不能用于处理敏感数据或接入生产环境。实用建议包括:避免大额充值、分散风险、定期测试模型、做好数据脱敏。 这场讨论揭示,当AI能力按Token计价时,用户为节省调用费用,可能潜在地牺牲了信任与安全。随着AI更深度融入工作流,明晰请求路径、模型来源与数据流向变得至关重要。

marsbit1小时前

AI中转站引发知乎热议:便宜Token背后,用户真正担心什么?

marsbit1小时前

交易

现货
合约

热门文章

如何购买S

欢迎来到HTX.com!我们已经让购买Sonic(S)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Sonic(S)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Sonic(S)购买完您的Sonic(S)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Sonic(S)在HTX的现货市场轻松交易Sonic(S)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

2.4k人学过发布于 2025.01.15更新于 2026.06.02

如何购买S

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对S(S)币价的意见。

活动图片