AMD新论文颠覆认知:FP4训练不稳定,原因不是随机性不足

marsbit发布于2026-05-27更新于2026-05-27

文章摘要

AMD最新研究发现,FP4训练不稳定的主要原因并非此前认为的随机性不足,而是结构性微缩放误差在关键梯度路径上累积放大所致。 过去,尝试使用FP4从头训练大模型常因训练不稳定而失败。AMD与宾夕法尼亚州立大学的论文通过实验证明,在Transformer的权重梯度计算路径上使用FP4量化会导致收敛质量显著下降。此前用于缓解量化误差的随机性策略(如随机舍入)在此场景下反而加剧了不稳定性。 研究团队采用MXFP4数据格式,并引入确定性Hadamard旋转作为稳定化方法,成功在AMD MI355X GPU上完成了Llama 3.1-8B模型的全流程FP4预训练。结果显示,该方法在仅增加8-9%训练数据开销的情况下,实现了比FP8基线快9-10%的端到端训练速度。 这项研究首次在原生FP4硬件上验证了低精度训练的可行性,为降低大模型训练成本提供了新方向,并指出结构性误差分析比增加随机性更为关键。基于开放标准OCP的MXFP4格式也增强了该方案在不同硬件平台间的可移植性。

众所周知,大模型训练成本极高。

但大家又知道,降低训练精度能够显著降低训练成本。DeepSeek-V3 用 FP8 训练把成本打到了 560 万美元,已经让全行业侧目。

在 FP8 成功后,行业仍然在不断探索低精度的边界:从 FP8 降到 FP4,训练成本还能再降多少?

理论上,FP4 的计算吞吐可以是 FP8 的两倍。NVIDIA Blackwell 和 AMD MI350 系列都已经在硬件层面原生支持了 FP4 运算,前者在 B200 上标称 FP4 算力可达 4500 TOPS(稀疏)。硬件已经准备好了,但软件和算法那一侧,一直卡在一个问题上:

用 FP4 从头训练大模型,训练过程非常不稳定。

过去两年里,LLM-FP4、NVFP4 预训练等工作陆续尝试了这条路,但鲜有方案能在 4 比特精度下干净利落地跑通全流程预训练,同时保持接近 FP8 的收敛质量。

更棘手的是,崩溃的原因一直不清楚,分析认为,FP4 训练不稳定的原因很可能来自随机性不足。

但就在最近,AMD 联合宾夕法尼亚州立大学发布了一篇论文,颠覆了传统的认知,为原生 FP4 训练给出了一个全新的清晰诊断。

  • 论文标题:Pretraining large language models with MXFP4 on Native FP4 Hardware
  • 论文链接:https://arxiv.org/abs/2605.09825

这篇论文在 AMD Instinct MI355X GPU 上,用 MXFP4 格式完成了 Llama 3.1-8B 的全流程预训练,端到端训练速度比 FP8 基线快 9-10%,token 开销仅多 8-9%。这是目前第一个在原生 FP4 硬件(非软件模拟)上完成大模型预训练的完整实验。

更重要的是,论文揭示了核心问题:FP4 训练的不稳定性的来源不是随机性不足,是结构性微缩放误差沿敏感梯度路径累积放大。

MXFP4 是什么

在拆解论文之前,有必要先理解 MXFP4 这个数据格式。

传统的整数量化通常对整个张量使用一个缩放因子。MXFP4 的核心设计叫「微缩放」(Micro-scaling):把一个张量切成小块(比如每 32 个元素一组),为每个小块分配一个共享指数(E8M0 格式),块内的每个元素用 4 比特浮点数表示。重建公式可以写成:

其中 E_shared 是块内最大指数,Q_FP4 是最近舍入到 4 比特浮点可表示值。

微缩放的好处在于:每个小块有自己的动态范围,不会被全局异常值「绑架」。这让 4 比特浮点数的表示质量比朴素的全局量化好很多。

但即便有了微缩放,FP4 训练依然不稳定。

排查实验:不稳定的根源

研究团队先设计了一个逐步排查的控制实验。

一次完整的 Transformer 线性层计算,涉及三个通用矩阵乘法操作:

Fprop(前向传播):计算 Y = XW^T,产出激活值

Dgrad(激活梯度):计算 ∇X = ∇Y · W,将梯度回传给输入

Wgrad(权重梯度):计算 ∇W = (∇Y)^T · X,产出用于更新权重的梯度

研究团队保持其他所有因素不变,逐步把这三个操作从 FP8 替换成 MXFP4,观察每一步对收敛的影响。所有实验都在 AMD Instinct MI355X 上用原生 FP4 tensor core 执行,不依赖软件模拟。

训练任务是 MLPerf 标准设置,在 C4 数据集上预训练 Llama 3.1-8B,收敛目标是验证集困惑度达到 3.3。

前两步只带来了温和的额外 token 开销,但一旦把 Wgrad 也换成 MXFP4,开销直接跳到 26-27%。

Wgrad 是 FP4 训练的瓶颈所在。 前向传播和激活梯度对 FP4 量化有相当的容忍度,但权重梯度一旦被量化到 4 比特,收敛质量就出现了显著退化。

业界此前的主流直觉是:FP4 量化误差本质上是噪声问题,因此可以通过注入随机性来「平滑」误差分布。两种常见策略是:

随机舍入(Stochastic Rounding):在量化时引入随机性,使舍入误差的期望值为零

随机 Hadamard 旋转(Randomized Hadamard):在量化前用带随机符号翻转的 Hadamard 变换打散数据分布

当 Wgrad 被量化后,两种随机性策略不仅没有稳定训练,反而直接导致了不收敛。随机性非但没有帮忙,还在关键的梯度路径上引入了更多有效量化误差。

相比之下,确定性 Hadamard 旋转一把将全流程 token 开销从 26-27% 压回到 8-9%,训练轨迹紧密跟踪 FP8 基线。

这是一个非常有诊断价值的结果。随机和确定性 Hadamard 旋转都是正交变换,都能打散异常值的能量分布,理论上对量化误差的缓解效果应该类似。但它们在 Wgrad 场景下的表现截然相反,这揭示了问题的本质:

FP4 训练的不稳定性,是由 MXFP4 微缩放在敏感梯度路径上产生的结构性误差驱动的。 随机性策略失败是因为它们在每一步引入了不同的误差模式(pattern),而这些变化的误差模式沿梯度路径累积,反而放大了不稳定性。确定性旋转之所以有效,恰恰因为它在每一步施加相同的变换,让误差模式保持一致,避免了误差累积。

端到端效率:训练步吞吐 +20%,综合加速 9-10%

把确定性 Hadamard 旋转加上全流程 MXFP4 之后,效率数据如下:

训练步吞吐提升了 20%,扣掉多出的 8-9% token 开销之后,端到端综合加速仍有 9-10%

考虑到这是把精度从 8 比特直接砍到 4 比特,这个收敛质量和加速幅度都相当可观。

左图:在 C4 数据集上进行 MLPerf 预训练时,Llama 3.1–8B 的验证困惑度随训练 token 数变化的曲线。结果显示,MXFP4 + 确定性 Hadamard 与 FP8 的表现非常接近,而未进行稳定化处理的全流程 MXFP4 收敛速度更慢,训练稳定性也更差。右图:训练后期的局部放大视图。MLPerf 的目标困惑度为 3.3。与未稳定化的 MXFP4 运行相比,确定性 Hadamard(H16)能够与 FP8 基线保持更紧密的一致性。

值得注意的是,作者在论文中明确强调了一项重要限制:这套 FP4 训练方案(MLPerf C4 数据集 + Llama 3.1-8B)的效果已经得到验证,但不能直接假设它能无缝迁移到所有模型、所有数据集和所有训练方法。FP4 训练的行为可能是高度设置依赖的,具体的稳定策略需要根据场景重新验证。

结语

把这篇论文放到更大的产业脉络里,至少有三层意义。

第一层:它回答了一个根本性的「为什么」。 过去的 FP4 训练工作大多聚焦于「怎么让它不崩」,这篇论文第一次给出了清晰的因果诊断:崩溃源于 Wgrad 路径上的结构性微缩放误差,而非随机性不足。这个诊断本身就具有方法论价值,它告诉后续研究者:在低精度训练中遇到不稳定性时,应该优先排查结构性误差源,而非盲目增加随机性。

第二层:它把 FP4 从「推理专属」推向了「训练可用」。此前行业共识是 FP4 只适合推理量化,训练至少要用 FP8。NVIDIA 在 Blackwell 上主推 FP4 推理而非训练,也反映了这一判断。这篇论文在原生 FP4 硬件上跑通了全流程预训练,意味着 MI355X 和 Blackwell 上那些为推理准备的 FP4 算力,理论上也可以用来训练。如果 FP4 训练在更大模型和更多场景上被验证可行,等于现有硬件的可用训练算力直接翻倍。

第三层:它使用了 OCP 开放标准。 MXFP4 是 OCP Microscaling 格式标准的一部分,背后有 AMD、NVIDIA、Intel、Meta、Microsoft、Arm、Qualcomm 七家公司联合支持。基于开放标准意味着这套方法在不同厂商的硬件上都有可移植性,不会被锁定在单一生态里。

从 FP16 到 FP8,DeepSeek-V3 已经证明精度减半可以大幅降低训练成本。从 FP8 到 FP4,这篇论文迈出了关键的第一步。精度每砍一刀,整个大模型训练的经济性都在发生转变。

本文来自微信公众号 “机器之心”(ID:almosthuman2014),编辑:冷猫

相关问答

QAMD与宾夕法尼亚州立大学的联合论文,关于FP4训练不稳定的根源提出了什么新观点?

A该论文颠覆了传统认知,指出FP4训练不稳定的根源不是随机性不足,而是结构性微缩放误差沿敏感梯度路径(特别是权重梯度Wgrad路径)累积并放大所导致的。

Q论文中提到的MXFP4数据格式,其核心设计“微缩放”具体是什么?与传统量化有何不同?

AMXFP4的“微缩放”核心设计是将一个张量切成小块(如每32个元素一组),并为每个小块分配一个共享指数(E8M0格式),块内元素用4比特浮点数表示。与传统对整个张量使用单一缩放因子的整数量化相比,微缩放让每个小块有自己的动态范围,避免了全局异常值的影响,从而提升了4比特浮点的表示质量。

Q在排查实验中,将Transformer线性层的哪个操作替换为MXFP4导致了最显著的收敛质量退化?

A在排查实验中,将权重梯度计算操作(Wgrad)替换为MXFP4导致了最显著的收敛质量退化,使训练所需的token开销从温和增加飙升至26-27%,这表明Wgrad是FP4训练的瓶颈所在。

Q为了稳定FP4训练,论文中验证的有效策略是什么?它为何比随机性策略更有效?

A论文验证的有效策略是使用确定性Hadamard旋转。它比随机舍入或随机Hadamard旋转等随机性策略更有效,因为它在每一步施加相同的正交变换,使得量化误差模式保持一致,从而避免了变化的误差模式沿梯度路径累积放大所引起的不稳定性。而随机性策略引入了变化的误差模式,反而加剧了不稳定。

Q这项研究在端到端训练效率上取得了什么具体成果?对产业有何潜在意义?

A端到端训练效率上,使用全流程MXFP4加确定性Hadamard旋转后,训练步吞吐提升了20%,综合考虑到多出的8-9% token开销,最终端到端综合加速达到9-10%。产业意义在于:1. 为FP4训练不稳定性提供了清晰的因果诊断;2. 证明了FP4可用于训练而不仅是推理,有望使现有硬件的可用训练算力翻倍;3. 基于OCP开放标准MXFP4,提高了方案在不同硬件厂商间的可移植性。

你可能也喜欢

前高盛CEO访谈:危机、领导力、AI与年轻人的建议

前高盛CEO Lloyd Blankfein在对话中分享了他对领导力、风险管理和企业文化的见解。他提到,在危机中保持冷静是关键,自己习惯在紧张时刻用幽默缓解气氛。他建议企业在挑选董事会成员时,优先考虑有危机经验的人。 Blankfein回顾了自己从普通家庭到哈佛的成长经历,认为低起点反而是一种优势。他加入高盛源于其收购的商品交易公司J.Aron,这段经历塑造了他的风险管理理念:投资既要勇于承担风险,也要时刻防范潜在危机。他强调,管理层需要平衡鼓励冒险与适时克制风险。 谈到技术,他指出金融业是技术的快速采用者,但作为受监管机构,高盛对系统变更极为谨慎。在IPO后,高盛努力保留了合伙人文化,通过薪酬机制和沟通保持员工的归属感。 在金融危机中,高盛凭借严格的风险管理和逐日盯市制度提前预警,并坚持对客户负责,维护了长期声誉。他对当前科技公司的建议是:在危机前主动与公众沟通,建立理解。 关于AI与市场风险,Blankfein认为,当前风险可能被低估,尤其是自动化交易系统的可靠性与杠杆问题。但他总体上支持技术进步。 最后,他建议年轻人拓宽知识面,学习历史与人文,成为一个完整的人。长远来看,广泛的兴趣和坚韧的心态将带来更丰富的职业生涯。

marsbit5分钟前

前高盛CEO访谈:危机、领导力、AI与年轻人的建议

marsbit5分钟前

实体比特币的演进之路

比特币的数字化特性使其具备自主托管与全球快速流转的优势,但也因无形属性阻碍了大众接受。多年来,业界不断尝试将比特币实体化,以保留其类似现金的特性,产生了一系列经典产品。 2011年出现的Casascius Coins是早期代表性实体比特币,采用防篡改贴纸覆盖私钥,其中心化铸币模式依赖对发行者的信任,后因监管压力停产。随后出现的RavenBit Coins尝试去中心化铸币,允许用户自行生成并粘贴私钥,但难以保证安全与可信。 2016年推出的Opendimes是一次重大突破。这款U盘形态的硬件设备能自主生成并安全存储私钥,转入比特币后需物理破坏设备才能提取资产,解决了铸币信任问题,但成本较高且形态不便日常流通。 Satodime在Opendimes理念上改进,采用卡片、戒指等多种形态,通过NFC交互,成本有所降低,但仍属于高安全性硬件钱包,难以达到日常现金的普及成本。 实现实体比特币普及的核心难点在于硬件成本。美元纸币成本仅数美分,而当前能运行比特币加密算法的芯片成本难以降至1美元以下。虽然恩智浦NTAG X DNA等芯片展现了降价潜力,但原生支持比特币算法、完全开源的安全芯片研发投入巨大。 此外,比特币作为数字资产,实体载体需联网核验余额,若依赖发行机构信任则背离了比特币去信任化的初衷。OfflineCash等产品结合安全芯片与纸币形态,构想美好但距大规模落地尚远。 近期Coinkite推出的Tapsigner采用借记卡外形,内置自研比特币NFC芯片,支持碰一碰支付,可作为可充值的硬件钱包或定向支付工具,虽单价约20美元,但推动重点回归线下支付生态融合。 综上所述,实体比特币的演进在安全、去信任与低成本之间持续探索,目前卡片形态硬件钱包是相对可行的方向,但要实现如现金般低成本、易流通的普及仍面临显著的技术与成本挑战。

marsbit11分钟前

实体比特币的演进之路

marsbit11分钟前

PhotonPay 升级嵌入式钱包 API:打造“隐形且势在必行”的稳定币支付底层基础设施

光子支付(PhotonPay)宣布对其嵌入式钱包API进行重大升级,旨在为企业提供“隐形且势在必行”的稳定币支付底层基础设施。此次升级的核心是打造“零触碰”架构,使非加密原生的传统企业能够快速、安全地接入稳定币支付,而无需管理私钥或应对复杂的合规负担,最快可在5天内上线。 传统跨境支付存在高成本、低效率的“结构性税收”问题,例如国际汇款平均成本高达6.36%。稳定币以其近乎即时、低成本和可编程的特性,正成为跨境贸易的重要结算层,尤其在B2B领域增长迅猛。然而,技术复杂性与合规门槛阻碍了广大企业采用。 PhotonPay的解决方案通过嵌入式钱包API,为企业提供一站式服务,涵盖KYC验证、钱包配置、链上结算到法币出金的全流程。其关键优势包括:快速部署与集成、内嵌的“合规即基础设施”(如AML/CFT风控)、消除单点故障的安全架构,以及全球法币与稳定币的无缝协同。 公司强调,在监管日益明确(如欧盟MiCA)和机构基础设施成熟的当下,“合规优先”已从成本中心转变为关键竞争护城河。其合规技术栈确保交易符合国际标准,为企业安全扩张铺路。 市场驱动力包括全球监管框架明朗化、主流金融机构的采纳,以及新兴市场对稳定币结算的强劲需求。PhotonPay的API旨在帮助企业把握这一趋势,高效满足市场需求。 PhotonPay是一家以稳定币驱动的全球金融基础设施操作系统,服务覆盖200多个国家和地区,致力于重新定义全球薪酬发放与跨境支付格局。

链捕手39分钟前

PhotonPay 升级嵌入式钱包 API:打造“隐形且势在必行”的稳定币支付底层基础设施

链捕手39分钟前

三星靠技术周期,海力士靠 HBM,美光凭什么赢了万亿市值?

美光科技(Micron Technology)作为全球三大内存芯片制造商之一,其生存和发展逻辑独特。它缺乏韩国三星、SK海力士的政府或财阀资本支持,却能在多次行业危机中存活并达到万亿市值。 美光的核心生存策略是双重的:一方面,它屡次在危机关口诉诸政治与法律手段,通过向华盛顿“求助”来争取喘息空间。例如,1985年投诉日本企业倾销使其获得发展窗口;2002年作为“污点证人”在反垄断调查中脱身;2017年则通过诉讼和游说打压中国初创企业福建晋华。这些行动为其赢得了关键的生存时间,但也使其背负了“政治投机者”的标签。 另一方面,也是其立足的根本,是数十年积累的极致制造成本控制能力。其DRAM芯片单元面积(约66.26平方毫米)小于主要竞争对手,意味着相同晶圆能产出更多芯片,单位成本更低。这使其能在残酷的价格周期中比对手撑得更久。 然而,美光的战略也埋下隐患。2013年为扩大规模收购日本尔必达,却错失了布局HBM(高带宽存储器)的黄金十年。当AI浪潮引爆HBM需求时,提前十年布局的SK海力士占据绝对主导(HBM3份额约85%),美光份额仅约3%,在高端赛道大幅落后。 当前,美光面临三重挤压:在高端HBM市场追赶吃力;在中低端DRAM市场遭到中国长鑫存储等厂商的价格侵蚀;同时因中国市场的网络安全审查,其在中国核心市场的营收份额从2023财年的14%骤降至2025财年的7.1%,失去了AI基础设施建设期的宝贵订单机会。 如今,美光正奋力追赶,其HBM3E产品已获得英伟达认证,并借助美国《芯片法案》投资新产线。但其面临的挑战本质上是“时间债”。政治杠杆和成本优势能帮其在现有赛道竞争,却无法弥补在新赛道上提前布局所积累的时间优势。未来,这家依靠特殊策略与硬核制造立足的巨头,能否在需要长期耐心和技术沉淀的HBM等高端竞争中赢得下一轮,仍是未知数。答案,藏在其尚未完成的HBM4晶圆与漫长的技术追赶中。

链捕手45分钟前

三星靠技术周期,海力士靠 HBM,美光凭什么赢了万亿市值?

链捕手45分钟前

交易

现货
合约

热门文章

如何购买S

欢迎来到HTX.com!我们已经让购买Sonic(S)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Sonic(S)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Sonic(S)购买完您的Sonic(S)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Sonic(S)在HTX的现货市场轻松交易Sonic(S)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

2.3k人学过发布于 2025.01.15更新于 2025.03.21

如何购买S

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对S(S)币价的意见。

活动图片