AMD新论文颠覆认知：FP4训练不稳定，原因不是随机性不足

marsbit发布于2026-05-27更新于2026-05-27

文章摘要

AMD最新研究发现，FP4训练不稳定的主要原因并非此前认为的随机性不足，而是结构性微缩放误差在关键梯度路径上累积放大所致。过去，尝试使用FP4从头训练大模型常因训练不稳定而失败。AMD与宾夕法尼亚州立大学的论文通过实验证明，在Transformer的权重梯度计算路径上使用FP4量化会导致收敛质量显著下降。此前用于缓解量化误差的随机性策略（如随机舍入）在此场景下反而加剧了不稳定性。研究团队采用MXFP4数据格式，并引入确定性Hadamard旋转作为稳定化方法，成功在AMD MI355X GPU上完成了Llama 3.1-8B模型的全流程FP4预训练。结果显示，该方法在仅增加8-9%训练数据开销的情况下，实现了比FP8基线快9-10%的端到端训练速度。这项研究首次在原生FP4硬件上验证了低精度训练的可行性，为降低大模型训练成本提供了新方向，并指出结构性误差分析比增加随机性更为关键。基于开放标准OCP的MXFP4格式也增强了该方案在不同硬件平台间的可移植性。

众所周知,大模型训练成本极高。

但大家又知道,降低训练精度能够显著降低训练成本。DeepSeek-V3 用 FP8 训练把成本打到了 560 万美元,已经让全行业侧目。

在 FP8 成功后,行业仍然在不断探索低精度的边界:从 FP8 降到 FP4,训练成本还能再降多少?

理论上,FP4 的计算吞吐可以是 FP8 的两倍。NVIDIA Blackwell 和 AMD MI350 系列都已经在硬件层面原生支持了 FP4 运算,前者在 B200 上标称 FP4 算力可达 4500 TOPS(稀疏)。硬件已经准备好了,但软件和算法那一侧,一直卡在一个问题上:

用 FP4 从头训练大模型,训练过程非常不稳定。

过去两年里,LLM-FP4、NVFP4 预训练等工作陆续尝试了这条路,但鲜有方案能在 4 比特精度下干净利落地跑通全流程预训练,同时保持接近 FP8 的收敛质量。

更棘手的是,崩溃的原因一直不清楚,分析认为,FP4 训练不稳定的原因很可能来自随机性不足。

但就在最近,AMD 联合宾夕法尼亚州立大学发布了一篇论文,颠覆了传统的认知,为原生 FP4 训练给出了一个全新的清晰诊断。

论文标题:Pretraining large language models with MXFP4 on Native FP4 Hardware
论文链接:https://arxiv.org/abs/2605.09825

这篇论文在 AMD Instinct MI355X GPU 上,用 MXFP4 格式完成了 Llama 3.1-8B 的全流程预训练,端到端训练速度比 FP8 基线快 9-10%,token 开销仅多 8-9%。这是目前第一个在原生 FP4 硬件(非软件模拟)上完成大模型预训练的完整实验。

更重要的是,论文揭示了核心问题:FP4 训练的不稳定性的来源不是随机性不足,是结构性微缩放误差沿敏感梯度路径累积放大。

MXFP4 是什么

在拆解论文之前,有必要先理解 MXFP4 这个数据格式。

传统的整数量化通常对整个张量使用一个缩放因子。MXFP4 的核心设计叫「微缩放」(Micro-scaling):把一个张量切成小块(比如每 32 个元素一组),为每个小块分配一个共享指数(E8M0 格式),块内的每个元素用 4 比特浮点数表示。重建公式可以写成:

其中 E_shared 是块内最大指数,Q_FP4 是最近舍入到 4 比特浮点可表示值。

微缩放的好处在于:每个小块有自己的动态范围,不会被全局异常值「绑架」。这让 4 比特浮点数的表示质量比朴素的全局量化好很多。

但即便有了微缩放,FP4 训练依然不稳定。

排查实验:不稳定的根源

研究团队先设计了一个逐步排查的控制实验。

一次完整的 Transformer 线性层计算,涉及三个通用矩阵乘法操作:

Fprop(前向传播):计算 Y = XW^T,产出激活值

Dgrad(激活梯度):计算 ∇X = ∇Y · W,将梯度回传给输入

Wgrad(权重梯度):计算 ∇W = (∇Y)^T · X,产出用于更新权重的梯度

研究团队保持其他所有因素不变,逐步把这三个操作从 FP8 替换成 MXFP4,观察每一步对收敛的影响。所有实验都在 AMD Instinct MI355X 上用原生 FP4 tensor core 执行,不依赖软件模拟。

训练任务是 MLPerf 标准设置,在 C4 数据集上预训练 Llama 3.1-8B,收敛目标是验证集困惑度达到 3.3。

前两步只带来了温和的额外 token 开销,但一旦把 Wgrad 也换成 MXFP4,开销直接跳到 26-27%。

Wgrad 是 FP4 训练的瓶颈所在。 前向传播和激活梯度对 FP4 量化有相当的容忍度,但权重梯度一旦被量化到 4 比特,收敛质量就出现了显著退化。

业界此前的主流直觉是:FP4 量化误差本质上是噪声问题,因此可以通过注入随机性来「平滑」误差分布。两种常见策略是:

随机舍入(Stochastic Rounding):在量化时引入随机性,使舍入误差的期望值为零

随机 Hadamard 旋转(Randomized Hadamard):在量化前用带随机符号翻转的 Hadamard 变换打散数据分布

当 Wgrad 被量化后,两种随机性策略不仅没有稳定训练,反而直接导致了不收敛。随机性非但没有帮忙,还在关键的梯度路径上引入了更多有效量化误差。

相比之下,确定性 Hadamard 旋转一把将全流程 token 开销从 26-27% 压回到 8-9%,训练轨迹紧密跟踪 FP8 基线。

这是一个非常有诊断价值的结果。随机和确定性 Hadamard 旋转都是正交变换,都能打散异常值的能量分布,理论上对量化误差的缓解效果应该类似。但它们在 Wgrad 场景下的表现截然相反,这揭示了问题的本质:

FP4 训练的不稳定性,是由 MXFP4 微缩放在敏感梯度路径上产生的结构性误差驱动的。 随机性策略失败是因为它们在每一步引入了不同的误差模式(pattern),而这些变化的误差模式沿梯度路径累积,反而放大了不稳定性。确定性旋转之所以有效,恰恰因为它在每一步施加相同的变换,让误差模式保持一致,避免了误差累积。

端到端效率:训练步吞吐 +20%,综合加速 9-10%

把确定性 Hadamard 旋转加上全流程 MXFP4 之后,效率数据如下:

训练步吞吐提升了 20%,扣掉多出的 8-9% token 开销之后,端到端综合加速仍有 9-10%。

考虑到这是把精度从 8 比特直接砍到 4 比特,这个收敛质量和加速幅度都相当可观。

左图:在 C4 数据集上进行 MLPerf 预训练时,Llama 3.1–8B 的验证困惑度随训练 token 数变化的曲线。结果显示,MXFP4 + 确定性 Hadamard 与 FP8 的表现非常接近,而未进行稳定化处理的全流程 MXFP4 收敛速度更慢,训练稳定性也更差。右图:训练后期的局部放大视图。MLPerf 的目标困惑度为 3.3。与未稳定化的 MXFP4 运行相比,确定性 Hadamard(H16)能够与 FP8 基线保持更紧密的一致性。

值得注意的是,作者在论文中明确强调了一项重要限制:这套 FP4 训练方案(MLPerf C4 数据集 + Llama 3.1-8B)的效果已经得到验证,但不能直接假设它能无缝迁移到所有模型、所有数据集和所有训练方法。FP4 训练的行为可能是高度设置依赖的,具体的稳定策略需要根据场景重新验证。

结语

把这篇论文放到更大的产业脉络里,至少有三层意义。

第一层:它回答了一个根本性的「为什么」。 过去的 FP4 训练工作大多聚焦于「怎么让它不崩」,这篇论文第一次给出了清晰的因果诊断:崩溃源于 Wgrad 路径上的结构性微缩放误差,而非随机性不足。这个诊断本身就具有方法论价值,它告诉后续研究者:在低精度训练中遇到不稳定性时,应该优先排查结构性误差源,而非盲目增加随机性。

第二层:它把 FP4 从「推理专属」推向了「训练可用」。此前行业共识是 FP4 只适合推理量化,训练至少要用 FP8。NVIDIA 在 Blackwell 上主推 FP4 推理而非训练,也反映了这一判断。这篇论文在原生 FP4 硬件上跑通了全流程预训练,意味着 MI355X 和 Blackwell 上那些为推理准备的 FP4 算力,理论上也可以用来训练。如果 FP4 训练在更大模型和更多场景上被验证可行,等于现有硬件的可用训练算力直接翻倍。

第三层:它使用了 OCP 开放标准。 MXFP4 是 OCP Microscaling 格式标准的一部分,背后有 AMD、NVIDIA、Intel、Meta、Microsoft、Arm、Qualcomm 七家公司联合支持。基于开放标准意味着这套方法在不同厂商的硬件上都有可移植性,不会被锁定在单一生态里。

从 FP16 到 FP8,DeepSeek-V3 已经证明精度减半可以大幅降低训练成本。从 FP8 到 FP4,这篇论文迈出了关键的第一步。精度每砍一刀,整个大模型训练的经济性都在发生转变。

本文来自微信公众号 “机器之心”(ID:almosthuman2014),编辑:冷猫

你可能也喜欢

前高盛CEO访谈：危机、领导力、AI与年轻人的建议

前高盛CEO Lloyd Blankfein在对话中分享了他对领导力、风险管理和企业文化的见解。他提到，在危机中保持冷静是关键，自己习惯在紧张时刻用幽默缓解气氛。他建议企业在挑选董事会成员时，优先考虑有危机经验的人。 Blankfein回顾了自己从普通家庭到哈佛的成长经历，认为低起点反而是一种优势。他加入高盛源于其收购的商品交易公司J.Aron，这段经历塑造了他的风险管理理念：投资既要勇于承担风险，也要时刻防范潜在危机。他强调，管理层需要平衡鼓励冒险与适时克制风险。谈到技术，他指出金融业是技术的快速采用者，但作为受监管机构，高盛对系统变更极为谨慎。在IPO后，高盛努力保留了合伙人文化，通过薪酬机制和沟通保持员工的归属感。在金融危机中，高盛凭借严格的风险管理和逐日盯市制度提前预警，并坚持对客户负责，维护了长期声誉。他对当前科技公司的建议是：在危机前主动与公众沟通，建立理解。关于AI与市场风险，Blankfein认为，当前风险可能被低估，尤其是自动化交易系统的可靠性与杠杆问题。但他总体上支持技术进步。最后，他建议年轻人拓宽知识面，学习历史与人文，成为一个完整的人。长远来看，广泛的兴趣和坚韧的心态将带来更丰富的职业生涯。

marsbit5分钟前

marsbit5分钟前

实体比特币的演进之路

比特币的数字化特性使其具备自主托管与全球快速流转的优势，但也因无形属性阻碍了大众接受。多年来，业界不断尝试将比特币实体化，以保留其类似现金的特性，产生了一系列经典产品。 2011年出现的Casascius Coins是早期代表性实体比特币，采用防篡改贴纸覆盖私钥，其中心化铸币模式依赖对发行者的信任，后因监管压力停产。随后出现的RavenBit Coins尝试去中心化铸币，允许用户自行生成并粘贴私钥，但难以保证安全与可信。 2016年推出的Opendimes是一次重大突破。这款U盘形态的硬件设备能自主生成并安全存储私钥，转入比特币后需物理破坏设备才能提取资产，解决了铸币信任问题，但成本较高且形态不便日常流通。 Satodime在Opendimes理念上改进，采用卡片、戒指等多种形态，通过NFC交互，成本有所降低，但仍属于高安全性硬件钱包，难以达到日常现金的普及成本。实现实体比特币普及的核心难点在于硬件成本。美元纸币成本仅数美分，而当前能运行比特币加密算法的芯片成本难以降至1美元以下。虽然恩智浦NTAG X DNA等芯片展现了降价潜力，但原生支持比特币算法、完全开源的安全芯片研发投入巨大。此外，比特币作为数字资产，实体载体需联网核验余额，若依赖发行机构信任则背离了比特币去信任化的初衷。OfflineCash等产品结合安全芯片与纸币形态，构想美好但距大规模落地尚远。近期Coinkite推出的Tapsigner采用借记卡外形，内置自研比特币NFC芯片，支持碰一碰支付，可作为可充值的硬件钱包或定向支付工具，虽单价约20美元，但推动重点回归线下支付生态融合。综上所述，实体比特币的演进在安全、去信任与低成本之间持续探索，目前卡片形态硬件钱包是相对可行的方向，但要实现如现金般低成本、易流通的普及仍面临显著的技术与成本挑战。

marsbit11分钟前

marsbit11分钟前

PhotonPay 升级嵌入式钱包 API：打造“隐形且势在必行”的稳定币支付底层基础设施

光子支付（PhotonPay）宣布对其嵌入式钱包API进行重大升级，旨在为企业提供“隐形且势在必行”的稳定币支付底层基础设施。此次升级的核心是打造“零触碰”架构，使非加密原生的传统企业能够快速、安全地接入稳定币支付，而无需管理私钥或应对复杂的合规负担，最快可在5天内上线。传统跨境支付存在高成本、低效率的“结构性税收”问题，例如国际汇款平均成本高达6.36%。稳定币以其近乎即时、低成本和可编程的特性，正成为跨境贸易的重要结算层，尤其在B2B领域增长迅猛。然而，技术复杂性与合规门槛阻碍了广大企业采用。 PhotonPay的解决方案通过嵌入式钱包API，为企业提供一站式服务，涵盖KYC验证、钱包配置、链上结算到法币出金的全流程。其关键优势包括：快速部署与集成、内嵌的“合规即基础设施”（如AML/CFT风控）、消除单点故障的安全架构，以及全球法币与稳定币的无缝协同。公司强调，在监管日益明确（如欧盟MiCA）和机构基础设施成熟的当下，“合规优先”已从成本中心转变为关键竞争护城河。其合规技术栈确保交易符合国际标准，为企业安全扩张铺路。市场驱动力包括全球监管框架明朗化、主流金融机构的采纳，以及新兴市场对稳定币结算的强劲需求。PhotonPay的API旨在帮助企业把握这一趋势，高效满足市场需求。 PhotonPay是一家以稳定币驱动的全球金融基础设施操作系统，服务覆盖200多个国家和地区，致力于重新定义全球薪酬发放与跨境支付格局。

链捕手39分钟前

PhotonPay 升级嵌入式钱包 API：打造“隐形且势在必行”的稳定币支付底层基础设施

链捕手39分钟前

三星靠技术周期，海力士靠 HBM，美光凭什么赢了万亿市值？

美光科技（Micron Technology）作为全球三大内存芯片制造商之一，其生存和发展逻辑独特。它缺乏韩国三星、SK海力士的政府或财阀资本支持，却能在多次行业危机中存活并达到万亿市值。美光的核心生存策略是双重的：一方面，它屡次在危机关口诉诸政治与法律手段，通过向华盛顿“求助”来争取喘息空间。例如，1985年投诉日本企业倾销使其获得发展窗口；2002年作为“污点证人”在反垄断调查中脱身；2017年则通过诉讼和游说打压中国初创企业福建晋华。这些行动为其赢得了关键的生存时间，但也使其背负了“政治投机者”的标签。另一方面，也是其立足的根本，是数十年积累的极致制造成本控制能力。其DRAM芯片单元面积（约66.26平方毫米）小于主要竞争对手，意味着相同晶圆能产出更多芯片，单位成本更低。这使其能在残酷的价格周期中比对手撑得更久。然而，美光的战略也埋下隐患。2013年为扩大规模收购日本尔必达，却错失了布局HBM（高带宽存储器）的黄金十年。当AI浪潮引爆HBM需求时，提前十年布局的SK海力士占据绝对主导（HBM3份额约85%），美光份额仅约3%，在高端赛道大幅落后。当前，美光面临三重挤压：在高端HBM市场追赶吃力；在中低端DRAM市场遭到中国长鑫存储等厂商的价格侵蚀；同时因中国市场的网络安全审查，其在中国核心市场的营收份额从2023财年的14%骤降至2025财年的7.1%，失去了AI基础设施建设期的宝贵订单机会。如今，美光正奋力追赶，其HBM3E产品已获得英伟达认证，并借助美国《芯片法案》投资新产线。但其面临的挑战本质上是“时间债”。政治杠杆和成本优势能帮其在现有赛道竞争，却无法弥补在新赛道上提前布局所积累的时间优势。未来，这家依靠特殊策略与硬核制造立足的巨头，能否在需要长期耐心和技术沉淀的HBM等高端竞争中赢得下一轮，仍是未知数。答案，藏在其尚未完成的HBM4晶圆与漫长的技术追赶中。

链捕手45分钟前

链捕手45分钟前

CEO意外离世，ONDO的「代币化叙事」会变吗？

Ondo Finance创始人兼CEO Nathan Allman意外离世。作为RWA（现实世界资产）赛道的重要推动者，他将Ondo从早期的DeFi收益协议，转向聚焦于将美债、美元收益资产及股票ETF等传统金融资产代币化的核心路径，塑造了ONDO作为“代币化第一标的”的市场叙事。公司宣布由总裁Ian De Bode接任CEO。Ian拥有麦肯锡数字资产咨询背景，长期负责Ondo战略与运营，其传统金融机构经验或更契合RWA下一阶段在合规、分销与规模扩张上的需求。短期来看，创始人离世可能引发市场对愿景延续性、机构合作以及ONDO代币定价的担忧。中长期而言，Ondo已构建了包括OUSG、USDY和Ondo Global Markets在内的产品矩阵，其发展更多依赖于产品推进、资产规模增长与真实需求，而非单一创始人。此次事件成为对项目是否已成长为可持续基础设施的压力测试。 Nathan Allman的遗产在于指明了一条将成熟传统金融资产引入链上的清晰路径。ONDO的未来地位，将取决于新团队能否继续交付产品并扩大市场规模。

marsbit1小时前

marsbit1小时前

交易

现货

合约

AMD新论文颠覆认知：FP4训练不稳定，原因不是随机性不足

文章摘要

MXFP4 是什么

排查实验:不稳定的根源

端到端效率:训练步吞吐 +20%,综合加速 9-10%

结语

相关问答

你可能也喜欢

前高盛CEO访谈：危机、领导力、AI与年轻人的建议

实体比特币的演进之路

PhotonPay 升级嵌入式钱包 API：打造“隐形且势在必行”的稳定币支付底层基础设施

三星靠技术周期，海力士靠 HBM，美光凭什么赢了万亿市值？

CEO意外离世，ONDO的「代币化叙事」会变吗？

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签