AMD新论文颠覆认知：FP4训练不稳定，原因不是随机性不足

marsbit发布于2026-05-27更新于2026-05-27

文章摘要

AMD最新研究发现，FP4训练不稳定的主要原因并非此前认为的随机性不足，而是结构性微缩放误差在关键梯度路径上累积放大所致。过去，尝试使用FP4从头训练大模型常因训练不稳定而失败。AMD与宾夕法尼亚州立大学的论文通过实验证明，在Transformer的权重梯度计算路径上使用FP4量化会导致收敛质量显著下降。此前用于缓解量化误差的随机性策略（如随机舍入）在此场景下反而加剧了不稳定性。研究团队采用MXFP4数据格式，并引入确定性Hadamard旋转作为稳定化方法，成功在AMD MI355X GPU上完成了Llama 3.1-8B模型的全流程FP4预训练。结果显示，该方法在仅增加8-9%训练数据开销的情况下，实现了比FP8基线快9-10%的端到端训练速度。这项研究首次在原生FP4硬件上验证了低精度训练的可行性，为降低大模型训练成本提供了新方向，并指出结构性误差分析比增加随机性更为关键。基于开放标准OCP的MXFP4格式也增强了该方案在不同硬件平台间的可移植性。

众所周知,大模型训练成本极高。

但大家又知道,降低训练精度能够显著降低训练成本。DeepSeek-V3 用 FP8 训练把成本打到了 560 万美元,已经让全行业侧目。

在 FP8 成功后,行业仍然在不断探索低精度的边界:从 FP8 降到 FP4,训练成本还能再降多少?

理论上,FP4 的计算吞吐可以是 FP8 的两倍。NVIDIA Blackwell 和 AMD MI350 系列都已经在硬件层面原生支持了 FP4 运算,前者在 B200 上标称 FP4 算力可达 4500 TOPS(稀疏)。硬件已经准备好了,但软件和算法那一侧,一直卡在一个问题上:

用 FP4 从头训练大模型,训练过程非常不稳定。

过去两年里,LLM-FP4、NVFP4 预训练等工作陆续尝试了这条路,但鲜有方案能在 4 比特精度下干净利落地跑通全流程预训练,同时保持接近 FP8 的收敛质量。

更棘手的是,崩溃的原因一直不清楚,分析认为,FP4 训练不稳定的原因很可能来自随机性不足。

但就在最近,AMD 联合宾夕法尼亚州立大学发布了一篇论文,颠覆了传统的认知,为原生 FP4 训练给出了一个全新的清晰诊断。

论文标题:Pretraining large language models with MXFP4 on Native FP4 Hardware
论文链接:https://arxiv.org/abs/2605.09825

这篇论文在 AMD Instinct MI355X GPU 上,用 MXFP4 格式完成了 Llama 3.1-8B 的全流程预训练,端到端训练速度比 FP8 基线快 9-10%,token 开销仅多 8-9%。这是目前第一个在原生 FP4 硬件(非软件模拟)上完成大模型预训练的完整实验。

更重要的是,论文揭示了核心问题:FP4 训练的不稳定性的来源不是随机性不足,是结构性微缩放误差沿敏感梯度路径累积放大。

MXFP4 是什么

在拆解论文之前,有必要先理解 MXFP4 这个数据格式。

传统的整数量化通常对整个张量使用一个缩放因子。MXFP4 的核心设计叫「微缩放」(Micro-scaling):把一个张量切成小块(比如每 32 个元素一组),为每个小块分配一个共享指数(E8M0 格式),块内的每个元素用 4 比特浮点数表示。重建公式可以写成:

其中 E_shared 是块内最大指数,Q_FP4 是最近舍入到 4 比特浮点可表示值。

微缩放的好处在于:每个小块有自己的动态范围,不会被全局异常值「绑架」。这让 4 比特浮点数的表示质量比朴素的全局量化好很多。

但即便有了微缩放,FP4 训练依然不稳定。

排查实验:不稳定的根源

研究团队先设计了一个逐步排查的控制实验。

一次完整的 Transformer 线性层计算,涉及三个通用矩阵乘法操作:

Fprop(前向传播):计算 Y = XW^T,产出激活值

Dgrad(激活梯度):计算 ∇X = ∇Y · W,将梯度回传给输入

Wgrad(权重梯度):计算 ∇W = (∇Y)^T · X,产出用于更新权重的梯度

研究团队保持其他所有因素不变,逐步把这三个操作从 FP8 替换成 MXFP4,观察每一步对收敛的影响。所有实验都在 AMD Instinct MI355X 上用原生 FP4 tensor core 执行,不依赖软件模拟。

训练任务是 MLPerf 标准设置,在 C4 数据集上预训练 Llama 3.1-8B,收敛目标是验证集困惑度达到 3.3。

前两步只带来了温和的额外 token 开销,但一旦把 Wgrad 也换成 MXFP4,开销直接跳到 26-27%。

Wgrad 是 FP4 训练的瓶颈所在。 前向传播和激活梯度对 FP4 量化有相当的容忍度,但权重梯度一旦被量化到 4 比特,收敛质量就出现了显著退化。

业界此前的主流直觉是:FP4 量化误差本质上是噪声问题,因此可以通过注入随机性来「平滑」误差分布。两种常见策略是:

随机舍入(Stochastic Rounding):在量化时引入随机性,使舍入误差的期望值为零

随机 Hadamard 旋转(Randomized Hadamard):在量化前用带随机符号翻转的 Hadamard 变换打散数据分布

当 Wgrad 被量化后,两种随机性策略不仅没有稳定训练,反而直接导致了不收敛。随机性非但没有帮忙,还在关键的梯度路径上引入了更多有效量化误差。

相比之下,确定性 Hadamard 旋转一把将全流程 token 开销从 26-27% 压回到 8-9%,训练轨迹紧密跟踪 FP8 基线。

这是一个非常有诊断价值的结果。随机和确定性 Hadamard 旋转都是正交变换,都能打散异常值的能量分布,理论上对量化误差的缓解效果应该类似。但它们在 Wgrad 场景下的表现截然相反,这揭示了问题的本质:

FP4 训练的不稳定性,是由 MXFP4 微缩放在敏感梯度路径上产生的结构性误差驱动的。 随机性策略失败是因为它们在每一步引入了不同的误差模式(pattern),而这些变化的误差模式沿梯度路径累积,反而放大了不稳定性。确定性旋转之所以有效,恰恰因为它在每一步施加相同的变换,让误差模式保持一致,避免了误差累积。

端到端效率:训练步吞吐 +20%,综合加速 9-10%

把确定性 Hadamard 旋转加上全流程 MXFP4 之后,效率数据如下:

训练步吞吐提升了 20%,扣掉多出的 8-9% token 开销之后,端到端综合加速仍有 9-10%。

考虑到这是把精度从 8 比特直接砍到 4 比特,这个收敛质量和加速幅度都相当可观。

左图:在 C4 数据集上进行 MLPerf 预训练时,Llama 3.1–8B 的验证困惑度随训练 token 数变化的曲线。结果显示,MXFP4 + 确定性 Hadamard 与 FP8 的表现非常接近,而未进行稳定化处理的全流程 MXFP4 收敛速度更慢,训练稳定性也更差。右图:训练后期的局部放大视图。MLPerf 的目标困惑度为 3.3。与未稳定化的 MXFP4 运行相比,确定性 Hadamard(H16)能够与 FP8 基线保持更紧密的一致性。

值得注意的是,作者在论文中明确强调了一项重要限制:这套 FP4 训练方案(MLPerf C4 数据集 + Llama 3.1-8B)的效果已经得到验证,但不能直接假设它能无缝迁移到所有模型、所有数据集和所有训练方法。FP4 训练的行为可能是高度设置依赖的,具体的稳定策略需要根据场景重新验证。

结语

把这篇论文放到更大的产业脉络里,至少有三层意义。

第一层:它回答了一个根本性的「为什么」。 过去的 FP4 训练工作大多聚焦于「怎么让它不崩」,这篇论文第一次给出了清晰的因果诊断:崩溃源于 Wgrad 路径上的结构性微缩放误差,而非随机性不足。这个诊断本身就具有方法论价值,它告诉后续研究者:在低精度训练中遇到不稳定性时,应该优先排查结构性误差源,而非盲目增加随机性。

第二层:它把 FP4 从「推理专属」推向了「训练可用」。此前行业共识是 FP4 只适合推理量化,训练至少要用 FP8。NVIDIA 在 Blackwell 上主推 FP4 推理而非训练,也反映了这一判断。这篇论文在原生 FP4 硬件上跑通了全流程预训练,意味着 MI355X 和 Blackwell 上那些为推理准备的 FP4 算力,理论上也可以用来训练。如果 FP4 训练在更大模型和更多场景上被验证可行,等于现有硬件的可用训练算力直接翻倍。

第三层:它使用了 OCP 开放标准。 MXFP4 是 OCP Microscaling 格式标准的一部分,背后有 AMD、NVIDIA、Intel、Meta、Microsoft、Arm、Qualcomm 七家公司联合支持。基于开放标准意味着这套方法在不同厂商的硬件上都有可移植性,不会被锁定在单一生态里。

从 FP16 到 FP8,DeepSeek-V3 已经证明精度减半可以大幅降低训练成本。从 FP8 到 FP4,这篇论文迈出了关键的第一步。精度每砍一刀,整个大模型训练的经济性都在发生转变。

本文来自微信公众号 “机器之心”(ID:almosthuman2014),编辑:冷猫

你可能也喜欢

Circle 将 Zama 协议地址列入黑名单，冻结价值 1260 万美元的用户资金 - 详情

稳定币发行商Circle已将一个与隐私协议Zama相关的智能合约列入黑名单，冻结了约1260万美元的用户资金。此次冻结首先由链上调查员ZachXBT发现，涉及Zama在以太坊上部署的保密USDC（cUSDC）合约。该合约地址在Zama的公开文档中可查，其冻结过程可被实时追踪和验证。进一步分析显示，此次冻结可能与资产管理和收益协议Overnight Finance近期的争议及法律问题间接相关。数据显示，一个疑似与Overnight Finance相关的钱包于2026年5月11日向Zama合约存入约1240万美元USDC。Overnight Finance近期正面临治理纠纷和可能被团队“拉地毯”的指控，并因此进行了国库资产分配投票。此外，该公司还卷入一起民事诉讼，原告之一是DeFi领域以激进治理策略闻名的Patagon Management。尽管Circle的行动与这些事件之间尚无直接因果证据，但法律程序、资金流动与冻结事件的重叠，引发了人们对DeFi协议间风险传导的担忧。 Circle此次单方面行动再次引发对中心化发行商透明度的批评。据ZachXBT称，Zama团队在合约被列入黑名单前似乎未获任何通知。这加剧了人们对中心化实体在无预警情况下影响去中心化应用及其用户的担忧。此前在2026年3月，Circle曾冻结多个实体相关的热钱包而未公开说明理由。本次行动则更进一步，直接冻结了协议级别的资金池合约，而非独立钱包，这引发了人们对所谓去中心化系统中托管风险的质疑。截至目前，Circle尚未就冻结Zama合约的原因发布官方解释。

bitcoinist19分钟前

Circle 将 Zama 协议地址列入黑名单，冻结价值 1260 万美元的用户资金 - 详情

bitcoinist19分钟前

为什么更多AI Agent不等于更高生产力？

当AI Agent变得越来越易得和便宜，启动多个Agent已轻而易举，但这并不意味着生产力会随之线性提升。文章提出了“编排税”的概念：虽然启动Agent成本低廉，但真正昂贵的是后续需要人类投入的串行工作——检查结果、理解架构影响、处理冲突并决定最终代码合并。这些任务无法并行，必须经过开发者有限的认知带宽。开发者如同AI系统中的“全局解释器锁”（GIL），成为限制整体吞吐量的单线程资源。更多Agent可能只会加长待审查队列，导致频繁的上下文切换和认知疲劳，反而降低效率。因此，关键不是盲目增加Agent，而是围绕人的注意力重新设计工作流。有效的策略包括：根据review能力而非UI能力限制Agent数量；将任务分类，只将独立任务交给Agent并行处理；采用批量review减少切换成本；让Agent自行验证可自动化部分，节省人类判断力；并保护专注的串行时间用于深度思考。忙碌感不等于高产，忽视“编排税”可能导致技术债和认知债积累。真正的能力在于像设计并发系统一样，精心管理自己有限的注意力资源，确保AI工具真正提升生产力而非制造假象。

marsbit1小时前

marsbit1小时前

三年之后：回看 2023 年我对 ChatGPT 的判断

作者王健硕在2026年5月回看其于2023年3月对ChatGPT做出的二十条预测，并借助AI代理进行验证。整体看，其大方向判断多正确，但细节和程度常有偏差。 **看对的方面：** - **技术架构**：准确预测RAG（检索增强生成）将成为解决知识更新和幻觉的主流方法，以及LUI（自然语言用户界面）将催生巨大新产业。 - **发展趋势**：预见到“机器人网络”和新的agent寻址系统将出现，中国能快速做出可用大模型并缩小与顶尖差距。 - **本质认知**：正确指出ChatGPT没有意识，图灵测试仅测表象；判断其是巨大进步但非AGI，且短期内不会造成整体失业潮。 **看错或看偏的方面：** - **具体数据错误**：关于GPT-4有100T参数的传闻完全错误。 - **绝对化判断**：断言LLM“不可能”自己学好数学被后来模型在IMO夺金证伪；认为AI生成内容可“规避”版权，实则引发史上最大侵权赔偿。 - **价值与成本误判**：认为价值终落应用层，但最大赢家是算力层（如英伟达）；模型成本“5-10亿封顶”的估算严重偏离实际。 - **社会影响误读**：认为ChatGPT的“加权平均”特性可能促进“世界大同”，但实际AI正走向个性化，并可能制造新信息茧房。 **总结规律：** 1. 预测机制和方向比具体数字更可靠。 2. 倾向于高估短期变化速度，低估长期影响程度。 3. 容易忽略问题内部的“分布”差异（如失业影响集中在年轻群体）。 4. 留有餘地、分层表述的判断更经得起时间检验。 5. 一些根本性争议，三年时间仍不足以给出定论。这次复盘旨在为未来的判断立下更审慎的规矩。

marsbit7小时前

三年之后：回看 2023 年我对 ChatGPT 的判断

2023年3月，在GPT-4发布前，作者王健硕对ChatGPT的未来做出了二十项预测。三年后的2026年，他使用AI agent对这些判断进行回顾验证，评估其准确性。 **主要看对的方面：** 1. **RAG成为主流**：预测通过外部检索而非修改模型来解决知识更新和幻觉问题，这已成为行业标准架构。 2. **LUI（自然语言界面）兴起**：预测自然语言交互将催生巨大新产业，Agent、MCP协议等发展印证了这一点，但LUI是与GUI共存而非取代。 3. **机器人网络与新寻址系统**：预测Agent将自动协作并需要新寻址方式，MCP、A2A等协议正朝此方向发展。 4. **中国能做出可用大模型**：预测中美模型差距会迅速缩小，事实如此，但真正领先的国内厂商与其当初点名不同。 5. **AI无意识与图灵测试本质**：核心判断“AI无意识，图灵测试仅测表象”基本成立，但“绝无意识”的绝对论断被后续研究置于灰区。 **看错或看偏的方面：** 1. **GPT-4参数数量**：所传“100T参数”严重错误，实际约为1.8T。 2. **LLM的数学能力**：诊断“数学差需外挂工具”正确，但“不可能自行学会”的结论被后续“推理模型”在IMO夺金证伪。 3. **价值捕获**：预测价值在应用层，但现实中算力层（如英伟达）捕获了最大利润，模型层反而亏损。 4. **版权问题**：判断“生成物可能无法登记版权”正确，但认为能“规避侵权”则错误，已出现巨额侵权赔偿案例。 5. **信息茧房与世界大同**：机制上AI会将观点向众数平均，但AI正快速走向“千人千面”的个性化，可能制造新茧房而非消解极化。 6. **大模型成本**：预测“局部战争”和玩家涌入正确，但“5-10亿美元封顶”的成本估算与前沿训练实际花费严重不符。 **总结规律：** 1. 判断**方向和机制**比具体数字、程度更可靠。 2. 倾向于**高估短期变化速度，低估长期能力上限**。 3. 容易忽略**问题内部的分布差异**（如总量正确但部分群体受损）。 4. **留有餘地、分层表述**的判断更经得起时间检验。 5. 一些根本性争论，**三年时间不足以给出最终答案**。这次回顾表明，在快速变化的领域，把握大方向比追求精确预测更重要，同时需警惕绝对化表述并承认认知的局限性。

链捕手10小时前

AI泡沫警告：AI投资对大多数科技巨头来说都是负回报

AI投资热潮正面临财务回报的严峻考验。微软、Alphabet、Meta、甲骨文等科技巨头计划未来五年投入数千亿美元建设AI数据中心，但基于分析师的收入与资本支出预测，除亚马逊外，多数公司的隐含投资回报率可能为负。这意味着当前的巨额资本开支可能无法带来相应利润增长，甚至可能成为大规模股东价值毁灭事件。美国经济增长目前高度依赖科技投资，其贡献率高达93%。如果云厂商因投资回报不佳而削减支出，不仅将冲击英伟达、台积电等产业链公司，也可能导致美国经济衰退并引发股市熊市。与此同时，OpenAI、Anthropic等AI公司计划推进IPO，这被视为将投资风险从早期资本转移给公众投资者的潜在方式。文章核心指出，问题不在于AI没有未来，而在于当营销热潮退去后，谁来为这场昂贵的基础设施竞赛买单。泡沫风险虽未必在2026年立即破裂，但可能在随后几年显现。

marsbit11小时前

marsbit11小时前

交易

现货

合约

AMD新论文颠覆认知：FP4训练不稳定，原因不是随机性不足

文章摘要

MXFP4 是什么

排查实验:不稳定的根源

端到端效率:训练步吞吐 +20%,综合加速 9-10%

结语

相关问答

你可能也喜欢

Circle 将 Zama 协议地址列入黑名单，冻结价值 1260 万美元的用户资金 - 详情

为什么更多AI Agent不等于更高生产力？

三年之后：回看 2023 年我对 ChatGPT 的判断

三年之后：回看 2023 年我对 ChatGPT 的判断

AI泡沫警告：AI投资对大多数科技巨头来说都是负回报

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签