AMD新论文颠覆认知：FP4训练不稳定，原因不是随机性不足

marsbit发布于2026-05-27更新于2026-05-27

文章摘要

AMD最新研究发现，FP4训练不稳定的主要原因并非此前认为的随机性不足，而是结构性微缩放误差在关键梯度路径上累积放大所致。过去，尝试使用FP4从头训练大模型常因训练不稳定而失败。AMD与宾夕法尼亚州立大学的论文通过实验证明，在Transformer的权重梯度计算路径上使用FP4量化会导致收敛质量显著下降。此前用于缓解量化误差的随机性策略（如随机舍入）在此场景下反而加剧了不稳定性。研究团队采用MXFP4数据格式，并引入确定性Hadamard旋转作为稳定化方法，成功在AMD MI355X GPU上完成了Llama 3.1-8B模型的全流程FP4预训练。结果显示，该方法在仅增加8-9%训练数据开销的情况下，实现了比FP8基线快9-10%的端到端训练速度。这项研究首次在原生FP4硬件上验证了低精度训练的可行性，为降低大模型训练成本提供了新方向，并指出结构性误差分析比增加随机性更为关键。基于开放标准OCP的MXFP4格式也增强了该方案在不同硬件平台间的可移植性。

众所周知,大模型训练成本极高。

但大家又知道,降低训练精度能够显著降低训练成本。DeepSeek-V3 用 FP8 训练把成本打到了 560 万美元,已经让全行业侧目。

在 FP8 成功后,行业仍然在不断探索低精度的边界:从 FP8 降到 FP4,训练成本还能再降多少?

理论上,FP4 的计算吞吐可以是 FP8 的两倍。NVIDIA Blackwell 和 AMD MI350 系列都已经在硬件层面原生支持了 FP4 运算,前者在 B200 上标称 FP4 算力可达 4500 TOPS(稀疏)。硬件已经准备好了,但软件和算法那一侧,一直卡在一个问题上:

用 FP4 从头训练大模型,训练过程非常不稳定。

过去两年里,LLM-FP4、NVFP4 预训练等工作陆续尝试了这条路,但鲜有方案能在 4 比特精度下干净利落地跑通全流程预训练,同时保持接近 FP8 的收敛质量。

更棘手的是,崩溃的原因一直不清楚,分析认为,FP4 训练不稳定的原因很可能来自随机性不足。

但就在最近,AMD 联合宾夕法尼亚州立大学发布了一篇论文,颠覆了传统的认知,为原生 FP4 训练给出了一个全新的清晰诊断。

论文标题:Pretraining large language models with MXFP4 on Native FP4 Hardware
论文链接:https://arxiv.org/abs/2605.09825

这篇论文在 AMD Instinct MI355X GPU 上,用 MXFP4 格式完成了 Llama 3.1-8B 的全流程预训练,端到端训练速度比 FP8 基线快 9-10%,token 开销仅多 8-9%。这是目前第一个在原生 FP4 硬件(非软件模拟)上完成大模型预训练的完整实验。

更重要的是,论文揭示了核心问题:FP4 训练的不稳定性的来源不是随机性不足,是结构性微缩放误差沿敏感梯度路径累积放大。

MXFP4 是什么

在拆解论文之前,有必要先理解 MXFP4 这个数据格式。

传统的整数量化通常对整个张量使用一个缩放因子。MXFP4 的核心设计叫「微缩放」(Micro-scaling):把一个张量切成小块(比如每 32 个元素一组),为每个小块分配一个共享指数(E8M0 格式),块内的每个元素用 4 比特浮点数表示。重建公式可以写成:

其中 E_shared 是块内最大指数,Q_FP4 是最近舍入到 4 比特浮点可表示值。

微缩放的好处在于:每个小块有自己的动态范围,不会被全局异常值「绑架」。这让 4 比特浮点数的表示质量比朴素的全局量化好很多。

但即便有了微缩放,FP4 训练依然不稳定。

排查实验:不稳定的根源

研究团队先设计了一个逐步排查的控制实验。

一次完整的 Transformer 线性层计算,涉及三个通用矩阵乘法操作:

Fprop(前向传播):计算 Y = XW^T,产出激活值

Dgrad(激活梯度):计算 ∇X = ∇Y · W,将梯度回传给输入

Wgrad(权重梯度):计算 ∇W = (∇Y)^T · X,产出用于更新权重的梯度

研究团队保持其他所有因素不变,逐步把这三个操作从 FP8 替换成 MXFP4,观察每一步对收敛的影响。所有实验都在 AMD Instinct MI355X 上用原生 FP4 tensor core 执行,不依赖软件模拟。

训练任务是 MLPerf 标准设置,在 C4 数据集上预训练 Llama 3.1-8B,收敛目标是验证集困惑度达到 3.3。

前两步只带来了温和的额外 token 开销,但一旦把 Wgrad 也换成 MXFP4,开销直接跳到 26-27%。

Wgrad 是 FP4 训练的瓶颈所在。 前向传播和激活梯度对 FP4 量化有相当的容忍度,但权重梯度一旦被量化到 4 比特,收敛质量就出现了显著退化。

业界此前的主流直觉是:FP4 量化误差本质上是噪声问题,因此可以通过注入随机性来「平滑」误差分布。两种常见策略是:

随机舍入(Stochastic Rounding):在量化时引入随机性,使舍入误差的期望值为零

随机 Hadamard 旋转(Randomized Hadamard):在量化前用带随机符号翻转的 Hadamard 变换打散数据分布

当 Wgrad 被量化后,两种随机性策略不仅没有稳定训练,反而直接导致了不收敛。随机性非但没有帮忙,还在关键的梯度路径上引入了更多有效量化误差。

相比之下,确定性 Hadamard 旋转一把将全流程 token 开销从 26-27% 压回到 8-9%,训练轨迹紧密跟踪 FP8 基线。

这是一个非常有诊断价值的结果。随机和确定性 Hadamard 旋转都是正交变换,都能打散异常值的能量分布,理论上对量化误差的缓解效果应该类似。但它们在 Wgrad 场景下的表现截然相反,这揭示了问题的本质:

FP4 训练的不稳定性,是由 MXFP4 微缩放在敏感梯度路径上产生的结构性误差驱动的。 随机性策略失败是因为它们在每一步引入了不同的误差模式(pattern),而这些变化的误差模式沿梯度路径累积,反而放大了不稳定性。确定性旋转之所以有效,恰恰因为它在每一步施加相同的变换,让误差模式保持一致,避免了误差累积。

端到端效率:训练步吞吐 +20%,综合加速 9-10%

把确定性 Hadamard 旋转加上全流程 MXFP4 之后,效率数据如下:

训练步吞吐提升了 20%,扣掉多出的 8-9% token 开销之后,端到端综合加速仍有 9-10%。

考虑到这是把精度从 8 比特直接砍到 4 比特,这个收敛质量和加速幅度都相当可观。

左图:在 C4 数据集上进行 MLPerf 预训练时,Llama 3.1–8B 的验证困惑度随训练 token 数变化的曲线。结果显示,MXFP4 + 确定性 Hadamard 与 FP8 的表现非常接近,而未进行稳定化处理的全流程 MXFP4 收敛速度更慢,训练稳定性也更差。右图:训练后期的局部放大视图。MLPerf 的目标困惑度为 3.3。与未稳定化的 MXFP4 运行相比,确定性 Hadamard(H16)能够与 FP8 基线保持更紧密的一致性。

值得注意的是,作者在论文中明确强调了一项重要限制:这套 FP4 训练方案(MLPerf C4 数据集 + Llama 3.1-8B)的效果已经得到验证,但不能直接假设它能无缝迁移到所有模型、所有数据集和所有训练方法。FP4 训练的行为可能是高度设置依赖的,具体的稳定策略需要根据场景重新验证。

结语

把这篇论文放到更大的产业脉络里,至少有三层意义。

第一层:它回答了一个根本性的「为什么」。 过去的 FP4 训练工作大多聚焦于「怎么让它不崩」,这篇论文第一次给出了清晰的因果诊断:崩溃源于 Wgrad 路径上的结构性微缩放误差,而非随机性不足。这个诊断本身就具有方法论价值,它告诉后续研究者:在低精度训练中遇到不稳定性时,应该优先排查结构性误差源,而非盲目增加随机性。

第二层:它把 FP4 从「推理专属」推向了「训练可用」。此前行业共识是 FP4 只适合推理量化,训练至少要用 FP8。NVIDIA 在 Blackwell 上主推 FP4 推理而非训练,也反映了这一判断。这篇论文在原生 FP4 硬件上跑通了全流程预训练,意味着 MI355X 和 Blackwell 上那些为推理准备的 FP4 算力,理论上也可以用来训练。如果 FP4 训练在更大模型和更多场景上被验证可行,等于现有硬件的可用训练算力直接翻倍。

第三层:它使用了 OCP 开放标准。 MXFP4 是 OCP Microscaling 格式标准的一部分,背后有 AMD、NVIDIA、Intel、Meta、Microsoft、Arm、Qualcomm 七家公司联合支持。基于开放标准意味着这套方法在不同厂商的硬件上都有可移植性,不会被锁定在单一生态里。

从 FP16 到 FP8,DeepSeek-V3 已经证明精度减半可以大幅降低训练成本。从 FP8 到 FP4,这篇论文迈出了关键的第一步。精度每砍一刀,整个大模型训练的经济性都在发生转变。

本文来自微信公众号 “机器之心”(ID:almosthuman2014),编辑:冷猫

你可能也喜欢

AI PC大战：不要押阵营，要押收费站

英伟达与联发科切入AI PC，标志着Windows端侧AI生态进入多玩家竞争阶段。作者认为，不应简单将其视为“x86对Arm”的阵营之争，而应关注谁能持续获取利润与产业链定价权。 AI PC的投资机会可分为三层：一是先进制程“收费站”，无论哪方胜出，台积电（TSMC）都将受益；二是算力与平台外溢，以AMD（x86进攻）和英伟达（GPU软件栈延伸）为代表；三是架构扩散和困境反转，Arm和英特尔（INTC）具备弹性但需谨慎。行业已从概念进入出货验证期。尽管短期出货预测有所下调，但AI PC长期标配化趋势不变。投资难点在于用户换机意愿，若企业端广泛部署隐私计算等应用，将推动市场从消费电子转向企业IT更新。竞争格局上，各芯片厂商优势各异，但高端芯片均依赖先进制程。台积电在晶圆代工市场占据超70%份额，成为AI硬件时代的确定性受益者。投资策略上，作者建议分层配置：将台积电视为底仓（确定性现金流），AMD作为进攻性选择，Arm和英特尔则用于捕捉弹性机会。核心逻辑是投资“收费站”和平台，而非押注单一架构。风险包括：AI PC应用不及预期、Windows on Arm兼容性改善缓慢、关税与宏观因素影响需求、先进制程供需错配，以及整体AI估值偏高可能引发的回调。因此，应将AI PC视为长期产业趋势，在情绪退潮后布局生态与现金流稳定的公司。

marsbit15分钟前

marsbit15分钟前

加密市场宏观研报：多重因素共振下的极限压力测试

2026年5月下旬至6月初，加密市场经历年内最剧烈抛售。比特币自78,000美元高点回落逾18%至64,000美元一线；以太坊失守2,000美元关口滑向1,700美元。触发本轮下行的并非单一事件，而是地缘升温（伊朗霍尔木兹海峡危机推高原油6%）、机构信仰裂痕（Strategy四年来首度卖出比特币）、ETF创纪录外流（连续11日净流出35亿美元）、宏观流动性收紧（新美联储主席Warsh鹰派立场下全年降息概率骤降至35%）及Mt.Gox冷钱包异动等多重因素共振。恐慌贪婪指数暴跌至11。本报告从地缘与宏观流动性、ETF资金流信号、市场结构矛盾、叙事裂痕、监管拐点五维度展开分析，提供穿透短期恐慌的长期视角。

火币成长学院37分钟前

火币成长学院37分钟前

英伟达「三轨架构」的投资体系都投了哪些标的？

英伟达通过“三轨架构”的投资体系深度布局AI生态。最顶层是企业发展团队，主导千亿至百亿美元级的战略投资与并购，如对OpenAI的300亿美元投资、对Anthropic的100亿美元承诺，以及对CoreWeave、Synopsys等基础设施公司的巨额投资。中间层是风投部门NVentures，聚焦早期财务投资，覆盖量子计算（如Alice & Bob）、AI生物医药、推理基础设施（如OpenRouter）等多个领域，团队虽小但节奏加快。底层是NVIDIA Inception创业加速器，提供资源对接而不直接投资。三层协同形成漏斗，从生态孵化到早期注资，再到战略绑定。这一庞大资本网络引发了“循环融资”质疑，如Michael Burry指出的，英伟达通过股权投资换取客户的硬件采购，可能虚增生态利润。欧盟也已关注其“循环支出风险”。尽管英伟达强调投资独立于销售，但其资本部署已成为AI时代最引人瞩目的生态构建与争议焦点。

marsbit43分钟前

marsbit43分钟前

万字解析：从10美元到290美元，MRVL靠「不做GPU」赢了整个AI时代

Marvell Technology（MRVL）股价从2016年不到10美元涨至2026年的290美元，涨幅达30倍，核心在于其独特定位：不做GPU，而是专注于AI时代的“连接”基础设施。公司业务分为三块：一是光互连（光DSP），在400G以上数据中心光模块市场占约70%份额，技术护城河深；二是定制AI芯片，为Amazon等云巨头设计XPU，拥有18个项目、750亿美元潜在收入；三是以太网交换芯片与企业存储，提供稳定现金流。 CEO Matt Murphy上任后大幅改革，砍掉非核心业务，收购Inphi（光DSP）、Cavium、Celestial AI（光子织网）等公司，聚焦数据中心，并绑定大客户获得长期订单。英伟达投资20亿美元战略入股，认可Marvell在AI互连生态的价值。市场常将Marvell视为“小Broadcom”，但两者本质不同：Marvell在光DSP是领导者，而定制芯片业务虽毛利率较低，但随规模扩大有望改善。主要风险包括：丢失Amazon Trainium3订单、客户集中度高、毛利率天花板、英伟达既是伙伴也是潜在竞争者、内部人士减持及供应链产能压力。但公司光互连技术优势显著，结合PEG约0.6的估值，仍有增长空间。本质上，Marvell抓住了AI基础设施从“堆算力”转向“建系统”的趋势。在AI集群规模不断扩大、数据流动需求激增的背景下，“连接”的价值日益凸显，而Marvell正处在这一核心位置。

marsbit44分钟前

marsbit44分钟前

AI中转站引发知乎热议：便宜Token背后，用户真正担心什么？

知乎上关于“AI中转站与便宜Token”的讨论引发广泛关注，焦点从单纯的工具选择转向了深层的成本与信任问题。用户首要担忧的是模型真实性。AI中转站被类比为“AI版黄牛”，技术门槛不高，但上游来源常不透明，存在“模型掉包”风险。由于大模型输出具有随机性，普通用户难以辨别自己是否真的在使用所付费的旗舰模型，这本质上是一种信息不对称交易。其次，便宜Token的性价比需要理性看待。其“低价感”常源于与官方API按量价的对比，若与官方订阅套餐、国产模型或免费额度相比，未必总是最优。讨论强调用户应先明确自身需求——是偶尔使用还是高频调用，再选择合适渠道。便宜Token的来源复杂，既可能有批量采购、缓存优化等合法路径，也可能涉及订阅拆分、地区价差套利甚至更灰色的渠道。这种混合供给导致服务稳定性和余额风险难以评估。真正的成本计算需涵盖模型真实性、服务稳定性和数据安全。数据安全成为核心关切，尤其在AI编程、Agent和企业应用场景中。经过中转站的prompt、代码、业务文档和密钥可能面临泄露风险。对于企业，这还涉及商业秘密、数据合规与供应商审查等治理问题。讨论形成的普遍共识是：AI中转站可用于低敏感、可替代的任务（如公开资料总结、简单测试），但不建议作为默认入口，尤其不能用于处理敏感数据或接入生产环境。实用建议包括：避免大额充值、分散风险、定期测试模型、做好数据脱敏。这场讨论揭示，当AI能力按Token计价时，用户为节省调用费用，可能潜在地牺牲了信任与安全。随着AI更深度融入工作流，明晰请求路径、模型来源与数据流向变得至关重要。

marsbit1小时前

marsbit1小时前

交易

现货

合约

AMD新论文颠覆认知：FP4训练不稳定，原因不是随机性不足

文章摘要

MXFP4 是什么

排查实验:不稳定的根源

端到端效率:训练步吞吐 +20%,综合加速 9-10%

结语

相关问答

你可能也喜欢

AI PC大战：不要押阵营，要押收费站

加密市场宏观研报：多重因素共振下的极限压力测试

英伟达「三轨架构」的投资体系都投了哪些标的？

万字解析：从10美元到290美元，MRVL靠「不做GPU」赢了整个AI时代

AI中转站引发知乎热议：便宜Token背后，用户真正担心什么？

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签