不稳定性相關新聞 - HTX 不稳定性資訊匯總

AMD新论文颠覆认知：FP4训练不稳定，原因不是随机性不足

AMD最新研究发现，FP4训练不稳定的主要原因并非此前认为的随机性不足，而是结构性微缩放误差在关键梯度路径上累积放大所致。过去，尝试使用FP4从头训练大模型常因训练不稳定而失败。AMD与宾夕法尼亚州立大学的论文通过实验证明，在Transformer的权重梯度计算路径上使用FP4量化会导致收敛质量显著下降。此前用于缓解量化误差的随机性策略（如随机舍入）在此场景下反而加剧了不稳定性。研究团队采用MXFP4数据格式，并引入确定性Hadamard旋转作为稳定化方法，成功在AMD MI355X GPU上完成了Llama 3.1-8B模型的全流程FP4预训练。结果显示，该方法在仅增加8-9%训练数据开销的情况下，实现了比FP8基线快9-10%的端到端训练速度。这项研究首次在原生FP4硬件上验证了低精度训练的可行性，为降低大模型训练成本提供了新方向，并指出结构性误差分析比增加随机性更为关键。基于开放标准OCP的MXFP4格式也增强了该方案在不同硬件平台间的可移植性。

marsbit17 小時前

marsbit17 小時前

# 不稳定性的所有文章

AMD新论文颠覆认知：FP4训练不稳定，原因不是随机性不足

熱門分類

熱門標籤

行业资讯

监管政策