Nuevo estudio de AMD desafía la creencia común: la inestabilidad del entrenamiento en FP4 no se debe a la falta de aleatoriedad
Un nuevo estudio de AMD y la Universidad Estatal de Pensilvania desafía la creencia de que la inestabilidad en el entrenamiento de modelos grandes de lenguaje (LLM) con precisión FP4 se debe a la falta de aleatoriedad. La investigación, realizada en hardware nativo FP4 (AMD Instinct MI355X), identifica que el problema principal es la acumulación y amplificación de errores estructurales de "microescalado" en la ruta del gradiente de los pesos (Wgrad).
El estudio utilizó el formato MXFP4, que aplica factores de escala a pequeños bloques de datos. Los experimentos mostraron que cuantizar a FP4 las operaciones de propagación hacia adelante (Fprop) y gradiente de activación (Dgrad) era tolerable, pero al aplicar FP4 al cálculo del gradiente de los pesos (Wgrad), la convergencia se degradaba significativamente.
Contrariamente a la intuición previa, estrategias como el redondeo estocástico o la transformada de Hadamard aleatoria empeoraban la inestabilidad. En cambio, una transformada de Hadamard **determinista** (no aleatoria) resultó efectiva, ya que aplica un patrón de error consistente que no se amplifica a lo largo del entrenamiento.
Con esta solución, se completó el preentrenamiento de Llama 3.1-8B, logrando una aceleración del 9-10% en el entrenamiento extremo a extremo respecto a la línea base FP8, con solo un 8-9% de tokens adicionales necesarios para converger.
Este trabajo demuestra la viabilidad del entrenamiento nativo FP4, potencialmente duplicando el rendimiento utilizable para entrenamiento en hardware como las GPU AMD MI350 y NVIDIA Blackwell, que ya soportan FP4.
marsbitHace 14 hora(s)