El exalumno post-00 de Tsinghua, Wang Guan, presenta otra innovación: revolucionando los modelos de preentrenamiento Transformer con 1/900 tokens y 1/432 de potencia computacional
El equipo de Wang Guan, egresado de la Universidad Tsinghua, ha presentado HRM-Text, un nuevo modelo de preentrenamiento que desafía el paradigma tradicional de los grandes modelos de lenguaje. Sustituyendo el Transformer estándar por un Modelo Recurrente Jerárquico (HRM) y utilizando un objetivo de entrenamiento directo en pares instrucción-respuesta, HRM-Text logra un rendimiento comparable a modelos de código abierto de 2B a 7B de parámetros, pero con una fracción mínima de los recursos.
Concretamente, el modelo de 1B de parámetros se entrenó con solo 40B de tokens únicos, utilizando aproximadamente 100-900 veces menos tokens y 96-432 veces menos cómputo estimado que los modelos baseline estándar, a un costo cercano a los 1500 USD. Aún así, alcanzó puntuaciones destacadas en benchmarks clave: MMLU (60.7%), ARC-C (81.9%), DROP (82.2%), GSM8K (84.5%) y MATH (56.2%).
La arquitectura HRM emplea módulos de actualización lenta (H) y rápida (L), permitiendo múltiples pasos recurrentes por token para aumentar la profundidad computacional sin agregar parámetros. Técnicas como MagicNorm y Warmup Deep Credit Assignment aseguraron la estabilidad del entrenamiento recurrente.
Los experimentos muestran que HRM supera en eficiencia y estabilidad a Transformers de tamaño similar bajo un presupuesto computacional fijo. Las ablaciones confirman la contribución clave del objetivo de finalización de tareas y el enmascaramiento PrefixLM. El análisis sugiere que la estructura recurrente confiere una "profundidad efectiva" mayor.
Las limitaciones incluyen una cobertura de conocimiento aún limitada por el corpus, la necesidad de mecanismos de tiempo de cómputo adaptativo, y desafíos de ingeniería para implementar PrefixLM en entornos de diálogo. El trabajo futuro explorará desacoplar el núcleo de razonamiento del almacenamiento de conocimientos y validar la escalabilidad a tamaños de modelo mayores.
marsbit05/26 03:19