# Pré-entraînement Articles associés

Le Centre d'actualités HTX fournit les derniers articles et analyses approfondies sur "Pré-entraînement", couvrant les tendances du marché, les mises à jour des projets, les développements technologiques et les politiques réglementaires dans l'industrie crypto.

L'ancien élève de Tsinghua, Wang Guan, né dans les années 2000, présente une nouvelle création : Un modèle de pré-entraînement Transformer révolutionné avec 1/900 des tokens et 1/432 de la puissance de calcul

Des chercheurs dirigés par Wang Guan, alumni de Tsinghua, ont proposé HRM-Text, un modèle de pré-entraînement de langage efficace reposant sur un modèle récurrent hiérarchique (HRM) qui remplace le Transformer standard. Leur approche utilise une architecture à double échelle temporelle (modules lent H et rapide L) permettant des mises à jour récursives multiples par token, augmentant ainsi la profondeur de calcul sans ajouter de paramètres. L'objectif d'entraînement est également revu : au lieu d'un pré-entraînement autorégressif standard, le modèle est entraîné directement sur des paires instruction-réponse, avec une perte calculée uniquement sur la réponse et un masque PrefixLM. Les résultats sont remarquables en termes d'efficacité. Avec seulement 1 milliard de paramètres et 40 milliards de tokens uniques, pour un coût estimé à environ 1500 dollars, HRM-Text atteint des performances comparables à des modèles open source de 2B à 7B paramètres sur des benchmarks comme MMLU (60,7%), ARC-C (81,9%) et GSM8K (84,5%). Cela représente une réduction d'un facteur allant jusqu'à 900x des tokens d'entraînement et 432x de l'estimation de calcul par rapport aux modèles de référence. Les expériences montrent que HRM-Text surpasse des Transformers de taille similaire dans des conditions de FLOPs alignées, que l'objectif "tâche à accomplir" et le masque PrefixLM améliorent les performances, et que la structure récursive confère une profondeur effective plus importante. Les limites actuelles incluent la couverture des connaissances factuelles, liée à la taille réduite des données, le besoin potentiel d'un temps de calcul adaptatif pour réduire les coûts d'inférence, et des questions d'ingénierie pour le déploiement de PrefixLM. Les travaux futurs exploreront le découplage connaissance/raisonnement et la validation à plus grande échelle.

marsbit05/26 03:20

L'ancien élève de Tsinghua, Wang Guan, né dans les années 2000, présente une nouvelle création : Un modèle de pré-entraînement Transformer révolutionné avec 1/900 des tokens et 1/432 de la puissance de calcul

marsbit05/26 03:20

活动图片