# Pré-entraînement Articles associés

Le Centre d'actualités HTX fournit les derniers articles et analyses approfondies sur "Pré-entraînement", couvrant les tendances du marché, les mises à jour des projets, les développements technologiques et les politiques réglementaires dans l'industrie crypto.

L'ancien élève de Tsinghua, Wang Guan, né dans les années 2000, présente une nouvelle création : Un modèle de pré-entraînement Transformer révolutionné avec 1/900 des tokens et 1/432 de la puissance de calcul

Des chercheurs dirigés par Wang Guan, alumni de Tsinghua, ont proposé HRM-Text, un modèle de pré-entraînement de langage efficace reposant sur un modèle récurrent hiérarchique (HRM) qui remplace le Transformer standard. Leur approche utilise une architecture à double échelle temporelle (modules lent H et rapide L) permettant des mises à jour récursives multiples par token, augmentant ainsi la profondeur de calcul sans ajouter de paramètres. L'objectif d'entraînement est également revu : au lieu d'un pré-entraînement autorégressif standard, le modèle est entraîné directement sur des paires instruction-réponse, avec une perte calculée uniquement sur la réponse et un masque PrefixLM. Les résultats sont remarquables en termes d'efficacité. Avec seulement 1 milliard de paramètres et 40 milliards de tokens uniques, pour un coût estimé à environ 1500 dollars, HRM-Text atteint des performances comparables à des modèles open source de 2B à 7B paramètres sur des benchmarks comme MMLU (60,7%), ARC-C (81,9%) et GSM8K (84,5%). Cela représente une réduction d'un facteur allant jusqu'à 900x des tokens d'entraînement et 432x de l'estimation de calcul par rapport aux modèles de référence. Les expériences montrent que HRM-Text surpasse des Transformers de taille similaire dans des conditions de FLOPs alignées, que l'objectif "tâche à accomplir" et le masque PrefixLM améliorent les performances, et que la structure récursive confère une profondeur effective plus importante. Les limites actuelles incluent la couverture des connaissances factuelles, liée à la taille réduite des données, le besoin potentiel d'un temps de calcul adaptatif pour réduire les coûts d'inférence, et des questions d'ingénierie pour le déploiement de PrefixLM. Les travaux futurs exploreront le découplage connaissance/raisonnement et la validation à plus grande échelle.

marsbit05/26 03:20

L'ancien élève de Tsinghua, Wang Guan, né dans les années 2000, présente une nouvelle création : Un modèle de pré-entraînement Transformer révolutionné avec 1/900 des tokens et 1/432 de la puissance de calcul

marsbit05/26 03:20

Pourquoi Karpathy, l'influenceur n°1 de l'IA, rejoint Anthropic ?

Andrej Karpathy, une figure éminente de l'IA et cofondateur d'OpenAI, rejoint Anthropic. Il dirigera une nouvelle équipe axée sur la recherche en pré-entraînement, avec pour mission d'utiliser Claude pour accélérer l'exploration dans ce domaine fondamental pour les modèles de langue. Cette arrivée intervient dans un contexte où Anthropic connaît une forte dynamique, venant notamment de dépasser OpenAI en taux d'adoption en entreprise. Le mouvement de Karpathy, réputé pour sa crédibilité technique et son influence publique, est perçu comme un signal fort. Il pourrait catalyser d'autres recrutements de haut niveau et reflète un possible réalignement des priorités de recherche dans l'industrie. Son choix d'Anthropic plutôt qu'un retour à OpenAI est analysé comme un signe des divergences de trajectoire entre les deux géants, ce dernier étant perçu comme plus commercial. Anthropic parie ainsi sur une avancée majeure en pré-entraînement, explorant l'idée d'utiliser l'IA pour créer une IA plus performante. Au-delà d'un simple changement d'emploi, ce recrutement est une bataille pour le leadership intellectuel et narratif dans la course à l'IA.

marsbit05/21 08:06