Actualités liées à Réseau feed-forward - Dernières mises à jour Réseau feed-forward HTX

Transformer réinventé : Rendre les LLM plus intelligents en modifiant simplement leur architecture

En 2026, alors que l'industrie des grands modèles linguistiques (LLM) se concentre sur l'ajout de paramètres via des architectures comme le *Mixture of Experts* (MoE), une nouvelle étude propose une approche radicalement différente. Les chercheurs de Mila, Cornell et de l'Université de Montréal démontrent que redistribuer les paramètres existants au sein d'un modèle, sans en ajouter, peut significativement améliorer ses performances. Leur constat de départ : dans les Transformers standards, toutes les couches ont la même « capacité » (largeur du réseau feed-forward). Or, des recherches antérieures (sortie anticipée, élagage, interprétabilité) indiquent que ces couches n'ont pas la même importance. Les premières traitent des informations basiques (syntaxe), tandis que les dernières affinent la sémantique, parfois en répétant des conclusions déjà établies. L'équipe teste alors des modèles « effilés » (*Tapered Language Models* - TLMs), où la largeur du réseau feed-forward décroît progressivement des couches profondes vers les couches superficielles, tout en conservant la moyenne originale et donc le nombre total de paramètres et d'opérations. Plusieurs courbes de décroissance sont essayées : linéaire, cosinus et sigmoïde. Les résultats sont frappants. Sur un Transformer de 440M de paramètres, la configuration optimale (décroissance cosinus, largeur initiale x1.5, finale x0.5) réduit la perplexité de 16.28 à 14.44, une amélioration de 1.84 point sans coût supplémentaire. Cette conclusion se généralise à d'autres architectures (à attention à grille, Hope-attention, Titans) et à des modèles plus grands (760M, 1.3B), avec des gains systématiques en raisonnement et prédiction langagière, sans nuire à la gestion de longs contextes. L'explication réside dans l'analyse des sorties : les couches profondes montrent une plus forte similarité avec les informations déjà présentes, confirmant qu'elles « réitèrent » plus qu'elles ne « créent ». Allouer plus de capacité aux premières couches, qui font un travail de fondation plus varié, est donc plus efficace. Cette recherche met en lumière un levier de conception longtemps négligé : la forme de la distribution de la capacité, et non seulement sa quantité. Une simple réallocation des paramètres existants offre ainsi une amélioration significative et gratuite, une perspective applicable potentiellement aux Transformers visuels, aux modèles de diffusion et multimodaux.

marsbitIl y a 8 h

Transformer réinventé : Rendre les LLM plus intelligents en modifiant simplement leur architecture

marsbitIl y a 8 h

# Réseau feed-forward Articles associés

Transformer réinventé : Rendre les LLM plus intelligents en modifiant simplement leur architecture

Catégories populaires

Tags tendances

Politiques réglementaires