NVIDIA MoE Nouveau Open Source : Un Import Ligne, Accélération du Fine-tuning de 3.7x

marsbitPublié le 2026-06-26Dernière mise à jour le 2026-06-26

Résumé

NVIDIA a open-sourcé NeMo AutoModel, une solution permettant d'accélérer jusqu'à 3,7 fois le réglage fin (fine-tuning) des grands modèles de type MoE (Mixture of Experts). Compatible avec l'API de Hugging Face Transformers v5, elle ne nécessite qu'une simple ligne d'importation pour obtenir ces gains de performances. Les expériences menées sur des modèles comme Qwen3-30B-A3B montrent une augmentation du débit d'entraînement de 3,4 à 3,7 fois et une réduction de 29% à 32% de la mémoire GPU utilisée. Cette optimisation repose sur trois technologies clés : le parallélisme d'experts (Expert Parallelism) pour répartir la charge mémoire, DeepEP pour fusionner calculs et communications, et TransformerEngine pour accélérer les opérations de base du Transformer. Ainsi, NeMo AutoModel offre une mise à niveau transparente pour les utilisateurs de Transformers v5, permettant un réglage fin plus rapide et plus efficace des modèles MoE à grande échelle sans modifications majeures du code. Le code et la documentation sont disponibles sur GitHub.

Un import d'une ligne, le fine-tuning de grands modèles MoE est accéléré de 3,7 fois.

Les derniers travaux de recherche de NVIDIA sont désormais open source : NeMo AutoModel, conçu spécifiquement pour la construction et le fine-tuning à grande échelle de modèles d'IA générative.

Construit sur la base de Hugging Face Transformers v5, NeMo AutoModel permet, sans modifier le code API, simplement en ajoutant une ligne d'import, de réaliser un fine-tuning plus rapide pour les modèles MoE.

Les expériences montrent que, par rapport à la version originale de Transformers v5 de Hugging Face, NeMo AutoModel de NVIDIA permet de réaliser un gain de débit de formation de 3,4 à 3,7 fois lors du fine-tuning MoE, et réduit de 29% à 32% l'utilisation de mémoire GPU.

Sur un seul nœud avec 8 GPU H100 80GB, prenant l'exemple de Qwen3-30B-A3B, NeMo AutoModel augmente directement le TPS/GPU (débit par seconde par GPU) de 3075 à 11340, soit une amélioration de 3,69 fois.

Analyse de la technologie clé

MoE est devenu l'architecture dominante des modèles de pointe actuels, mais MoE apporte également de nouveaux défis pour un entraînement efficace :

Parallélisme d'experts, fusion des communications, optimisation des kernels... Ces travaux d'ingénierie complexes nécessitent des infrastructures de support adaptées.

Transformers v5 de HuggingFace est actuellement la "base générique" de formation MoE la plus utilisée. La v5 améliore la prise en charge native de MoE, introduisant des capacités fondamentales comme les *expert backends*, le *dynamic weight loading* et l'exécution distribuée pour MoE.

Cette fois, l'approche de NVIDIA est de se placer sur les épaules de ses prédécesseurs, en restant compatible avec l'API de HuggingFace Transformers, permettant aux utilisateurs d'obtenir un débit de formation plus élevé et une consommation mémoire plus faible lors du fine-tuning MoE sans modifier largement leur code.

Plus précisément, NeMo AutoModel ajoute à Transformers v5 : Expert Parallelism (EP), DeepEP et TransformerEngine.

Expert Parallelism (Parallélisme d'Experts)

La technologie de parallélisme d'experts sert principalement à réduire la pression mémoire.

EP répartit les poids des experts sur plusieurs GPU, chaque GPU ne détenant plus la totalité des paramètres de tous les experts, mais seulement une partie.

Par exemple, sur 8 GPU avec ep_size=8, les poids des experts sont répartis sur les 8 GPU, l'empreinte mémoire MoE par GPU peut être réduite à 1/8 de l'original.

D'après les résultats expérimentaux, pour Qwen3, cette technologie peut réduire la mémoire maximale de 68,2 GiB à 48,1 GiB, soit une baisse de 29%.

Pour le modèle Nemotron Nanomo, l'utilisation mémoire passe de 62,1 GiB à 42,5 GiB, une baisse de 32%.

L'espace libéré peut être utilisé pour supporter des lots plus grands ou des séquences plus longues.

DeepEP

DeepEP réalise la fusion des calculs et des communications.

Dans l'approche traditionnelle, il y a un coût de communication significatif entre la distribution des tokens et le calcul des experts. DeepEP intègre les opérations de distribution et de combinaison des tokens dans des kernels GPU optimisés, permettant le chevauchement du processus de communication et du calcul des experts.

TransformerEngine

Le kernel TransformerEngine fournit une accélération pour divers calculs de base.

Cette technologie offre des implémentations fusionnées pour les mécanismes d'attention, les couches linéaires et RMSNorm, etc., accélérant non seulement la couche MoE mais aussi les couches Transformer ordinaires.

Un import d'une ligne, une amélioration de vitesse par 3

En résumé, pour ceux qui utilisent déjà Transformers v5, NeMo AutoModel de NVIDIA propose une solution de mise à niveau sans douleur :

Il suffit d'ajouter une ligne de code d'import pour obtenir une amélioration de vitesse de fine-tuning MoE par un facteur de 3.

Sur Qwen3-30B-A3B et Nemotron 3 Nano 30B-A3B, comparé à Transformers v5, cette solution permet d'atteindre une amélioration du débit de formation de 3,4 à 3,7 fois, tout en réduisant la consommation mémoire de 29% à 32%.

NVIDIA a également présenté les résultats du fine-tuning complet des paramètres pour Nemotron 3 Ultra 550B A55B sur 16 nœuds H100, soit 128 GPU.

Le TPS/GPU était de 815, le TFLOP/s/GPU environ 293, et la mémoire maximale de 58,2 GiB.

La raison pour laquelle il n'y a pas de comparaison avec la v5 ici est que Transformers v5 saturerait directement la mémoire à cette échelle ̄_(ツ)_/ ̄

Si vous êtes intéressés, NVIDIA a mis le code, les configurations et les scripts de benchmark sur GitHub : https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments

Le guide d'utilisation détaillé se trouve ici : https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility

Cet article provient du compte WeChat officiel "Quantum Bit", auteur : Yu Yang

Cryptos en tendance

Questions liées

QQuel est l'outil développé par NVIDIA pour accélérer le fine-tuning des modèles MoE, et quel gain de vitesse promet-il ?

ANVIDIA a développé NeMo AutoModel. Il promet d'accélérer le fine-tuning des modèles MoE jusqu'à 3,7 fois, tout en réduisant l'utilisation de mémoire GPU de 29% à 32%.

QSur quelle base NeMo AutoModel est-il construit et comment est-il intégré par les développeurs ?

ANeMo AutoModel est construit sur Hugging Face Transformers v5. Pour l'intégrer, les développeurs n'ont qu'à ajouter une seule ligne d'import dans leur code sans changer l'API existante.

QQuelle est la technologie clé utilisée pour réduire la pression mémoire, et comment fonctionne-t-elle ?

ALa technologie clé est le parallélisme d'experts (Expert Parallelism, EP). Elle répartit les poids des experts sur plusieurs GPU, de sorte que chaque GPU ne stocke qu'une fraction des paramètres, réduisant ainsi considérablement l'empreinte mémoire sur chaque carte.

QQuels sont les trois composants principaux ajoutés par NeMo AutoModel par rapport à Transformers v5 ?

ALes trois composants principaux ajoutés sont : le parallélisme d'experts (EP), DeepEP (qui fusionne le calcul et la communication), et TransformerEngine (qui fournit des noyaux optimisés pour les opérations fondamentales du Transformer).

QOù les développeurs peuvent-ils trouver le code, la configuration et les scripts de test de NeMo AutoModel ?

ALe code, la configuration et les scripts de benchmark sont disponibles sur le dépôt GitHub de NVIDIA NeMo AutoModel : https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments. Le guide d'utilisation se trouve à l'adresse : https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility.

Lectures associées

La pionnière de la sécurité informatique Dawn Song rejoint Meta

Dawn Song, professeure d'informatique à UC Berkeley et figure éminente de la sécurité informatique et de l'IA, rejoint Meta. Elle occupera le poste de vice-présidente de la recherche en IA au sein du Superintelligence Labs de Meta, sous la direction de Nat Friedman. Éminente universitaire et entrepreneure, lauréate du prix MacArthur et membre de l'AAAS, elle est reconnue pour ses travaux pionniers, notamment l'analyse de flux de données (Dynamic Taint Analysis). Ses recherches couvrent la sécurité logicielle, l'apprentissage automatique contradictoire et la sécurité des agents IA. Son équipe à Berkeley a récemment développé ALE (Agents' Last Exam), un benchmark pour évaluer les capacités des agents IA dans des tâches du monde réel. Elle rejoint Meta avec d'autres membres de Virtue AI, une entreprise qu'elle a cofondée et spécialisée dans les infrastructures de sécurité pour l'IA, notamment le test d'intrusion automatisé (red-teaming). Ce recrutement intervient dans un contexte où Meta cherche à renforcer la sécurité de ses modèles d'IA, en vue de leur déploiement à grande échelle et face à une pression réglementaire croissante. L'article mentionne également le départ de Denny Zhou, fondateur de l'équipe Gemini Reasoning chez Google, pour rejoindre Meta il y a plusieurs mois. Expert de renom en raisonnement des modèles de langage, il est à l'origine de méthodes clés comme le Chain-of-Thought.

marsbitIl y a 18 mins

La pionnière de la sécurité informatique Dawn Song rejoint Meta

marsbitIl y a 18 mins

La Course aux Crypto-monnaies des Institutions Coréennes : Explosion Parallèle des Stablecoins et des RWA

**Résumé :** La Corée du Sud est à un tournant clé dans son adoption de la cryptographie, passant d'un marché retail dominant à un développement institutionnel structuré. Deux axes principaux émergent : les stablecoins et la tokenisation d'actifs réels (RWA). **Les stablecoins**, notamment un éventuel won numérique, sont devenus un enjeu majeur pour les régulateurs, les banques et les entreprises. La motivation est défensive, visant à contrer la fuite massive des capitaux vers les stablecoins en dollars (estimée à 1150 milliards de dollars) et à ancrer les transactions financières futures dans le système local. Des acteurs majeurs comme KB Financial, Hana Financial, Shinhan Card, BC Card et les géants internet Kakao (via KakaoPay) et NAVER (via NAVER Pay, qui prévoit d'acquérir Dunamu, la maison-mère d'Upbit) mènent des pilotes actifs. La fenêtre de collaboration pour les projets crypto natifs est ouverte pour devenir des partenaires infrastructurels privilégiés avant la finalisation du cadre réglementaire. **La tokenisation RWA** avance rapidement en Corée, avec un focus sur les secteurs locaux forts comme la construction navale, la chaîne d'approvisionnement industrielle (ex : Hanwha) et les IP culturelles (K-pop). Le cadre légal se précise avec des amendements aux lois sur les marchés de capitaux. Des plates-formes comme NXT et KDX ont reçu des approbations préliminaires pour négocier des titres tokenisés. L'opportunité pour les projets crypto réside dans la fourniture d'infrastructures techniques complémentaires : canaux de distribution globaux, solutions de liquidité et d'interopérabilité cross-chaîne, et outils d'optimisation pour les institutions. **Les plateformes grand public (NAVER, Kakao, Toss)** détiennent la clé de l'adoption massive. Elles intègrent activement les services blockchain (portefeuilles, stablecoins) dans leurs écosystèmes de paiement et de communication, créant ainsi des canaux de distribution essentiels pour atteindre les utilisateurs finaux. En somme, l'écosystème coréen se structure à un rythme soutenu. Les projets internationaux qui établiront dès maintenant des partenariats concrets avec les institutions locales sont les mieux placés pour façonner l'avenir du secteur des actifs numériques en Corée du Sud.

Foresight NewsIl y a 23 mins

La Course aux Crypto-monnaies des Institutions Coréennes : Explosion Parallèle des Stablecoins et des RWA

Foresight NewsIl y a 23 mins

Comment détecter les vidéos générées par IA ? Revue d'un système de détection dynamique, traçable et explicable

Ces deux dernières années, les modèles de génération vidéo par IA (comme Sora, Veo, Kling) ont connu une évolution fulgurante, produisant des séquences réalistes et complexes. En parallèle, la détection de ces contenus synthétiques accuse un retard préoccupant, alors que les vidéos truquées prolifèrent sur les réseaux sociaux, semant la confusion et la désinformation. Face à cette urgence, une étude récemment publiée propose une refonte complète de l'objectif de détection. Il ne s'agit plus simplement de classer une vidéo comme "vraie" ou "fausse", mais de procéder à une **vérification de la fidélité factuelle** : vérifier si le contenu (qui, quand, où, quoi) est cohérent avec la réalité, tant au niveau perceptif que cognitif, et s'il respecte les lois physiques et les connaissances du monde. L'étude catégorise les vidéos générées par IA en trois paradigmes : 1. **Manipulation locale (LMV)** : Altération d'une partie d'une vidéo réelle (deepfake). 2. **Édition audio-visuelle (AVE)** : Modification des relations entre le son et l'image (synchronisation labiale, doublage). 3. **Synthèse générative complète (GVS)** : Génération de bout en bout à partir de texte ou d'images (modèles de type "simulateur de monde"). Pour relever ce défi, les auteurs proposent un cadre de détection à **double perspective (visuelle et langagière)** organisé en quatre couches progressives : * **Couche 1 - Indices visuels bas-niveau** : Analyse des artefacts, du bruit, des signaux physiologiques. * **Couche 2 - Cohérence spatio-temporelle** : Vérification de la fluidité des mouvements et de la continuité physique. * **Couche 3 - Cohérence multimodale** : Vérification de l'alignement entre l'image, le son et les sous-titres. * **Couche 4 - Raisonnement guidé par le langage** : Évaluation de la conformité du contenu avec les faits, la logique et les connaissances du monde réel. L'évolution montre un glissement des méthodes de détection des couches basses (visuelles) vers les couches hautes (langagières et raisonnées), à mesure que les vidéos synthétiques deviennent plus parfaites en apparence. Pour être crédible et utile, un système de détection futur doit évoluer vers un processus **dynamique, traçable et explicable**. Il doit fournir des preuves structurées, combiner les perspectives visuelle et langagière, et fonctionner de manière robuste face à la diversité des modèles de génération et aux transformations des plates-formes. Ce défi nécessitera une collaboration interdisciplinaire entre la vision par ordinateur, le traitement du langage et la modélisation du monde.

marsbitIl y a 58 mins

Comment détecter les vidéos générées par IA ? Revue d'un système de détection dynamique, traçable et explicable

marsbitIl y a 58 mins

Personne n'aurait cru que l'audit de sécurité serait la première application concrète de l'IA x Crypto

Les données montrent une baisse significative de la valeur totale verrouillée (TVL) dans la DeFi, tandis que les piratages et les pertes financières augmentent, atteignant environ 942 millions de dollars en 2026. L'émergence d'outils d'IA avancés, comme Claude Mythos, réduit considérablement le coût et l'expertise nécessaires pour identifier les vulnérabilités dans les contrats intelligents, transformant ainsi le paysage de la sécurité. Les attaquants utilisent désormais l'IA pour scanner massivement les contrats, y compris les anciens, rendant les rapports d'audit traditionnels obsolètes en quelques minutes. Des protocoles majeurs comme Drift Protocol et KelpDAO, pourtant audités, ont été compromis via des attaques d'ingénierie sociale ou des failles de configuration, démontrant les limites des audits purement techniques. Face à cette menace, la demande d'audits défensifs augmente, devenant même une condition réglementaire. Les entreprises d'audit doivent évoluer, intégrant l'IA dans leurs processus pour offrir une surveillance continue et une détection en temps réel, plutôt que des rapports ponctuels. Des outils comme Firepan ont déjà prouvé leur efficacité en découvrant des vulnérabilités complexes manquées par les audits humains, comme dans Curve Finance. En conclusion, l'ère de la sécurité garantie par un seul audit est révolue. La sécurité devient une infrastructure nécessitant un investissement constant. Les acteurs qui réussiront à adapter leur modèle commercial et à intégrer pleinement l'IA dans une approche de sécurité proactive survivront à cette transition.

marsbitIl y a 1 h

Personne n'aurait cru que l'audit de sécurité serait la première application concrète de l'IA x Crypto

marsbitIl y a 1 h

Personne n'aurait pensé que la première application pratique de l'IA x Crypto serait l'audit de sécurité

Les données montrent une baisse de 39% de la valeur totale verrouillée (TVL) dans la finance décentralisée (DeFi) depuis début 2026, parallèlement à une recrudescence des piratages ayant causé des pertes d'environ 9,42 milliards de dollars. L'émergence de l'IA, notamment avec des modèles comme Claude Mythos, bouleverse le secteur de l'audit de sécurité. Les attaquants utilisent désormais des outils d'IA pour identifier des vulnérabilités dans les contrats intelligents à moindre coût et à grande échelle, rendant les anciens rapports d'audit obsolètes en quelques minutes. Des protocoles majeurs comme Drift Protocol et KelpDAO, pourtant audités, ont été compromis via des failles logicielles ou des erreurs de configuration. Cette pression force une adaptation. À court terme, les projets demandent des ré-audits défensifs selon de nouveaux standards. Les auditeurs traditionnels, comme en témoigne la fermeture de Code4rena, doivent évoluer. Ils développent des systèmes d'audit assistés par IA (comme Firepan) qui ont déjà découvert des vulnérabilités critiques manquées par des audits humains, par exemple chez Curve Finance et Zcash. L'avenir de l'audit réside dans une transition d'un service ponctuel vers une surveillance continue, une vérification formelle et une intégration dès la phase de développement. La sécurité devient une infrastructure nécessitant un investissement constant, et seules les entreprises d'audit capables de se réinventer face à l'IA survivront.

链捕手Il y a 1 h

Personne n'aurait pensé que la première application pratique de l'IA x Crypto serait l'audit de sécurité

链捕手Il y a 1 h

Trading

Spot

Articles tendance

Comment acheter ONE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Harmony (ONE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Harmony (ONE).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Harmony (ONE)Après avoir acheté vos Harmony (ONE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Harmony (ONE)Tradez facilement Harmony (ONE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

440 vues totalesPublié le 2024.12.12Mis à jour le 2026.06.02

Comment acheter ONE

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de ONE (ONE) sont présentées ci-dessous.

活动图片