NVIDIA Merilis MoE Baru: Tambah Satu Baris 'import', Kecepatan Fine-tuning Meningkat 3.7x

marsbitPublié le 2026-06-26Dernière mise à jour le 2026-06-26

Résumé

Dengan hanya menambahkan satu baris import, NeMo AutoModel NVIDIA mempercepat fine-tuning model MoE hingga 3,7 kali lipat dan mengurangi penggunaan memori GPU sebesar 29%-32%. Solusi ini kompatibel dengan API Hugging Face Transformers v5, sehingga tidak perlu mengubah kode secara signifikan. Teknologi utamanya mencakup Expert Parallelism (EP) untuk mendistribusikan bobot ahli ke beberapa GPU, DeepEP untuk menggabungkan komputasi dan komunikasi, serta TransformerEngine untuk mempercepat operasi inti. Dalam pengujian pada model Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B, throughput pelatihan meningkat 3,4-3,7 kali. Untuk model skala besar seperti Nemotron 3 Ultra 550B, solusi ini tetap dapat dijalankan tanpa kehabisan memori. Kode dan panduan telah tersedia open-source di GitHub NVIDIA.

Satu baris import, fine-tuning model besar MoE 3.7 kali lebih cepat.

Hasil penelitian terbaru NVIDIA kini tersedia sumber terbuka: NeMo AutoModel, dirancang khusus untuk membangun dan melakukan fine-tuning model AI generatif skala besar.

Dengan dasar Hugging Face Transformers v5, NeMo AutoModel mampu melakukan fine-tuning model MoE lebih cepat hanya dengan menambahkan satu baris import, tanpa mengubah kode atau API.

Eksperimen menunjukkan, dibandingkan dengan versi asli Hugging Face Transformers v5, NVIDIA NeMo AutoModel dapat mencapai peningkatan throughput pelatihan sebesar 3.4-3.7 kali dalam fine-tuning MoE, serta mengurangi penggunaan memori GPU sebesar 29%-32%.

Pada node tunggal dengan 8xH100 GPU 80GB, dengan contoh Qwen3-30B-A3B, NeMo AutoModel langsung meningkatkan TPS/GPU (throughput per detik per GPU) dari 3075 menjadi 11340, peningkatan mencapai 3.69 kali.

Analisis Inti Teknologi

MoE telah menjadi arsitektur utama model terkini, namun MoE juga membawa tantangan baru untuk pelatihan yang efisien:

Expert Parallelism, fusi komunikasi, optimisasi kernel... infrastruktur pendukung diperlukan untuk semua rekayasa kompleks ini.

HuggingFace Transformers v5 saat ini adalah "landasan umum" untuk pelatihan MoE yang banyak digunakan. V5 meningkatkan dukungan native untuk MoE, memperkenalkan kemampuan dasar MoE seperti expert backends, dynamic weight loading, dan eksekusi terdistribusi.

Kali ini, pendekatan NVIDIA adalah berdiri di atas pencapaian sebelumnya, kompatibel dengan API HuggingFace Transformers, sehingga memungkinkan pengguna untuk tidak banyak mengubah kode, namun mendapatkan throughput pelatihan yang lebih tinggi dan penggunaan memori yang lebih rendah dalam fine-tuning MoE.

Secara spesifik, NeMo AutoModel menambahkan Expert Parallelism (EP), DeepEP, dan TransformerEngine di atas Transformers v5.

Expert Parallelism (Paralelisme Ahli)

Teknologi Expert Parallelism terutama digunakan untuk mengurangi tekanan memori.

EP mendistribusikan bobot expert ke beberapa GPU, setiap GPU tidak lagi menyimpan seluruh parameter expert, tetapi hanya sebagian dari mereka.

Sebagai contoh, pada 8 GPU dengan ep_size=8, bobot expert didistribusikan ke 8 GPU, penggunaan memori MoE per GPU dapat turun menjadi 1/8 dari aslinya.

Dari hasil eksperimen, untuk Qwen3, teknologi ini dapat menurunkan memori puncak dari 68.2GiB menjadi 48.1GiB, penurunan 29%.

Untuk model Nemotron Nanomo, penggunaan memori turun dari 62.1 GiB menjadi 42.5 GiB, penurunan 32%.

Ruang yang dibebaskan dapat digunakan untuk mendukung ukuran batch yang lebih besar atau urutan yang lebih panjang.

DeepEP

DeepEP mencapai fusi komputasi dan komunikasi.

Dalam metode tradisional, ada biaya komunikasi yang jelas antara distribusi token dan komputasi expert. DeepEP mengintegrasikan operasi distribusi dan penggabungan token ke dalam kernel GPU yang dioptimalkan, mencapai tumpang tindih antara proses komunikasi dan komputasi expert.

TransformerEngine

Kernel TransformerEngine memberikan akselerasi untuk berbagai operasi inti.

Teknologi ini menyediakan implementasi fused untuk mekanisme perhatian, lapisan linier, dan RMSNorm, tidak hanya mempercepat lapisan MoE tetapi juga lapisan Transformer biasa.

Satu Baris 'import', Peningkatan Kecepatan 3 Kali Lipat

Kesimpulannya, bagi pengguna yang sudah menggunakan Transformers v5, NVIDIA NeMo AutoModel menawarkan solusi upgrade tanpa rasa sakit:

Cukup tambahkan satu baris kode import, untuk mendapatkan peningkatan kecepatan fine-tuning MoE 3 kali lipat.

Pada Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B, dibandingkan dengan Transformers v5, solusi ini dapat mencapai peningkatan throughput pelatihan 3.4-3.7 kali, sambil mengurangi konsumsi memori sebesar 29%-32%.

NVIDIA juga menunjukkan hasil fine-tuning parameter penuh untuk Nemotron 3 Ultra 550B A55B pada 16 node H100 dengan 128 GPU.

TPS/GPU adalah 815, TFLOP/s/GPU sekitar 293, memori puncak adalah 58.2GiB.

Alasan tidak ada perbandingan dengan v5 di sini adalah karena Transformers v5 pada skala ini akan langsung membuat memori meluap ̄_(ツ)_/ ̄

Jika tertarik, NVIDIA telah menyediakan kode, konfigurasi, dan skrip benchmark di GitHub: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments

Panduan penggunaan spesifik ada di sini: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility

Artikel ini berasal dari akun WeChat publik "Qubit", penulis: Yu Yang

Cryptos en tendance

Questions liées

QApa keuntungan utama menggunakan NeMo AutoModel dari NVIDIA dalam fine-tuning model MoE?

AKeuntungan utamanya adalah peningkatan kecepatan fine-tuning hingga 3.4-3.7 kali lebih cepat dan pengurangan penggunaan memori GPU sebesar 29%-32%, hanya dengan menambahkan satu baris kode `import` tanpa mengubah kode yang ada.

QTeknologi inti apa saja yang ditambahkan oleh NeMo AutoModel di atas Transformers v5 untuk mencapai peningkatan kinerja tersebut?

ANeMo AutoModel menambahkan tiga teknologi inti: Expert Parallelism (EP) untuk mendistribusikan bobot ahli ke beberapa GPU, DeepEP untuk menggabungkan komputasi dan komunikasi, serta TransformerEngine untuk akselerasi kernel pada operasi inti seperti attention mechanism.

QBagaimana Expert Parallelism (EP) dalam NeMo AutoModel membantu menghemat memori GPU?

AExpert Parallelism mendistribusikan bobot para ahli (expert weights) model MoE ke beberapa GPU. Misalnya, dengan 8 GPU, setiap GPU hanya menyimpan 1/8 dari total parameter ahli, sehingga mengurangi beban memori per GPU secara signifikan, seperti yang ditunjukkan dengan penurunan dari 68.2GiB menjadi 48.1GiB untuk model Qwen3.

QModel apa saja yang diuji dalam artikel ini untuk menunjukkan peningkatan kinerja NeMo AutoModel?

AArtikel ini menguji peningkatan kinerja pada model Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B untuk fine-tuning. Selain itu, juga ditunjukkan hasil fine-tuning penuh parameter pada model skala besar Nemotron 3 Ultra 550B A55B menggunakan 128 GPU H100.

QDi mana kita dapat menemukan kode, konfigurasi, dan pedoman penggunaan untuk NeMo AutoModel?

AKode, konfigurasi, dan skrip benchmark untuk NeMo AutoModel tersedia di repositori GitHub NVIDIA: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments. Panduan penggunaan lengkap dapat ditemukan di: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility.

Lectures associées

L'écart de prix du USDT en Inde dépasse 8,5 % alors que la pression réglementaire resserre l'offre

La prime de l'USDT en Inde a dépassé 8,5%, en raison d'une contraction de l'offre de stablecoins sur le marché local. Cette situation découle des pressions réglementaires qui découragent les entrées de capitaux via des actions coercitives et une surveillance accrue. En conséquence, le cours de l'USDT s'établit à ₹102,88 contre un taux officiel USD/INR de ₹94,65, élargissant considérablement l'écart par rapport à la fourchette habituelle de 3–4%. La pression réglementaire a ralenti les nouveaux afflux d'USDT, réduisant la liquidité sur les marchés de pair-à-pair, les bureaux de change de gré à gré et les bourses. Bien que le nombre de transactions et d'adresses de portefeuille actives reste solide, indiquant une demande soutenue pour les paiements transfrontaliers et la thésaurisation, l'offre est fortement contrainte. Les données de transactions P2P montrent un volume d'achat faible (1,2 million de dollars) par rapport au volume de vente (17,8 millions de dollars), révélant une capacité de tenue de marché limitée. Si l'incertitude réglementaire persiste, cette pénurie de liquidités pourrait maintenir des primes élevées et pousser les acteurs vers des canaux informels. À l'inverse, une clarification réglementaire et un meilleur accès au marché pourraient rétablir les opportunités d'arbitrage, augmenter la liquidité en dollars et réduire progressivement la prime sur l'USDT en Inde.

ambcryptoIl y a 9 mins

L'écart de prix du USDT en Inde dépasse 8,5 % alors que la pression réglementaire resserre l'offre

ambcryptoIl y a 9 mins

La CFTC américaine lance une enquête approfondie sur Polymarket : la saison des marchés prédictifs sur le point de s'éteindre ?

La Commodity Futures Trading Commission (CFTC) américaine a ouvert une enquête approfondie sur la plateforme de marchés prédictifs Polymarket, portant notamment sur ses activités de marketing sur les réseaux sociaux. Cette enquête fait suite à des accusations de sénateurs concernant des pratiques promotionnelles trompeuses, notamment via des influenceurs rémunérés. L'enquête intervient dans un contexte de croissance explosive du secteur des marchés prédictifs, stimulée par des événements comme la Coupe du Monde. Des plateformes comme Polymarket, Kalshi et celle de Robinhood voient leurs volumes de transaction et revenus annuels atteindre des records. Cette popularité attire également l'attention des géants de la tech comme Meta. La situation révèle un conflit croissant entre les régulateurs fédéraux, comme la CFTC qui revendique une juridiction exclusive sur ces "contrats d'événement", et les autorités étatiques qui y voient des paris sportifs illégaux menaçant leurs revenus fiscaux. Le litige porte sur la définition légale de ces marchés : produits dérivés ou jeux d'argent. Par ailleurs, des tensions existent aussi entre la CFTC et des bourses établies comme le CME, qui conteste des décisions réglementaires. En toile de fond, des intérêts politiques et financiers complexes émergent, avec l'implication d'investisseurs comme Donald Trump Jr. dans les principales plateformes. L'enquête sur Polymarket marque ainsi un tournant potentiel vers une régulation plus stricte, mettant fin à une période de croissance "sauvage" pour l'industrie, tout en dessinant les contours d'un futur cadre concurrentiel et légal plus structuré.

marsbitIl y a 1 h

La CFTC américaine lance une enquête approfondie sur Polymarket : la saison des marchés prédictifs sur le point de s'éteindre ?

marsbitIl y a 1 h

La CFTC américaine ouvre une enquête approfondie sur Polymarket, la saison de fête des marchés de prédiction est-elle sur le point de s'éteindre ?

La Commodity Futures Trading Commission (CFTC) américaine a ouvert une enquête approfondie sur la plateforme de marchés de prédiction Polymarket, suite à des accusations de marketing trompeur impliquant des influenceurs rémunérés. Cette action régulatoire intervient alors que le secteur connaît une croissance explosive, portée par la Coupe du Monde, avec des volumes d'échange hebdomadaires dépassant 144 milliards de dollars. L'enquête de la CFTC pourrait marquer la fin d'une période de croissance non régulée pour ces marchés. Elle s'accompagne d'un conflit de juridiction entre les régulateurs fédéraux, comme la CFTC qui revendique une compétence exclusive, et plusieurs États américains (dont le Kentucky) qui poursuivent Polymarket et sa concurrente Kalshi pour opérations de paris sportifs illégaux. Ce conflit oppose les intérêts fiscaux des États et la définition réglementaire de ces nouveaux produits. Parallèlement, l'industrie attire les géants de la tech, avec Meta envisageant des partenariats, et les investisseurs, comme Donald Trump Jr. qui a pris des participations stratégiques à la fois dans Kalshi et Polymarket. Malgré les défis réglementaires, les perspectives du secteur restent solides, Kalshi envisageant une introduction en bourse d'ici 2027-2028. L'enquête sur Polymarket apparaît ainsi comme une étape de normalisation pour un marché en passe de maturité.

Odaily星球日报Il y a 1 h

La CFTC américaine ouvre une enquête approfondie sur Polymarket, la saison de fête des marchés de prédiction est-elle sur le point de s'éteindre ?

Odaily星球日报Il y a 1 h

Les robots de Shenzhen vont bientôt sonner à la cloche

L'effervescence des robots à Shenzhen se concrétise par une vague d'introductions en bourse. La société de robotique Doogiang, basée à Nanshan, a vu sa demande d'introduction au ChiNext acceptée, après son IPO réussie à Hong Kong en 2024. Fondée en 2015 par Liu Peichao et son équipe dans un petit appartement, l'entreprise illustre le parcours typique de Shenzhen : partir d'une idée, prototyper rapidement grâce à un écosystème manufacturier dense, et se développer en s'appuyant sur une chaîne d'approvisionnement locale efficace. Doogiang s'est d'abord imposée dans les environnements industriels avant d'étendre ses robots collaboratifs aux espaces commerciaux. Cette dynamique s'inscrit dans un paysage robotique florissant à Shenzhen, surnommée "première ville des robots humanoïdes". Le "Nanshan Robot Valley", une ceinture industrielle de 28 km², regroupe des leaders comme Ubtech (valeur de près de 50 milliards de HKD) et des startups prometteuses telles que Zhipingfang et Ziliang. Des événements comme le "X-Day" au lac Xili servent de plateforme cruciale pour connecter les projets émergents aux capitaux et aux ressources industrielles, ayant déjà facilité des investissements et financements substantiels. La scène robotique de Shenzhen évolue ainsi des applications industrielles vers des domaines plus tournés vers l'expérience et le quotidien, solidifiant sa position de pôle d'innovation mondial.

marsbitIl y a 1 h

Les robots de Shenzhen vont bientôt sonner à la cloche

marsbitIl y a 1 h

Trading

Spot

Articles tendance

Comment acheter ONE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Harmony (ONE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Harmony (ONE).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Harmony (ONE)Après avoir acheté vos Harmony (ONE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Harmony (ONE)Tradez facilement Harmony (ONE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

444 vues totalesPublié le 2024.12.12Mis à jour le 2026.06.02

Comment acheter ONE

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de ONE (ONE) sont présentées ci-dessous.

活动图片