NVIDIA Merilis MoE Baru: Tambah Satu Baris 'import', Kecepatan Fine-tuning Meningkat 3.7x

marsbitОпубликовано 2026-06-26Обновлено 2026-06-26

Введение

Dengan hanya menambahkan satu baris import, NeMo AutoModel NVIDIA mempercepat fine-tuning model MoE hingga 3,7 kali lipat dan mengurangi penggunaan memori GPU sebesar 29%-32%. Solusi ini kompatibel dengan API Hugging Face Transformers v5, sehingga tidak perlu mengubah kode secara signifikan. Teknologi utamanya mencakup Expert Parallelism (EP) untuk mendistribusikan bobot ahli ke beberapa GPU, DeepEP untuk menggabungkan komputasi dan komunikasi, serta TransformerEngine untuk mempercepat operasi inti. Dalam pengujian pada model Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B, throughput pelatihan meningkat 3,4-3,7 kali. Untuk model skala besar seperti Nemotron 3 Ultra 550B, solusi ini tetap dapat dijalankan tanpa kehabisan memori. Kode dan panduan telah tersedia open-source di GitHub NVIDIA.

Satu baris import, fine-tuning model besar MoE 3.7 kali lebih cepat.

Hasil penelitian terbaru NVIDIA kini tersedia sumber terbuka: NeMo AutoModel, dirancang khusus untuk membangun dan melakukan fine-tuning model AI generatif skala besar.

Dengan dasar Hugging Face Transformers v5, NeMo AutoModel mampu melakukan fine-tuning model MoE lebih cepat hanya dengan menambahkan satu baris import, tanpa mengubah kode atau API.

Eksperimen menunjukkan, dibandingkan dengan versi asli Hugging Face Transformers v5, NVIDIA NeMo AutoModel dapat mencapai peningkatan throughput pelatihan sebesar 3.4-3.7 kali dalam fine-tuning MoE, serta mengurangi penggunaan memori GPU sebesar 29%-32%.

Pada node tunggal dengan 8xH100 GPU 80GB, dengan contoh Qwen3-30B-A3B, NeMo AutoModel langsung meningkatkan TPS/GPU (throughput per detik per GPU) dari 3075 menjadi 11340, peningkatan mencapai 3.69 kali.

Analisis Inti Teknologi

MoE telah menjadi arsitektur utama model terkini, namun MoE juga membawa tantangan baru untuk pelatihan yang efisien:

Expert Parallelism, fusi komunikasi, optimisasi kernel... infrastruktur pendukung diperlukan untuk semua rekayasa kompleks ini.

HuggingFace Transformers v5 saat ini adalah "landasan umum" untuk pelatihan MoE yang banyak digunakan. V5 meningkatkan dukungan native untuk MoE, memperkenalkan kemampuan dasar MoE seperti expert backends, dynamic weight loading, dan eksekusi terdistribusi.

Kali ini, pendekatan NVIDIA adalah berdiri di atas pencapaian sebelumnya, kompatibel dengan API HuggingFace Transformers, sehingga memungkinkan pengguna untuk tidak banyak mengubah kode, namun mendapatkan throughput pelatihan yang lebih tinggi dan penggunaan memori yang lebih rendah dalam fine-tuning MoE.

Secara spesifik, NeMo AutoModel menambahkan Expert Parallelism (EP), DeepEP, dan TransformerEngine di atas Transformers v5.

Expert Parallelism (Paralelisme Ahli)

Teknologi Expert Parallelism terutama digunakan untuk mengurangi tekanan memori.

EP mendistribusikan bobot expert ke beberapa GPU, setiap GPU tidak lagi menyimpan seluruh parameter expert, tetapi hanya sebagian dari mereka.

Sebagai contoh, pada 8 GPU dengan ep_size=8, bobot expert didistribusikan ke 8 GPU, penggunaan memori MoE per GPU dapat turun menjadi 1/8 dari aslinya.

Dari hasil eksperimen, untuk Qwen3, teknologi ini dapat menurunkan memori puncak dari 68.2GiB menjadi 48.1GiB, penurunan 29%.

Untuk model Nemotron Nanomo, penggunaan memori turun dari 62.1 GiB menjadi 42.5 GiB, penurunan 32%.

Ruang yang dibebaskan dapat digunakan untuk mendukung ukuran batch yang lebih besar atau urutan yang lebih panjang.

DeepEP

DeepEP mencapai fusi komputasi dan komunikasi.

Dalam metode tradisional, ada biaya komunikasi yang jelas antara distribusi token dan komputasi expert. DeepEP mengintegrasikan operasi distribusi dan penggabungan token ke dalam kernel GPU yang dioptimalkan, mencapai tumpang tindih antara proses komunikasi dan komputasi expert.

TransformerEngine

Kernel TransformerEngine memberikan akselerasi untuk berbagai operasi inti.

Teknologi ini menyediakan implementasi fused untuk mekanisme perhatian, lapisan linier, dan RMSNorm, tidak hanya mempercepat lapisan MoE tetapi juga lapisan Transformer biasa.

Satu Baris 'import', Peningkatan Kecepatan 3 Kali Lipat

Kesimpulannya, bagi pengguna yang sudah menggunakan Transformers v5, NVIDIA NeMo AutoModel menawarkan solusi upgrade tanpa rasa sakit:

Cukup tambahkan satu baris kode import, untuk mendapatkan peningkatan kecepatan fine-tuning MoE 3 kali lipat.

Pada Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B, dibandingkan dengan Transformers v5, solusi ini dapat mencapai peningkatan throughput pelatihan 3.4-3.7 kali, sambil mengurangi konsumsi memori sebesar 29%-32%.

NVIDIA juga menunjukkan hasil fine-tuning parameter penuh untuk Nemotron 3 Ultra 550B A55B pada 16 node H100 dengan 128 GPU.

TPS/GPU adalah 815, TFLOP/s/GPU sekitar 293, memori puncak adalah 58.2GiB.

Alasan tidak ada perbandingan dengan v5 di sini adalah karena Transformers v5 pada skala ini akan langsung membuat memori meluap ̄_(ツ)_/ ̄

Jika tertarik, NVIDIA telah menyediakan kode, konfigurasi, dan skrip benchmark di GitHub: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments

Panduan penggunaan spesifik ada di sini: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility

Artikel ini berasal dari akun WeChat publik "Qubit", penulis: Yu Yang

Трендовые криптовалюты

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

ZRX（0X）ZRX

PancakeSwapCAKE

Связанные с этим вопросы

QApa keuntungan utama menggunakan NeMo AutoModel dari NVIDIA dalam fine-tuning model MoE?

AKeuntungan utamanya adalah peningkatan kecepatan fine-tuning hingga 3.4-3.7 kali lebih cepat dan pengurangan penggunaan memori GPU sebesar 29%-32%, hanya dengan menambahkan satu baris kode `import` tanpa mengubah kode yang ada.

QTeknologi inti apa saja yang ditambahkan oleh NeMo AutoModel di atas Transformers v5 untuk mencapai peningkatan kinerja tersebut?

ANeMo AutoModel menambahkan tiga teknologi inti: Expert Parallelism (EP) untuk mendistribusikan bobot ahli ke beberapa GPU, DeepEP untuk menggabungkan komputasi dan komunikasi, serta TransformerEngine untuk akselerasi kernel pada operasi inti seperti attention mechanism.

QBagaimana Expert Parallelism (EP) dalam NeMo AutoModel membantu menghemat memori GPU?

AExpert Parallelism mendistribusikan bobot para ahli (expert weights) model MoE ke beberapa GPU. Misalnya, dengan 8 GPU, setiap GPU hanya menyimpan 1/8 dari total parameter ahli, sehingga mengurangi beban memori per GPU secara signifikan, seperti yang ditunjukkan dengan penurunan dari 68.2GiB menjadi 48.1GiB untuk model Qwen3.

QModel apa saja yang diuji dalam artikel ini untuk menunjukkan peningkatan kinerja NeMo AutoModel?

AArtikel ini menguji peningkatan kinerja pada model Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B untuk fine-tuning. Selain itu, juga ditunjukkan hasil fine-tuning penuh parameter pada model skala besar Nemotron 3 Ultra 550B A55B menggunakan 128 GPU H100.

QDi mana kita dapat menemukan kode, konfigurasi, dan pedoman penggunaan untuk NeMo AutoModel?

AKode, konfigurasi, dan skrip benchmark untuk NeMo AutoModel tersedia di repositori GitHub NVIDIA: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments. Panduan penggunaan lengkap dapat ditemukan di: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility.

Похожее

Премия USDT в Индии превысила 8,5% из-за ужесточения регулирования и сокращения предложения

Премия USDT в Индии превысила 8,5% из-за сокращения внутреннего предложения стейблкоинов на фоне усиления регулирования. Стоимость Tether (USDT) достигла 102,88 индийских рупий при официальном курсе около 94,65 рупий за доллар, что значительно превышает обычный диапазон премии в 3-4%. Этот дисбаланс вызван ужесточением надзора и правоприменительных мер, которые ограничили приток новых USDT в страну, снизив ликвидность на P2P-платформах и внебиржевых площадках. Несмотря на падение предложения, спрос на USDT для трансграничных платежей и в качестве долларового актива остаётся высоким. Данные по P2P-сделкам показывают высокое количество транзакций, но низкие объёмы и значительный дисбаланс между объёмами покупки и продажи, что указывает на ограниченные возможности маркет-мейкеров. Если регуляторная неопределённость сохранится, повышенная премия может закрепиться, подталкивая трейдеров к использованию неформальных каналов. В долгосрочной перспективе восстановление эффективности рынка и снижение премии зависят от появления более чётких правил и улучшения доступа к долларовой ликвидности через легальные каналы.

ambcrypto11 мин. назад

Премия USDT в Индии превысила 8,5% из-за ужесточения регулирования и сокращения предложения

ambcrypto11 мин. назад

CFTC проводит широкое расследование в отношении Polymarket: конец праздника рынков предсказаний?

Американская Комиссия по торговле товарными фьючерсами (CFTC) начала широкомасштабное расследование в отношении платформы прогнозных рынков Polymarket. Поводом послужили обвинения в недобросовестном маркетинге, включая оплату публикаций лидерам мнений (KOL) с ложными данными о прибылях для привлечения американских пользователей. Расследование происходит на фоне взрывного роста рынка прогнозов, подогреваемого Чемпионатом мира по футболу в 2026 году. Объемы торгов достигли рекордных уровней: еженедельный оборот по рынку превысил 144 млрд долларов, а такие платформы, как Kalshi и Polymarket, демонстрируют экспоненциальный рост. Даже крупные технологические компании, такие как Meta, проявляют интерес к этому сектору. Конфликт выходит за рамки одного расследования. CFTC подала иск против штата Кентукки, отстаивая свою исключительную федеральную юрисдикцию над "событийными контрактами", которые она классифицирует как производные финансовые инструменты. Штаты же, включая Нью-Йорк и Кентукки, рассматривают деятельность этих платформ как незаконные азартные игры и пытаются их запретить, защищая свои налоговые поступления от традиционного спортивного беттинга. Противостояние также затрагивает традиционные биржи, такие как CME Group, которые обвиняют CFTC в нарушении закона, одобрив выпуск перпетуальных фьючерсов Kalshi. На фоне этих событий отмечается влияние семьи Трампа. Дональд Трамп-младший является платным советником и инвестором как в Kalshi, так и в Polymarket, а бывший президент Дональд Трамп публично поддерживал развитие этой индустрии при своей администрации. Эксперты полагают, что расследование CFTC знаменует конец "дикого" этапа роста прогнозных рынков. Результатом, вероятно, станет установление более четких федеральных правил в области маркетинга, содержания контрактов и защиты инвесторов, что определит будущее всей отрасли.

marsbit1 ч. назад

CFTC проводит широкое расследование в отношении Polymarket: конец праздника рынков предсказаний?

marsbit1 ч. назад

Комиссия по торговле товарными фьючерсами США (CFTC) инициировала широкомасштабное расследование в отношении Polymarket: конец сезона ажиотажа на рынках прогнозов?

Комиссия по торговле товарными фьючерсами США (CFTC) начала широкое расследование в отношении платформы прогнозных рынков Polymarket. Поводом стали обвинения в мошенническом маркетинге, включая платные публикации инфлюенсеров с ложными данными о доходах. Расследование затрагивает деятельность платформы в социальных сетях и проходит на фоне стремительного роста всего сектора прогнозных рынков благодаря Чемпионату мира. Объемы торгов на таких платформах, как Kalshi и Polymarket, достигли рекордных уровней, привлекли внимание крупных технологических компаний, таких как Meta, и традиционных финансовых игроков, например, Robinhood. Однако этот рост сопровождается усилением регуляторного давления. CFTC подала иск против штата Кентукки, оспаривая его попытки запретить деятельность федерально регулируемых платформ, что обнажило конфликт между федеральным регулированием производных финансовых инструментов и законами штатов о запрете азартных игр. Также стало известно, что сын экс-президента США Дональд Трамп-младший является платным советником и инвестором как в Kalshi, так и в Polymarket, что указывает на тесные связи между сектором, крупным капиталом и политическими кругами. Эксперты полагают, что расследование CFTC знаменует конец "дикого" роста индустрии и начало этапа более зрелого и регулируемого развития.

Odaily星球日报1 ч. назад

Комиссия по торговле товарными фьючерсами США (CFTC) инициировала широкомасштабное расследование в отношении Polymarket: конец сезона ажиотажа на рынках прогнозов?

Odaily星球日报1 ч. назад

Основатель Claude Code дал свежий прогноз: в эпоху ИИ разделение труда в командах переписывается, эти «пять типов» людей наиболее востребованы

Отцом Claude Code заявлено: в эпоху ИИ разделение ролей в команде переосмыслено, эти «пять типов людей» наиболее востребованы. На фоне бума Agent Coding, меняющего индустрию ПО, меняется не только роль «инженера». Более глубокая трансформация происходит на уровне организационной структуры команд. Борис Черни, руководитель команды Claude Code в Anthropic, высказал интересное наблюдение: по мере слияния функций инженерии, продукта, дизайна и data science традиционные «ярлыки должностей» стираются. Вместо них появляются пять новых «несвязанных» ролей, основанных на моделях поведения: 1. **Прототипировщик (The Prototyper):** Генерирует множество новых, часто радикальных идей, не все из которых будут реализованы. 2. **Строитель (The Builder):** Превращает сырые идеи или прототипы в готовый для производства продукт или высокодоступную инфраструктуру (от 0.1 до 1). 3. **Уборщик (The Sweeper):** Фокусируется на «упрощении»: удаляет избыточные функции, рефакторит код и архитектуру для повышения производительности и ремонтопригодности, борясь с побочным эффектом ИИ — раздуванием. 4. **Специалист по росту (The Growth):** Работает с готовым продуктом, проводя быстрые итерации, чтобы приблизить его к рынку, повысить удержание пользователей и превратить продукт из «рабочего» в «необходимый» (комбинация продуктовых, data, пользовательских и экспериментальных навыков). 5. **Специалист по поддержке (The Maintainer):** Обеспечивает долгосрочную эксплуатацию зрелой системы, уделяя первостепенное внимание безопасности, надёжности, эффективности и отказоустойчивости. Эти роли не соответствуют традиционным должностям. В эффективной команде, усиленной ИИ, многие члены не являются «винтиками»: дизайнер может быть и прототипировщиком, и уборщиком; инженер — строителем и специалистом по поддержке. Вопрос смещается с «Какова ваша должность?» на «Какую стадию жизненного цикла продукта вы можете продвигать?». Здоровая комбинация этих ролей зависит от этапа продукта: - Новый продукт, ищущий PMF: нужны роли 1, 2, 3. - Растущий продукт с найденным PMF: нужны роли 2, 3, 4 с добавлением 5. - Зрелый продукт с сильным PMF: нужны роли 3, 4, 5 с сохранением некоторых 2. Как отмечают в обсуждениях, роли человека часто меняются в зависимости от проекта и его фазы. Гибкость и фокус на целях важнее строгих границ. На вопрос, зачем нужны строители и уборщики, если ИИ пишет код, Борис Черни ответил, что Claude уже хорошо помогает в этих задачах и со временем станет ещё лучше, но человеческие роли эволюционируют, а не исчезают.

marsbit1 ч. назад

Основатель Claude Code дал свежий прогноз: в эпоху ИИ разделение труда в командах переписывается, эти «пять типов» людей наиболее востребованы

marsbit1 ч. назад

Шэньчжэньские роботы снова готовятся к IPO

В Шэньчжэне наблюдается волна выходов робототехнических компаний на IPO. Недавно заявка компании Yuejiang Technology на IPO на ChiNext была принята, что ознаменовало важную веху для отрасли. Основанная в 2014 году в районе Наньшань, Yuejiang выросла из небольшой команды, разрабатывавшей настольных коллаборативных роботов, в компанию с рыночной капитализацией свыше 100 млрд юаней, вышедшую на Гонконгскую биржу в 2024 году и теперь стремящуюся на рынок A-shares. Эта динамика является частью общего бума в шэньчжэньской робототехнике, где выделяются "Восемь великих компаний", включая Ubtech и Yuejiang. Район Наньшань, особенно зона "Долина роботов" вдоль улицы Люсянь, стал ключевым кластером, объединяющим компании, исследовательские институты и обеспечивающим быстрый доступ к цепочкам поставок и капиталу. Платформа для демонстрации проектов "X-Day" в районе Силиху играет crucial роль, помогая стартапам привлекать финансирование. С момента запуска через платформу было привлечено более 1,6 млрд юаней инвестиций. Фокус отрасли постепенно смещается от промышленной автоматизации к сервисным и потребительским роботам, включая сферу эмоциональной экономики, что открывает новые возможности для роста в Шэньчжэне.

marsbit2 ч. назад

Шэньчжэньские роботы снова готовятся к IPO

marsbit2 ч. назад

Торговля

Спот

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на ONE (ONE) представлены ниже.

NVIDIA Merilis MoE Baru: Tambah Satu Baris 'import', Kecepatan Fine-tuning Meningkat 3.7x

Введение

Analisis Inti Teknologi

Expert Parallelism (Paralelisme Ahli)

DeepEP

TransformerEngine

Satu Baris 'import', Peningkatan Kecepatan 3 Kali Lipat

Трендовые криптовалюты

Связанные с этим вопросы

Похожее

Премия USDT в Индии превысила 8,5% из-за ужесточения регулирования и сокращения предложения

CFTC проводит широкое расследование в отношении Polymarket: конец праздника рынков предсказаний?

Комиссия по торговле товарными фьючерсами США (CFTC) инициировала широкомасштабное расследование в отношении Polymarket: конец сезона ажиотажа на рынках прогнозов?

Основатель Claude Code дал свежий прогноз: в эпоху ИИ разделение труда в командах переписывается, эти «пять типов» людей наиболее востребованы

Шэньчжэньские роботы снова готовятся к IPO

Торговля

Популярные статьи

Как купить ONE

Обсуждения

Топ вопросы

Популярные категории

Популярные теги