Новый открытый исходный код NVIDIA MoE: одна строка import, ускорение тонкой настройки в 3,7 раза

marsbitОпубликовано 2026-06-26Обновлено 2026-06-26

Введение

NVIDIA представила открытую библиотеку NeMo AutoModel, которая значительно ускоряет тонкую настройку MoE-моделей. Достаточно добавить одну строку импорта в код на основе Hugging Face Transformers v5, чтобы получить прирост производительности до 3.7 раз и сократить использование видеопамяти GPU на 29-32%. Библиотека совместима с API Transformers и вводит три ключевые оптимизации: Expert Parallelism (EP) для распределения параметров экспертов по GPU и снижения нагрузки на память, DeepEP для совмещения вычислений и коммуникаций, а также Transformer Engine для ускорения базовых операций. На примере модели Qwen3-30B-A3B на 8 GPU H100 скорость обучения выросла с 3075 до 11340 токенов в секунду на GPU. Для очень крупных моделей, таких как Nemotron 3 Ultra 550B, NeMo AutoModel позволяет проводить тонкую настройку там, где стандартный Transformers v5 исчерпывает доступную память. Проект доступен на GitHub, предоставляя простой способ ускорения работы с MoE-архитектурами без серьёзных изменений кода.

Одна строка import, тонкая настройка большой модели MoE ускоряется в 3,7 раза.

Последние исследования NVIDIA теперь с открытым исходным кодом: NeMo AutoModel, специально разработанный для масштабного построения и тонкой настройки генеративных моделей ИИ.

На основе Hugging Face Transformers v5, NeMo AutoModel позволяет, не меняя API кода, лишь добавив одну строку import, реализовать более быструю тонкую настройку моделей MoE.

Эксперименты показывают, что по сравнению с оригинальной версией Transformers v5 от Hugging Face, NVIDIA NeMo AutoModel позволяет достичь повышения пропускной способности обучения в 3,4-3,7 раза при тонкой настройке MoE и сократить использование видеопамяти GPU на 29%-32%.

На одном узле с 8xH100 80GB GPU, на примере Qwen3-30B-A3B, NeMo AutoModel напрямую повышает TPS/GPU (пропускную способность на GPU в секунду) с 3075 до 11340, увеличение в 3.69 раза.

Анализ ключевых технологий

MoE уже стала основной архитектурой для современных передовых моделей, но MoE также создает новые вызовы для эффективного обучения:

Параллелизм экспертов, слияние коммуникаций, оптимизация ядра... Для поддержки этих сложных инженерных задач необходима соответствующая инфраструктура.

Transformers v5 от HuggingFace — это наиболее часто используемая в настоящее время «универсальная основа» для обучения MoE. Версия v5 улучшила нативную поддержку MoE, добавив базовые возможности MoE, такие как expert backends, dynamic weight loading, распределенное выполнение.

На этот раз подход NVIDIA заключается в том, чтобы, опираясь на достижения предшественников, сохранить совместимость с API HuggingFace Transformers, позволяя пользователям без серьезных изменений кода получить более высокую пропускную способность обучения и меньшее использование видеопамяти при тонкой настройке MoE.

Конкретно, NeMo AutoModel на основе Transformers v5 добавляет Параллелизм Экспертов (EP), DeepEP и TransformerEngine.

Параллелизм Экспертов (Expert Parallelism)

Технология параллелизма экспертов в основном используется для снижения нагрузки на память.

EP распределяет веса экспертов на несколько GPU, и каждая видеокарта больше не содержит полные параметры всех экспертов, а только часть из них.

Например, на 8 GPU с ep_size=8, веса экспертов распределены на 8 GPU, занимаемая MoE память на каждом GPU может снизиться до 1/8 от исходной.

Согласно результатам экспериментов, для Qwen3 эта технология может снизить пиковое использование памяти с 68.2 GiB до 48.1 GiB, снижение на 29%.

Для модели Nemotron Nanomo, использование памяти снизилось с 62.1 GiB до 42.5 GiB, снижение на 32%.

Освобожденное пространство можно использовать для поддержки большего размера пакета (batch size) или более длинных последовательностей.

DeepEP

DeepEP реализует слияние вычислений и коммуникаций.

В традиционном подходе между распределением токенов и вычислениями экспертов существуют явные затраты на коммуникацию. DeepEP интегрирует операции распределения и комбинирования токенов в оптимизированное GPU ядро, добиваясь перекрытия процессов коммуникации и вычислений экспертов.

TransformerEngine

Ядро TransformerEngine обеспечивает ускорение для различных ключевых операций.

Эта технология предоставляет реализации слияния механизма внимания, линейных слоев и RMSNorm и т.д., ускоряя не только слои MoE, но и обычные Transformer слои.

Одна строка import, 3-кратное ускорение

Подводя итог, для тех, кто уже использует Transformers v5, NVIDIA NeMo AutoModel предлагает безболезненный вариант обновления:

Достаточно добавить одну строку кода import, чтобы получить 3-кратное ускорение тонкой настройки MoE.

На Qwen3-30B-A3B и Nemotron 3 Nano 30B-A3B, по сравнению с Transformers v5, данное решение позволяет достичь повышения пропускной способности обучения в 3.4-3.7 раза при одновременном снижении потребления памяти на 29%-32%.

NVIDIA также продемонстрировала результаты полной тонкой настройки параметров (full-parameter fine-tuning) для Nemotron 3 Ultra 550B A55B на 16 узлах H100, 128 GPU.

TPS/GPU составляет 815, TFLOP/s/GPU примерно 293, пиковое использование памяти — 58.2 GiB.

Причина отсутствия сравнения с v5 здесь в том, что Transformers v5 при таком масштабе просто исчерпает всю память ̄_(ツ)_/ ̄

Если интересно, NVIDIA уже выложила код, конфигурации и скрипты бенчмарков на GitHub: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments

Конкретное руководство по использованию здесь: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility

Статья из официального аккаунта WeChat «Квантовый бит», автор: Юй Ян

Трендовые криптовалюты

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

ZRX（0X）ZRX

PancakeSwapCAKE

Связанные с этим вопросы

QКакой результат демонстрирует NeMo AutoModel от NVIDIA по сравнению с Hugging Face Transformers v5 при тонкой настройке MoE-моделей?

ANeMo AutoModel демонстрирует увеличение пропускной способности обучения в 3.4-3.7 раза и снижение потребления видеопамяти GPU на 29-32% по сравнению с Hugging Face Transformers v5 при тонкой настройке MoE-моделей.

QКакие ключевые технологии использует NeMo AutoModel для достижения такого ускорения?

ANeMo AutoModel использует три ключевые технологии: Expert Parallelism (EP) для распределения весов экспертов и снижения давления на память, DeepEP для совмещения вычислений и коммуникаций, а также TransformerEngine, предоставляющий оптимизированные ядра для ускорения основных операций, таких как механизм внимания.

QКак пользователи, уже работающие с Transformers v5, могут начать использовать NeMo AutoModel?

AПользователям, уже работающим с Transformers v5, достаточно добавить всего одну строку с импортом NeMo AutoModel в свой код, без необходимости вносить существенные изменения в API или логику. Это позволяет получить значительный прирост производительности с минимальными усилиями.

QЧто такое Expert Parallelism (EP) и какова его польза?

AExpert Parallelism (EP) — это технология, которая распределяет веса экспертов в MoE-модели по нескольким GPU. Вместо того чтобы каждая GPU хранила все параметры экспертов, она хранит только их часть. Это значительно снижает потребление памяти на каждой GPU (например, в 8 раз при использовании 8 GPU), что позволяет увеличить размер пакета или длину последовательности при обучении.

QГде можно найти код и документацию по NeMo AutoModel?

AКод, конфигурации и скрипты для тестирования NeMo AutoModel выложены на GitHub: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments. Подробное руководство по началу работы находится по адресу: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility.

Похожее

Первый специалист по компьютерной безопасности Дон Сун присоединяется к Meta

Профессор компьютерных наук Калифорнийского университета в Беркли Дон Сун (Сун Сяодун), известный исследователь в области кибербезопасности и искусственного интеллекта, объявила о присоединении к лаборатории суперинтеллекта Meta (Superintelligence Labs) на должности вице-президента по исследованиям ИИ. Она будет подчиняться непосредственно руководителю лаборатории Нэту Фридману. Сун Сяодун, выпускница физического факультета Университета Цинхуа, лауреат стипендии МакАртура и член ACM, IEEE и Американской академии искусств и наук, широко известна своими основополагающими работами, включая метод динамического анализа заражения данных (Dynamic Taint Analysis). Её исследования охватывают безопасность программного обеспечения, adversarial machine learning и безопасность ИИ-агентов. Она также является соосновательницей Oasis Labs и Virtue AI. Вместе с Сун Сяодун в Meta переходят сооснователи Virtue AI Бо Ли и Санми Койехо, а также другие члены их команды. Это назначение рассматривается как усиление позиций Meta в области безопасности ИИ, особенно в свете растущего внимания к проблемам защиты после инцидента с моделью Anthropic Mythos. Цель Meta — безопасно внедрять ИИ в свои продукты, используемые миллиардами людей. В статье также упоминается, что Дэнни Чжоу, ключевой специалист в области рассуждений ИИ и бывший руководитель команды Gemini Reasoning в Google, присоединился к Meta несколькими месяцами ранее. Его работа над такими методами, как Chain-of-Thought, сыграла важную роль в развитии способностей крупных языковых моделей к рассуждениям.

marsbit20 мин. назад

Первый специалист по компьютерной безопасности Дон Сун присоединяется к Meta

marsbit20 мин. назад

Корейская гонка за криптовалюту: двойной взрыв стейблкоинов и RWA

Корейские финансовые учреждения и интернет-платформы активно развивают блокчейн-инфраструктуру, сосредоточившись на двух ключевых направлениях: стейблкоинах и токенизации реальных активов (RWA). В сфере стейблкоинов идёт борьба за создание регулируемого рынка воны. Банки, финтех-компании и регуляторы определяют правила, стремясь предотвратить отток капитала в долларовые стейблкоины. Крупные банки, такие как KB Financial, Hana Financial и NH Nonghyup, уже проводят пилотные проекты по платежам и трансграничным переводам. Платежные системы (Shinhan Card, BC Card) и интернет-гиганты (KakaoPay, NAVER Pay) интегрируют стейблкоины в свои экосистемы. Криптопроектам следует устанавливать партнерства сейчас, чтобы стать частью будущей инфраструктуры. Направление RWA в Корее развивается быстро и с учётом местной специфики. Помимо традиционных активов, токенизируются активы ключевых отраслей: судостроение (Mirae Asset Securities), оборонная промышленность (Hanwha Investment) и культурный контент (Story Protocol). Правовая база формируется, и уже одобрены первые торговые платформы (NXT, KDX). Криптопроекты могут заполнить пробелы в глобальном распределении, ликвидности и предоставлении инструментов для токенизации. Ключевую роль в распространении среди пользователей играют потребительские платформы. NAVER (планирующая приобрести оператора Upbit) и Kakao (развивающая единый кошелёк) делают блокчейн основой своих сервисов. Toss, обладающий финансовыми лицензиями, также активно внедряет блокчейн. Корейская индустрия цифровых активов находится на переломном этапе. Принятие нормативной базы и активность институциональных игроков создают возможности для проектов, которые смогут наладить реальное сотрудничество и внедрение на местном рынке.

Foresight News28 мин. назад

Корейская гонка за криптовалюту: двойной взрыв стейблкоинов и RWA

Foresight News28 мин. назад

Как определить, является ли видео сгенерированным ИИ? Обзор динамической, прослеживаемой и объяснимой системы детекции

**Как определить, является ли видео созданным ИИ? Обзор динамической, отслеживаемой и объяснимой системы обнаружения** За последние два года модели генерации видео, такие как Sora, Google Veo и Kling, достигли кинематографического качества, создавая многосекундные сложные сцены. Это создает растущий разрыв с областью обнаружения, которая отстает, в то время как количество и качество поддельных видео в социальных сетях стремительно растет. В обзоре, принятом на ACL 2026, исследователи переосмысливают цель обнаружения: от простой бинарной классификации («поддельное/настоящее») к **верификации фактологической достоверности**. Задача — проверить, соответствует ли содержание видео (кто, что, где, когда) восприятию и знаниям о реальном мире, включая физические законы и здравый смысл. Авторы выделяют три парадигмы AI-видео: 1. **Локальная манипуляция (LMV):** Изменение части реального видео (например, Deepfake). 2. **Аудиовизуальное редактирование (AVE):** Изменение синхронизации между звуком, речью и видео. 3. **Генеративный синтез видео (GVS):** Полная генерация видео «с нуля» (например, Sora), что представляет наибольшую сложность. Для обнаружения предлагается **четырехуровневая система с двойным визуально-языковым подходом**: * **Уровень 1: Низкоуровневые визуальные сигналы** (артефакты, шум, физиологические сигналы). * **Уровень 2: Пространственно-временная согласованность** (плавность движений, физическая непрерывность). * **Уровень 3: Межмодальная согласованность** (проверка соответствия видео, звука и текста). * **Уровень 4: Рассуждение на уровне знаний о мире** (проверка соответствия фактам, законам физики и здравому смыслу). Фокус методов смещается от первых двух уровней (визуальных) к третьему и четвертому (языковым и смысловым). Обзор подчеркивает, что будущие системы обнаружения должны быть **динамическими, объяснимыми и отслеживаемыми**. Они должны не просто классифицировать, а предоставлять доказательства, связывать выводы с конкретными элементами видео (объектами, событиями) и оставаться устойчивыми к новым генеративным моделям. Это требует объединения усилий компьютерного зрения, обработки естественного языка и исследований многомодальных моделей для создания надежной системы проверки достоверности видео в эпоху продвинутого ИИ.

marsbit1 ч. назад

Как определить, является ли видео сгенерированным ИИ? Обзор динамической, прослеживаемой и объяснимой системы детекции

marsbit1 ч. назад

Никто не ожидал, что первой сферой применения AI x Crypto станет аудит безопасности

По неожиданному сценарию, первой областью, где искусственный интеллект (ИИ) реально изменил криптоиндустрию, стала безопасность и аудит. В 2026 году DeFi-сектор столкнулся с растущим давлением: общая стоимость заблокированных средств (TVL) сократилась примерно на 39% с начала года, а хакерские атаки привели к потере около 942 миллионов долларов только за первое полугодие. Распространение продвинутых ИИ-моделей, таких как Claude Mythos, радикально снизило стоимость и требования к навыкам для поиска уязвимостей в смарт-контрактах. Атаки стали масштабными, быстрыми (от обнаружения до эксплуатации — минуты) и нацеленными даже на старые, давно развернутые контракты. Традиционная модель аудита, основанная на разовых отчетах, демонстрирует трещины. Атаки смещаются от чистого кода к эксплуатации логики протоколов, ошибок конфигурации и социальной инженерии (как в случаях с Drift Protocol и KelpDAO). Соучредитель OpenZeppelin заявил, что считает весь DeFi небезопасным из-за сверхчеловеческих способностей ИИ в поиске уязвимостей. В ответ проект и аудиторские компании вынуждены меняться. Возникает спрос на повторные аудиты по новым стандартам. Аудиторские фирмы внедряют собственные ИИ-системы для автоматического анализа и переходят от разовых проверок к непрерывному мониторингу, формальной верификации и встраиванию защиты на этапе разработки (как Skills от OpenZeppelin). Такие ИИ-инструменты, как Firepan, уже находят сложные комбинированные уязвимости, упущенные при многократных ручных аудитах, как в случае с Curve Finance. Эпоха, когда одного аудита было достаточно навсегда, закончилась. Безопасность становится не разовым этапом, а постоянной инфраструктурной затратой. Будущее останется за теми, кто быстрее адаптирует свои услуги к реалиям «гонки вооружений» между ИИ-атаками и ИИ-защитой.

marsbit1 ч. назад

Никто не ожидал, что первой сферой применения AI x Crypto станет аудит безопасности

marsbit1 ч. назад

Никогда бы не подумал, что первым применением AI x Crypto станет аудит безопасности

Данные показывают, что к июню TVL в DeFi упал примерно до $700 млрд, что на 39% меньше показателей начала года. При этом в 2026 году в сфере DeFi произошло 121 хакерское нападение с общим ущербом около $942 млн. С распространением новых инструментов ИИ значительно снизились стоимость и требуемые навыки для поиска уязвимостей в смарт-контрактах. Традиционная модель аудита безопасности сталкивается с серьёзными проблемами. Наступление ИИ-атак происходит быстрее, что сокращает жизненный цикл аудиторских отчётов. Даже прошедшие аудит протоколы, такие как Drift Protocol и KelpDAO, подверглись атакам через уязвимости в логике операций или конфигурации инфраструктуры. В ответ на это проекты начинают пересматривать свою безопасность в соответствии с новыми стандартами эпохи ИИ. Компании, занимающиеся аудитом безопасности, также трансформируются, внедряя системы аудита с поддержкой ИИ и переходя от разовых проверок к постоянному мониторингу и встроенной безопасности. Такие инструменты, как Firepan, уже доказали свою эффективность, находя сложные уязвимости в тщательно проверенных контрактах, например, в Curve Finance. В целом, сфера аудита безопасности переходит от модели, основанной на разовых проверках, к конкурентной модели, требующей постоянных инвестиций. ИИ ускоряет как атаки, так и развитие защитных систем.

链捕手1 ч. назад

Никогда бы не подумал, что первым применением AI x Crypto станет аудит безопасности

链捕手1 ч. назад

Торговля

Спот

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на ONE (ONE) представлены ниже.

Новый открытый исходный код NVIDIA MoE: одна строка import, ускорение тонкой настройки в 3,7 раза

Введение

Анализ ключевых технологий

Параллелизм Экспертов (Expert Parallelism)

DeepEP

TransformerEngine

Одна строка import, 3-кратное ускорение

Трендовые криптовалюты

Связанные с этим вопросы

Похожее

Первый специалист по компьютерной безопасности Дон Сун присоединяется к Meta

Корейская гонка за криптовалюту: двойной взрыв стейблкоинов и RWA

Как определить, является ли видео сгенерированным ИИ? Обзор динамической, прослеживаемой и объяснимой системы детекции

Никто не ожидал, что первой сферой применения AI x Crypto станет аудит безопасности

Никогда бы не подумал, что первым применением AI x Crypto станет аудит безопасности

Торговля

Популярные статьи

Как купить ONE

Обсуждения

Топ вопросы

Популярные категории

Популярные теги