NVIDIA Merilis MoE Baru: Tambah Satu Baris 'import', Kecepatan Fine-tuning Meningkat 3.7x

marsbitPublicado a 2026-06-26Actualizado a 2026-06-26

Resumen

Dengan hanya menambahkan satu baris import, NeMo AutoModel NVIDIA mempercepat fine-tuning model MoE hingga 3,7 kali lipat dan mengurangi penggunaan memori GPU sebesar 29%-32%. Solusi ini kompatibel dengan API Hugging Face Transformers v5, sehingga tidak perlu mengubah kode secara signifikan. Teknologi utamanya mencakup Expert Parallelism (EP) untuk mendistribusikan bobot ahli ke beberapa GPU, DeepEP untuk menggabungkan komputasi dan komunikasi, serta TransformerEngine untuk mempercepat operasi inti. Dalam pengujian pada model Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B, throughput pelatihan meningkat 3,4-3,7 kali. Untuk model skala besar seperti Nemotron 3 Ultra 550B, solusi ini tetap dapat dijalankan tanpa kehabisan memori. Kode dan panduan telah tersedia open-source di GitHub NVIDIA.

Satu baris import, fine-tuning model besar MoE 3.7 kali lebih cepat.

Hasil penelitian terbaru NVIDIA kini tersedia sumber terbuka: NeMo AutoModel, dirancang khusus untuk membangun dan melakukan fine-tuning model AI generatif skala besar.

Dengan dasar Hugging Face Transformers v5, NeMo AutoModel mampu melakukan fine-tuning model MoE lebih cepat hanya dengan menambahkan satu baris import, tanpa mengubah kode atau API.

Eksperimen menunjukkan, dibandingkan dengan versi asli Hugging Face Transformers v5, NVIDIA NeMo AutoModel dapat mencapai peningkatan throughput pelatihan sebesar 3.4-3.7 kali dalam fine-tuning MoE, serta mengurangi penggunaan memori GPU sebesar 29%-32%.

Pada node tunggal dengan 8xH100 GPU 80GB, dengan contoh Qwen3-30B-A3B, NeMo AutoModel langsung meningkatkan TPS/GPU (throughput per detik per GPU) dari 3075 menjadi 11340, peningkatan mencapai 3.69 kali.

Analisis Inti Teknologi

MoE telah menjadi arsitektur utama model terkini, namun MoE juga membawa tantangan baru untuk pelatihan yang efisien:

Expert Parallelism, fusi komunikasi, optimisasi kernel... infrastruktur pendukung diperlukan untuk semua rekayasa kompleks ini.

HuggingFace Transformers v5 saat ini adalah "landasan umum" untuk pelatihan MoE yang banyak digunakan. V5 meningkatkan dukungan native untuk MoE, memperkenalkan kemampuan dasar MoE seperti expert backends, dynamic weight loading, dan eksekusi terdistribusi.

Kali ini, pendekatan NVIDIA adalah berdiri di atas pencapaian sebelumnya, kompatibel dengan API HuggingFace Transformers, sehingga memungkinkan pengguna untuk tidak banyak mengubah kode, namun mendapatkan throughput pelatihan yang lebih tinggi dan penggunaan memori yang lebih rendah dalam fine-tuning MoE.

Secara spesifik, NeMo AutoModel menambahkan Expert Parallelism (EP), DeepEP, dan TransformerEngine di atas Transformers v5.

Expert Parallelism (Paralelisme Ahli)

Teknologi Expert Parallelism terutama digunakan untuk mengurangi tekanan memori.

EP mendistribusikan bobot expert ke beberapa GPU, setiap GPU tidak lagi menyimpan seluruh parameter expert, tetapi hanya sebagian dari mereka.

Sebagai contoh, pada 8 GPU dengan ep_size=8, bobot expert didistribusikan ke 8 GPU, penggunaan memori MoE per GPU dapat turun menjadi 1/8 dari aslinya.

Dari hasil eksperimen, untuk Qwen3, teknologi ini dapat menurunkan memori puncak dari 68.2GiB menjadi 48.1GiB, penurunan 29%.

Untuk model Nemotron Nanomo, penggunaan memori turun dari 62.1 GiB menjadi 42.5 GiB, penurunan 32%.

Ruang yang dibebaskan dapat digunakan untuk mendukung ukuran batch yang lebih besar atau urutan yang lebih panjang.

DeepEP

DeepEP mencapai fusi komputasi dan komunikasi.

Dalam metode tradisional, ada biaya komunikasi yang jelas antara distribusi token dan komputasi expert. DeepEP mengintegrasikan operasi distribusi dan penggabungan token ke dalam kernel GPU yang dioptimalkan, mencapai tumpang tindih antara proses komunikasi dan komputasi expert.

TransformerEngine

Kernel TransformerEngine memberikan akselerasi untuk berbagai operasi inti.

Teknologi ini menyediakan implementasi fused untuk mekanisme perhatian, lapisan linier, dan RMSNorm, tidak hanya mempercepat lapisan MoE tetapi juga lapisan Transformer biasa.

Satu Baris 'import', Peningkatan Kecepatan 3 Kali Lipat

Kesimpulannya, bagi pengguna yang sudah menggunakan Transformers v5, NVIDIA NeMo AutoModel menawarkan solusi upgrade tanpa rasa sakit:

Cukup tambahkan satu baris kode import, untuk mendapatkan peningkatan kecepatan fine-tuning MoE 3 kali lipat.

Pada Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B, dibandingkan dengan Transformers v5, solusi ini dapat mencapai peningkatan throughput pelatihan 3.4-3.7 kali, sambil mengurangi konsumsi memori sebesar 29%-32%.

NVIDIA juga menunjukkan hasil fine-tuning parameter penuh untuk Nemotron 3 Ultra 550B A55B pada 16 node H100 dengan 128 GPU.

TPS/GPU adalah 815, TFLOP/s/GPU sekitar 293, memori puncak adalah 58.2GiB.

Alasan tidak ada perbandingan dengan v5 di sini adalah karena Transformers v5 pada skala ini akan langsung membuat memori meluap ̄_(ツ)_/ ̄

Jika tertarik, NVIDIA telah menyediakan kode, konfigurasi, dan skrip benchmark di GitHub: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments

Panduan penggunaan spesifik ada di sini: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility

Artikel ini berasal dari akun WeChat publik "Qubit", penulis: Yu Yang

Criptos en tendencia

Preguntas relacionadas

QApa keuntungan utama menggunakan NeMo AutoModel dari NVIDIA dalam fine-tuning model MoE?

AKeuntungan utamanya adalah peningkatan kecepatan fine-tuning hingga 3.4-3.7 kali lebih cepat dan pengurangan penggunaan memori GPU sebesar 29%-32%, hanya dengan menambahkan satu baris kode `import` tanpa mengubah kode yang ada.

QTeknologi inti apa saja yang ditambahkan oleh NeMo AutoModel di atas Transformers v5 untuk mencapai peningkatan kinerja tersebut?

ANeMo AutoModel menambahkan tiga teknologi inti: Expert Parallelism (EP) untuk mendistribusikan bobot ahli ke beberapa GPU, DeepEP untuk menggabungkan komputasi dan komunikasi, serta TransformerEngine untuk akselerasi kernel pada operasi inti seperti attention mechanism.

QBagaimana Expert Parallelism (EP) dalam NeMo AutoModel membantu menghemat memori GPU?

AExpert Parallelism mendistribusikan bobot para ahli (expert weights) model MoE ke beberapa GPU. Misalnya, dengan 8 GPU, setiap GPU hanya menyimpan 1/8 dari total parameter ahli, sehingga mengurangi beban memori per GPU secara signifikan, seperti yang ditunjukkan dengan penurunan dari 68.2GiB menjadi 48.1GiB untuk model Qwen3.

QModel apa saja yang diuji dalam artikel ini untuk menunjukkan peningkatan kinerja NeMo AutoModel?

AArtikel ini menguji peningkatan kinerja pada model Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B untuk fine-tuning. Selain itu, juga ditunjukkan hasil fine-tuning penuh parameter pada model skala besar Nemotron 3 Ultra 550B A55B menggunakan 128 GPU H100.

QDi mana kita dapat menemukan kode, konfigurasi, dan pedoman penggunaan untuk NeMo AutoModel?

AKode, konfigurasi, dan skrip benchmark untuk NeMo AutoModel tersedia di repositori GitHub NVIDIA: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments. Panduan penggunaan lengkap dapat ditemukan di: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility.

Lecturas Relacionadas

La CFTC estadounidense inicia una amplia investigación contra Polymarket, ¿se enfría la temporada de júbilo del mercado de predicciones?

La CFTC de EE.UU. ha iniciado una investigación exhaustiva sobre la plataforma de mercados de predicción Polymarket, abarcando actividades como sus campañas en redes sociales. La investigación responde a presiones de senadores estadounidenses por presuntas prácticas de marketing engañosas, incluyendo el pago a influencers para promocionar productos de apuestas. Este escrutinio regulatorio llega en un momento de crecimiento explosivo del sector, impulsado por eventos como la Copa del Mundo. Plataformas como Polymarket, Kalshi y la de Robinhood han reportado volúmenes de trading y ingresos récord, atrayendo incluso la atención de gigantes tecnológicos como Meta. La investigación destaca un conflicto más amplio entre las autoridades federales (CFTC) y los reguladores estatales de EE.UU. sobre qué jurisdicción debe supervisar estos mercados: si como derivados financieros (federal) o como apuestas (estatal). Esta batalla legal involucra también a bolsas tradicionales como el CME, que ha demandado a la CFTC. En el fondo, la disputa refleja tensiones entre intereses económicos estatales (como los impuestos del juego tradicional) y la expansión de una nueva industria. Además, se señala la influencia de figuras políticas, como Donald Trump Jr., quien tiene inversiones y roles asesor en varias de estas plataformas. El resultado podría definir el marco regulatorio futuro para los mercados de predicción, marcando el fin de su fase de crecimiento desregulado y el inicio de una era de mayor supervisión.

marsbitHace 1 hora(s)

La CFTC estadounidense inicia una amplia investigación contra Polymarket, ¿se enfría la temporada de júbilo del mercado de predicciones?

marsbitHace 1 hora(s)

La última reflexión del padre de Claude Code: la división del trabajo en equipos se reescribe en la era de la IA, estas 'cinco personas' son las más demandadas

Ante la transformación que la IA está imponiendo en la industria del software, Boris Cherny, responsable del equipo Claude Code de Anthropic, propone una redefinición de los roles en los equipos. En lugar de las etiquetas tradicionales (ingeniero, diseñador, etc.), identifica cinco perfiles basados en comportamientos y fases del ciclo de vida del producto: 1. **El Prototipador:** Genera gran cantidad de ideas disruptivas, sin enfocarse necesariamente en su implementación. 2. **El Constructor:** Transforma prototipos en productos estables y escalables, llevándolos de 0.1 a 1. 3. **El Limpiador:** Simplifica y refactoriza, eliminando redundancias para garantizar rendimiento y mantenibilidad. 4. **El Especialista en Crecimiento:** Optimiza iterativamente un producto ya lanzado para acercarlo al mercado y retener usuarios, combinando habilidades de producto, datos y experimentación. 5. **El Mantenedor:** Asegura la operación a largo plazo, la seguridad, fiabilidad y resiliencia de sistemas maduros. Estos roles no son puestos fijos. Un mismo individuo puede desempeñar varios según el proyecto y su fase (ej.: un nuevo producto necesita Prototipadores, Constructores y Limpiadores). La clave es la flexibilidad: el equipo ideal depende de la etapa del producto, y los profesionales deben adaptarse en lugar de encasillarse. Aunque herramientas como Claude pueden asistir en tareas de construcción y limpieza, la visión humana sigue siendo crucial para dirigir el proceso. Este modelo refleja cómo los equipos eficaces en la era de la IA priorizan las contribuciones funcionales por encima de las etiquetas departamentales rígidas.

marsbitHace 1 hora(s)

La última reflexión del padre de Claude Code: la división del trabajo en equipos se reescribe en la era de la IA, estas 'cinco personas' son las más demandadas

marsbitHace 1 hora(s)

Shenzhen se prepara para otra "campanada" en robótica

La oleada de cotizaciones en Bolsa de los robots de Shenzhen está en marcha. Recientemente, la empresa de robótica Yuejiang Technology, con sede en el distrito de Nanshan, vio aceptada su solicitud de IPO en el ChiNext de la Bolsa de Shenzhen, entrando en fase de consultas. Fundada en 2015 por Liu Peichao y varios compañeros de la Universidad de Shandong, Yuejiang comenzó desarrollando brazos robóticos colaborativos de sobremesa para entornos industriales. Su éxito, que incluye una cotización en la Bolsa de Hong Kong en 2024 y una capitalización que supera los 100 mil millones de HKD, ejemplifica el camino típico de Shenzhen: aprovechar la densa cadena de suministro local y el ecosistema de fabricación para iterar rápidamente desde el prototipo hasta el producto. Este impulso forma parte de un auge más amplio. Compañías de robótica de Shenzhen, conocidas como los "Ocho Diamantes" —incluyendo a UB Tech, Zhi Ping Fang, Zi Bian Liang y otras— están atrayendo una intensa atención e inversión. La escena se concentra en zonas como el "Valle de los Robots" de Nanshan, un corredor industrial de 15 km que alberga desde gigantes cotizados hasta nuevas startups. Espacios como el "X-Day" del Lago Xili en Nanshan facilitan este ecosistema, conectando proyectos emergentes con capital y recursos industriales. La tendencia muestra una evolución: desde robots para automatización industrial y eficiencia hacia aplicaciones más cercanas a la vida diaria y la economía emocional. Shenzhen se consolida así como un centro neurálgico, donde la proximidad entre I+D, fabricación y demanda del cliente acelera la innovación, preparando el terreno para la próxima generación de empresas tecnológicas líderes.

marsbitHace 1 hora(s)

Shenzhen se prepara para otra "campanada" en robótica

marsbitHace 1 hora(s)

Trading

Spot

Artículos destacados

Cómo comprar ONE

¡Bienvenido a HTX.com! Hemos hecho que comprar Harmony (ONE) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Harmony (ONE) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Harmony (ONE)Después de comprar tu Harmony (ONE), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Harmony (ONE)Tradear fácilmente con Harmony (ONE) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

542 Vistas totalesPublicado en 2024.12.12Actualizado en 2026.06.02

Cómo comprar ONE

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de ONE (ONE).

活动图片