NVIDIA Merilis MoE Baru: Tambah Satu Baris 'import', Kecepatan Fine-tuning Meningkat 3.7x

marsbitDipublikasikan tanggal 2026-06-26Terakhir diperbarui pada 2026-06-26

Abstrak

Dengan hanya menambahkan satu baris import, NeMo AutoModel NVIDIA mempercepat fine-tuning model MoE hingga 3,7 kali lipat dan mengurangi penggunaan memori GPU sebesar 29%-32%. Solusi ini kompatibel dengan API Hugging Face Transformers v5, sehingga tidak perlu mengubah kode secara signifikan. Teknologi utamanya mencakup Expert Parallelism (EP) untuk mendistribusikan bobot ahli ke beberapa GPU, DeepEP untuk menggabungkan komputasi dan komunikasi, serta TransformerEngine untuk mempercepat operasi inti. Dalam pengujian pada model Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B, throughput pelatihan meningkat 3,4-3,7 kali. Untuk model skala besar seperti Nemotron 3 Ultra 550B, solusi ini tetap dapat dijalankan tanpa kehabisan memori. Kode dan panduan telah tersedia open-source di GitHub NVIDIA.

Satu baris import, fine-tuning model besar MoE 3.7 kali lebih cepat.

Hasil penelitian terbaru NVIDIA kini tersedia sumber terbuka: NeMo AutoModel, dirancang khusus untuk membangun dan melakukan fine-tuning model AI generatif skala besar.

Dengan dasar Hugging Face Transformers v5, NeMo AutoModel mampu melakukan fine-tuning model MoE lebih cepat hanya dengan menambahkan satu baris import, tanpa mengubah kode atau API.

Eksperimen menunjukkan, dibandingkan dengan versi asli Hugging Face Transformers v5, NVIDIA NeMo AutoModel dapat mencapai peningkatan throughput pelatihan sebesar 3.4-3.7 kali dalam fine-tuning MoE, serta mengurangi penggunaan memori GPU sebesar 29%-32%.

Pada node tunggal dengan 8xH100 GPU 80GB, dengan contoh Qwen3-30B-A3B, NeMo AutoModel langsung meningkatkan TPS/GPU (throughput per detik per GPU) dari 3075 menjadi 11340, peningkatan mencapai 3.69 kali.

Analisis Inti Teknologi

MoE telah menjadi arsitektur utama model terkini, namun MoE juga membawa tantangan baru untuk pelatihan yang efisien:

Expert Parallelism, fusi komunikasi, optimisasi kernel... infrastruktur pendukung diperlukan untuk semua rekayasa kompleks ini.

HuggingFace Transformers v5 saat ini adalah "landasan umum" untuk pelatihan MoE yang banyak digunakan. V5 meningkatkan dukungan native untuk MoE, memperkenalkan kemampuan dasar MoE seperti expert backends, dynamic weight loading, dan eksekusi terdistribusi.

Kali ini, pendekatan NVIDIA adalah berdiri di atas pencapaian sebelumnya, kompatibel dengan API HuggingFace Transformers, sehingga memungkinkan pengguna untuk tidak banyak mengubah kode, namun mendapatkan throughput pelatihan yang lebih tinggi dan penggunaan memori yang lebih rendah dalam fine-tuning MoE.

Secara spesifik, NeMo AutoModel menambahkan Expert Parallelism (EP), DeepEP, dan TransformerEngine di atas Transformers v5.

Expert Parallelism (Paralelisme Ahli)

Teknologi Expert Parallelism terutama digunakan untuk mengurangi tekanan memori.

EP mendistribusikan bobot expert ke beberapa GPU, setiap GPU tidak lagi menyimpan seluruh parameter expert, tetapi hanya sebagian dari mereka.

Sebagai contoh, pada 8 GPU dengan ep_size=8, bobot expert didistribusikan ke 8 GPU, penggunaan memori MoE per GPU dapat turun menjadi 1/8 dari aslinya.

Dari hasil eksperimen, untuk Qwen3, teknologi ini dapat menurunkan memori puncak dari 68.2GiB menjadi 48.1GiB, penurunan 29%.

Untuk model Nemotron Nanomo, penggunaan memori turun dari 62.1 GiB menjadi 42.5 GiB, penurunan 32%.

Ruang yang dibebaskan dapat digunakan untuk mendukung ukuran batch yang lebih besar atau urutan yang lebih panjang.

DeepEP

DeepEP mencapai fusi komputasi dan komunikasi.

Dalam metode tradisional, ada biaya komunikasi yang jelas antara distribusi token dan komputasi expert. DeepEP mengintegrasikan operasi distribusi dan penggabungan token ke dalam kernel GPU yang dioptimalkan, mencapai tumpang tindih antara proses komunikasi dan komputasi expert.

TransformerEngine

Kernel TransformerEngine memberikan akselerasi untuk berbagai operasi inti.

Teknologi ini menyediakan implementasi fused untuk mekanisme perhatian, lapisan linier, dan RMSNorm, tidak hanya mempercepat lapisan MoE tetapi juga lapisan Transformer biasa.

Satu Baris 'import', Peningkatan Kecepatan 3 Kali Lipat

Kesimpulannya, bagi pengguna yang sudah menggunakan Transformers v5, NVIDIA NeMo AutoModel menawarkan solusi upgrade tanpa rasa sakit:

Cukup tambahkan satu baris kode import, untuk mendapatkan peningkatan kecepatan fine-tuning MoE 3 kali lipat.

Pada Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B, dibandingkan dengan Transformers v5, solusi ini dapat mencapai peningkatan throughput pelatihan 3.4-3.7 kali, sambil mengurangi konsumsi memori sebesar 29%-32%.

NVIDIA juga menunjukkan hasil fine-tuning parameter penuh untuk Nemotron 3 Ultra 550B A55B pada 16 node H100 dengan 128 GPU.

TPS/GPU adalah 815, TFLOP/s/GPU sekitar 293, memori puncak adalah 58.2GiB.

Alasan tidak ada perbandingan dengan v5 di sini adalah karena Transformers v5 pada skala ini akan langsung membuat memori meluap ̄_(ツ)_/ ̄

Jika tertarik, NVIDIA telah menyediakan kode, konfigurasi, dan skrip benchmark di GitHub: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments

Panduan penggunaan spesifik ada di sini: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility

Artikel ini berasal dari akun WeChat publik "Qubit", penulis: Yu Yang

Kripto yang Sedang Tren

Pertanyaan Terkait

QApa keuntungan utama menggunakan NeMo AutoModel dari NVIDIA dalam fine-tuning model MoE?

AKeuntungan utamanya adalah peningkatan kecepatan fine-tuning hingga 3.4-3.7 kali lebih cepat dan pengurangan penggunaan memori GPU sebesar 29%-32%, hanya dengan menambahkan satu baris kode `import` tanpa mengubah kode yang ada.

QTeknologi inti apa saja yang ditambahkan oleh NeMo AutoModel di atas Transformers v5 untuk mencapai peningkatan kinerja tersebut?

ANeMo AutoModel menambahkan tiga teknologi inti: Expert Parallelism (EP) untuk mendistribusikan bobot ahli ke beberapa GPU, DeepEP untuk menggabungkan komputasi dan komunikasi, serta TransformerEngine untuk akselerasi kernel pada operasi inti seperti attention mechanism.

QBagaimana Expert Parallelism (EP) dalam NeMo AutoModel membantu menghemat memori GPU?

AExpert Parallelism mendistribusikan bobot para ahli (expert weights) model MoE ke beberapa GPU. Misalnya, dengan 8 GPU, setiap GPU hanya menyimpan 1/8 dari total parameter ahli, sehingga mengurangi beban memori per GPU secara signifikan, seperti yang ditunjukkan dengan penurunan dari 68.2GiB menjadi 48.1GiB untuk model Qwen3.

QModel apa saja yang diuji dalam artikel ini untuk menunjukkan peningkatan kinerja NeMo AutoModel?

AArtikel ini menguji peningkatan kinerja pada model Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B untuk fine-tuning. Selain itu, juga ditunjukkan hasil fine-tuning penuh parameter pada model skala besar Nemotron 3 Ultra 550B A55B menggunakan 128 GPU H100.

QDi mana kita dapat menemukan kode, konfigurasi, dan pedoman penggunaan untuk NeMo AutoModel?

AKode, konfigurasi, dan skrip benchmark untuk NeMo AutoModel tersedia di repositori GitHub NVIDIA: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments. Panduan penggunaan lengkap dapat ditemukan di: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility.

Bacaan Terkait

Ratu Keamanan Komputer Dawn Song (宋晓冬) Bergabung dengan Meta

Profesor Dawn Song (Song Xiaodong) dari UC Berkeley, yang dijuluki sebagai "tokoh keamanan komputer nomor satu", bergabung dengan laboratorium Superintelligence Meta sebagai Wakil Presiden Penelitian AI. Dia akan melapor langsung kepada kepala lab, Nat Friedman. Song adalah peneliti berpengaruh di bidang keamanan komputer dan keamanan AI, penerima MacArthur Fellowship, serta anggota ACM, IEEE, dan AAAS. Karyanya yang terkenal termasuk "Dynamic Taint Analysis" (2005). Laboratoriumnya di UC Berkeley dianggap sebagai pusat pelatihan terkemuka di bidang keamanan komputer. Penelitian Song mencakup keamanan perangkat lunak, pembelajaran mesin adversarial, dan keamanan agen AI. Dia juga pendiri Oasis Labs dan Virtue AI, perusahaan yang fokus pada infrastruktur keamanan AI untuk perusahaan, terutama pengujian penetrasi (red-teaming) otomatis dan pengaman runtime untuk agen AI. Bersama Song, pendiri Virtue AI lainnya, Bo Li dan Sanmi Koyejo, serta beberapa anggota tim, juga bergabung dengan Meta. Langkah ini dilihat sebagai upaya Meta untuk memperkuat langkah-langkah keamanan dalam pengembangan agen AI, terutama setelah masalah keamanan model AI seperti Anthropic's mythos menarik perhatian industri. Meta ingin menerapkan AI ke dalam produk-produk sosialnya yang digunakan miliaran orang dan terus mengedepankan strategi sumber terbuka, sehingga membutuhkan kemampuan keamanan yang tangguh. Artikel ini juga menyebutkan bahwa Denny Zhou, pendiri Gemini Reasoning Team di Google, dilaporkan telah bergabung dengan Meta TBDLab beberapa bulan sebelumnya. Zhou adalah tokoh kunci di bidang penalaran AI, berkontribusi pada metode seperti Chain-of-Thought dan Self-Consistency, yang membantu mengembangkan kemampuan penalaran model bahasa besar.

marsbit19m yang lalu

Ratu Keamanan Komputer Dawn Song (宋晓冬) Bergabung dengan Meta

marsbit19m yang lalu

Kompetisi Kripto Lembaga Korea: Ledakan Stabilkoin dan RWA

Artikel ini membahas evolusi pasar kripto Korea Selatan, yang kini beralih dari fokus pada perdagangan ritel ke pembangunan infrastruktur blockchain institusional. Dua tren utama yang mendorong perubahan ini adalah stablecoin dan tokenisasi aset riil (RWA). Stablecoin won Korea yang diatur kini menjadi prioritas bagi regulator, bank, dan perusahaan untuk mencegah aliran keluar modal ke stablecoin dolar AS. Berbagai lembaga seperti KB Financial, Hana Financial, NH Nonghyup Bank, dan KBank sedang melakukan uji coba untuk pembayaran dan transfer lintas batas. Penyedia pembayaran seperti Shinhan Card, BC Card, dan Danal juga mengembangkan solusi. Platform internet seperti KakaoPay dan NAVER Pay, dengan basis pengguna yang luas, berencana mengintegrasikan stablecoin ke dalam ekosistem mereka. Bagi proyek kripto, sekarang adalah waktu yang tepat untuk menjalin kemitraan dengan lembaga-lembaga ini. Di sisi RWA, Korea Selatan memusatkan perhatian pada tokenisasi aset di sektor unggulannya seperti perkapalan, rantai pasok industri, dan kekayaan intelektual hiburan (K-pop). Perusahaan sekuritas seperti Mirae Asset dan Hanwha Investment sedang memimpin inisiatif ini. Kerangka regulasi yang jelas diharapkan berlaku pada awal 2027. Peluang bagi proyek kripto terletak pada penyediaan infrastruktur seperti saluran distribusi global, solusi likuiditas dan interoperabilitas lintas rantai, serta alat pendukung untuk lembaga. Akses ke pengguna akhir akan sangat bergantung pada platform konsumen utama seperti NAVER (yang berencana mengakuisisi operator Upbit, Dunamu), Kakao (mengembangkan dompet terpadu), dan Toss (dompet finansial semua dalam satu). Industri kripto Korea Selatan sedang mendekati titik kritis, di mana proyek-proyek yang dapat membangun kemitraan dan kasus penggunaan nyata dengan lembaga lokal akan membantu membentuk masa depan aset digital di negara tersebut.

Foresight News25m yang lalu

Kompetisi Kripto Lembaga Korea: Ledakan Stabilkoin dan RWA

Foresight News25m yang lalu

Bagaimana Menilai Keaslian Video AI? Merangkum Sistem Deteksi yang Dinamis, Dapat Dilacak, dan Dapat Diinterpretasikan

Bagaimana Menentukan Keaslian Video AI? Tinjauan Sistem Deteksi Dinamis, Dapat Dilacak, dan Dapat Dijelaskan Generasi video AI telah berkembang pesat, mencapai kualitas sinematis. Namun, deteksi video palsu tertinggal, menimbulkan risiko sosial. Makalah tinjauan ini menetapkan kembali tujuan deteksi menjadi **"verifikasi kesetiaan fakta"**, memeriksa apakah konten video selaras dengan dunia nyata. Video AI dikategorikan menjadi tiga paradigma: **Manipulasi Lokal (LMV)**, **Edit Audio-Visual (AVE)**, dan **Sintesis Video Generatif (GVS)**. Untuk mendeteksinya, tinjauan mengusulkan kerangka kerja **empat lapis dari perspektif ganda Visi-Bahasa**: 1. **Analisis Isyarat Visual Intrinsik**: Memeriksa anomali statistik tingkat rendah seperti pola noise dan sinyal fisiologis. 2. **Konsistensi Spasial-Temporal**: Menganalisis kelancaran gerakan objek dan dinamika adegan sepanjang waktu. 3. **Konsistensi Antarmoda**: Memverifikasi keselarasan antara elemen visual, audio, dan teks dalam video. 4. **Penalaran Tingkat Dunia Dipandu Bahasa**: Mengevaluasi konsistensi konten video dengan pengetahuan dunia nyata, fakta, dan hukum fisika menggunakan penalaran semantik. Fokus metode deteksi bergeser dari lapisan 1 & 2 (visi) ke lapisan 3 & 4 (bahasa) seiring membaiknya kualitas video AI. Evaluasi juga perlu berkembang melampaui metrik akurasi dasar, menuju sistem penilaian **dinamis yang mengutamakan bukti**, serta sistem deteksi yang **dapat dipercaya dan dijelaskan** dengan menggabungkan bukti visual dan penalaran semantik. Deteksi yang andal memerlukan kolaborasi antar bidang seperti Visi Komputer, NLP, dan pemahaman multimodal.

marsbit1j yang lalu

Bagaimana Menilai Keaslian Video AI? Merangkum Sistem Deteksi yang Dinamis, Dapat Dilacak, dan Dapat Diinterpretasikan

marsbit1j yang lalu

Tak Terduga, Audit Keamanan adalah Aplikasi Pertama yang Terwujud dari AI x Crypto

Data menunjukkan, hingga Juni 2026, TVL DeFi turun sekitar 39% dari awal tahun. Di sisi lain, serangan keamanan di sektor DeFi telah menyebabkan kerugian sekitar $942 juta dalam 121 insiden sepanjang tahun. Munculnya alat AI canggih, seperti model Claude Mythos dari Anthropic, telah mengubah lanskap keamanan dengan drastis. Biaya dan keahlian yang dibutuhkan untuk menemukan kerentanan dalam kontrak pintar kini turun hampir ke nol, memungkinkan penyerang memindai ribuan kontrak secara sistematis dan mengeksploitasi celah dengan sangat cepat, bahkan pada protokol yang sudah diaudit. Insiden pada protokol seperti Drift Protocol dan KelpDAO membuktikan bahwa laporan audit tradisional yang hanya fokus pada kode tidak lagi memadai. Penyerang kini menargetkan logika bisnis, konfigurasi infrastruktur, dan kelemahan operasional. Celah pada kontrak lama yang telah berjalan bertahun-tahun juga kembali dieksploitasi berkat bantuan AI. Pernyataan pesimistis dari pendiri OpenZeppelin bahwa "semua DeFi tidak aman" mencerminkan tantangan struktural ini: pihak bertahan harus menutup semua celah, sementara penyerang hanya butuh satu pintu masuk. Menanggapi hal ini, proyek-proyek kini terdorong untuk melakukan audit ulang berdasarkan standar keamanan baru di era AI, meskipun lebih bersifat pertahanan. Perusahaan audit seperti CertiK dan OpenZeppelin beradaptasi dengan mengembangkan sistem audit berbantuan AI, beralih dari model laporan satu kali ke layanan pemantauan berkelanjutan dan verifikasi formal. Contohnya, alat audit AI Firepan berhasil menemukan kerentanan kritis yang terlewat oleh enam auditor manusia pada kontrak Curve Finance. AI juga membuktikan kemampuannya dalam audit proyek privasi seperti Zcash. Kesimpulannya, fusi AI dan Crypto paling dahsyat dampaknya di audit keamanan. Era keamanan sebagai pemeriksaan satu kali sebelum peluncuran telah berakhir. Keamanan kini harus menjadi infrastruktur berkelanjutan bagi proyek, sementara perusahaan audit harus berevolusi dari penyedia jasa pasif menjadi mitra defensif proaktif yang terintegrasi penuh. Masa depan akan dimenangkan oleh pihak yang paling cepat beradaptasi dan memanfaatkan AI untuk pertahanan.

链捕手1j yang lalu

Tak Terduga, Audit Keamanan adalah Aplikasi Pertama yang Terwujud dari AI x Crypto

链捕手1j yang lalu

Trading

Spot

Artikel Populer

Cara Membeli ONE

Selamat datang di HTX.com! Kami telah membuat pembelian Harmony (ONE) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli Harmony (ONE) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan Harmony (ONE) AndaSetelah melakukan pembelian, simpan Harmony (ONE) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading Harmony (ONE)Lakukan trading Harmony (ONE) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

559 Total TayanganDipublikasikan pada 2024.12.12Diperbarui pada 2026.06.02

Cara Membeli ONE

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga ONE (ONE) disajikan di bawah ini.

活动图片