NVIDIA Merilis MoE Baru: Tambah Satu Baris 'import', Kecepatan Fine-tuning Meningkat 3.7x

marsbitXuất bản vào 2026-06-26Cập nhật gần nhất vào 2026-06-26

Tóm tắt

Dengan hanya menambahkan satu baris import, NeMo AutoModel NVIDIA mempercepat fine-tuning model MoE hingga 3,7 kali lipat dan mengurangi penggunaan memori GPU sebesar 29%-32%. Solusi ini kompatibel dengan API Hugging Face Transformers v5, sehingga tidak perlu mengubah kode secara signifikan. Teknologi utamanya mencakup Expert Parallelism (EP) untuk mendistribusikan bobot ahli ke beberapa GPU, DeepEP untuk menggabungkan komputasi dan komunikasi, serta TransformerEngine untuk mempercepat operasi inti. Dalam pengujian pada model Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B, throughput pelatihan meningkat 3,4-3,7 kali. Untuk model skala besar seperti Nemotron 3 Ultra 550B, solusi ini tetap dapat dijalankan tanpa kehabisan memori. Kode dan panduan telah tersedia open-source di GitHub NVIDIA.

Satu baris import, fine-tuning model besar MoE 3.7 kali lebih cepat.

Hasil penelitian terbaru NVIDIA kini tersedia sumber terbuka: NeMo AutoModel, dirancang khusus untuk membangun dan melakukan fine-tuning model AI generatif skala besar.

Dengan dasar Hugging Face Transformers v5, NeMo AutoModel mampu melakukan fine-tuning model MoE lebih cepat hanya dengan menambahkan satu baris import, tanpa mengubah kode atau API.

Eksperimen menunjukkan, dibandingkan dengan versi asli Hugging Face Transformers v5, NVIDIA NeMo AutoModel dapat mencapai peningkatan throughput pelatihan sebesar 3.4-3.7 kali dalam fine-tuning MoE, serta mengurangi penggunaan memori GPU sebesar 29%-32%.

Pada node tunggal dengan 8xH100 GPU 80GB, dengan contoh Qwen3-30B-A3B, NeMo AutoModel langsung meningkatkan TPS/GPU (throughput per detik per GPU) dari 3075 menjadi 11340, peningkatan mencapai 3.69 kali.

Analisis Inti Teknologi

MoE telah menjadi arsitektur utama model terkini, namun MoE juga membawa tantangan baru untuk pelatihan yang efisien:

Expert Parallelism, fusi komunikasi, optimisasi kernel... infrastruktur pendukung diperlukan untuk semua rekayasa kompleks ini.

HuggingFace Transformers v5 saat ini adalah "landasan umum" untuk pelatihan MoE yang banyak digunakan. V5 meningkatkan dukungan native untuk MoE, memperkenalkan kemampuan dasar MoE seperti expert backends, dynamic weight loading, dan eksekusi terdistribusi.

Kali ini, pendekatan NVIDIA adalah berdiri di atas pencapaian sebelumnya, kompatibel dengan API HuggingFace Transformers, sehingga memungkinkan pengguna untuk tidak banyak mengubah kode, namun mendapatkan throughput pelatihan yang lebih tinggi dan penggunaan memori yang lebih rendah dalam fine-tuning MoE.

Secara spesifik, NeMo AutoModel menambahkan Expert Parallelism (EP), DeepEP, dan TransformerEngine di atas Transformers v5.

Expert Parallelism (Paralelisme Ahli)

Teknologi Expert Parallelism terutama digunakan untuk mengurangi tekanan memori.

EP mendistribusikan bobot expert ke beberapa GPU, setiap GPU tidak lagi menyimpan seluruh parameter expert, tetapi hanya sebagian dari mereka.

Sebagai contoh, pada 8 GPU dengan ep_size=8, bobot expert didistribusikan ke 8 GPU, penggunaan memori MoE per GPU dapat turun menjadi 1/8 dari aslinya.

Dari hasil eksperimen, untuk Qwen3, teknologi ini dapat menurunkan memori puncak dari 68.2GiB menjadi 48.1GiB, penurunan 29%.

Untuk model Nemotron Nanomo, penggunaan memori turun dari 62.1 GiB menjadi 42.5 GiB, penurunan 32%.

Ruang yang dibebaskan dapat digunakan untuk mendukung ukuran batch yang lebih besar atau urutan yang lebih panjang.

DeepEP

DeepEP mencapai fusi komputasi dan komunikasi.

Dalam metode tradisional, ada biaya komunikasi yang jelas antara distribusi token dan komputasi expert. DeepEP mengintegrasikan operasi distribusi dan penggabungan token ke dalam kernel GPU yang dioptimalkan, mencapai tumpang tindih antara proses komunikasi dan komputasi expert.

TransformerEngine

Kernel TransformerEngine memberikan akselerasi untuk berbagai operasi inti.

Teknologi ini menyediakan implementasi fused untuk mekanisme perhatian, lapisan linier, dan RMSNorm, tidak hanya mempercepat lapisan MoE tetapi juga lapisan Transformer biasa.

Satu Baris 'import', Peningkatan Kecepatan 3 Kali Lipat

Kesimpulannya, bagi pengguna yang sudah menggunakan Transformers v5, NVIDIA NeMo AutoModel menawarkan solusi upgrade tanpa rasa sakit:

Cukup tambahkan satu baris kode import, untuk mendapatkan peningkatan kecepatan fine-tuning MoE 3 kali lipat.

Pada Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B, dibandingkan dengan Transformers v5, solusi ini dapat mencapai peningkatan throughput pelatihan 3.4-3.7 kali, sambil mengurangi konsumsi memori sebesar 29%-32%.

NVIDIA juga menunjukkan hasil fine-tuning parameter penuh untuk Nemotron 3 Ultra 550B A55B pada 16 node H100 dengan 128 GPU.

TPS/GPU adalah 815, TFLOP/s/GPU sekitar 293, memori puncak adalah 58.2GiB.

Alasan tidak ada perbandingan dengan v5 di sini adalah karena Transformers v5 pada skala ini akan langsung membuat memori meluap ̄_(ツ)_/ ̄

Jika tertarik, NVIDIA telah menyediakan kode, konfigurasi, dan skrip benchmark di GitHub: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments

Panduan penggunaan spesifik ada di sini: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility

Artikel ini berasal dari akun WeChat publik "Qubit", penulis: Yu Yang

Tiền kỹ thuật số thịnh hành

Câu hỏi Liên quan

QApa keuntungan utama menggunakan NeMo AutoModel dari NVIDIA dalam fine-tuning model MoE?

AKeuntungan utamanya adalah peningkatan kecepatan fine-tuning hingga 3.4-3.7 kali lebih cepat dan pengurangan penggunaan memori GPU sebesar 29%-32%, hanya dengan menambahkan satu baris kode `import` tanpa mengubah kode yang ada.

QTeknologi inti apa saja yang ditambahkan oleh NeMo AutoModel di atas Transformers v5 untuk mencapai peningkatan kinerja tersebut?

ANeMo AutoModel menambahkan tiga teknologi inti: Expert Parallelism (EP) untuk mendistribusikan bobot ahli ke beberapa GPU, DeepEP untuk menggabungkan komputasi dan komunikasi, serta TransformerEngine untuk akselerasi kernel pada operasi inti seperti attention mechanism.

QBagaimana Expert Parallelism (EP) dalam NeMo AutoModel membantu menghemat memori GPU?

AExpert Parallelism mendistribusikan bobot para ahli (expert weights) model MoE ke beberapa GPU. Misalnya, dengan 8 GPU, setiap GPU hanya menyimpan 1/8 dari total parameter ahli, sehingga mengurangi beban memori per GPU secara signifikan, seperti yang ditunjukkan dengan penurunan dari 68.2GiB menjadi 48.1GiB untuk model Qwen3.

QModel apa saja yang diuji dalam artikel ini untuk menunjukkan peningkatan kinerja NeMo AutoModel?

AArtikel ini menguji peningkatan kinerja pada model Qwen3-30B-A3B dan Nemotron 3 Nano 30B-A3B untuk fine-tuning. Selain itu, juga ditunjukkan hasil fine-tuning penuh parameter pada model skala besar Nemotron 3 Ultra 550B A55B menggunakan 128 GPU H100.

QDi mana kita dapat menemukan kode, konfigurasi, dan pedoman penggunaan untuk NeMo AutoModel?

AKode, konfigurasi, dan skrip benchmark untuk NeMo AutoModel tersedia di repositori GitHub NVIDIA: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments. Panduan penggunaan lengkap dapat ditemukan di: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility.

Nội dung Liên quan

Phí bảo hiểm USDT của Ấn Độ tăng vọt trên 8,5% khi áp lực quản lý siết chặt nguồn cung

Phí chênh lệch (premium) của USDT tại Ấn Độ đã tăng vọt trên 8.5% do nguồn cung stablecoin trong nước bị thu hẹp. Áp lực gia tăng từ các cơ quan quản lý thông qua hành động thực thi và giám sát chặt chẽ hơn đã hạn chế dòng vốn chảy vào, khiến giá USDT giao dịch lên tới 102.88 Rupee so với tỷ giá chính thức USD/INR là 94.65 Rupee. Sự mất cân đối này phản ánh những thay đổi sâu hơn trong cấu trúc thị trường stablecoin Ấn Độ. Các biện pháp quản lý đã làm chậm đáng kể dòng chảy USDT mới vào, làm giảm thanh khoản trên các thị trường ngang hàng (P2P), sàn giao dịch OTC và sổ lệnh. Trong khi đó, nhu cầu sử dụng USDT cho thanh toán xuyên biên giới, thương mại và lưu trữ giá trị vẫn duy trì mạnh mẽ. Hệ quả là nguồn cung bị siết chặt nhiều hơn so với nhu cầu thực tế. Dữ liệu giao dịch P2P cho thấy khối lượng mua thấp ($1.2 triệu) so với khối lượng bán ($17.8 triệu), cho thấy năng lực tạo lập thị trường bị hạn chế. Sự thiếu hụt thanh khoản có thể tiếp tục nếu các kênh cung cấp tuân thủ quy định còn hạn chế. Bất ổn quy định hiện tại đang làm giảm hiệu quả thị trường và tăng chi phí tiếp cận thanh khoản USD. Tóm lại, trong ngắn hạn, phí chênh lệch cao có thể sẽ duy trì. Về lâu dài, các quy định rõ ràng hơn và cải thiện khả năng tiếp cận thị trường là cần thiết để khôi phục cơ hội chênh lệch giá, tăng thanh khoản và đưa mức premium của USDT tại Ấn Độ trở lại bình thường.

ambcrypto10 phút trước

Phí bảo hiểm USDT của Ấn Độ tăng vọt trên 8,5% khi áp lực quản lý siết chặt nguồn cung

ambcrypto10 phút trước

CFTC Mỹ mở cuộc điều tra rộng với Polymarket, mùa cao điểm của thị trường dự đoán sắp 'tắt lửa'?

Cơ quan Quản lý Thị trường Hàng hóa Tương lai Mỹ (CFTC) đã mở cuộc điều tra toàn diện đối với nền tảng thị trường dự đoán Polymarket, tập trung vào các hoạt động tiếp thị trên mạng xã hội. Động thái này được đưa ra sau khi các thượng nghị sĩ Mỹ cáo buộc Polymarket sử dụng chiến thuật tiếp thị gian dối, bao gồm trả tiền cho KOL để quảng bá sản phẩm. Cuộc điều tra diễn ra trong bối cảnh khối lượng giao dịch thị trường dự đoán tăng vọt nhờ World Cup, với nhiều nền tảng như Kalshi, Polymarket và Robinhood ghi nhận doanh thu kỷ lục. Sự bùng nổ này cũng thu hút sự chú ý của các gã khổng lồ công nghệ như Meta. Tuy nhiên, ngành công nghiệp non trẻ này đang đối mặt với thách thức pháp lý ngày càng lớn. CFTC và các tiểu bang như Kentucky đang tranh chấp quyền giám sát, trong khi các sàn giao dịch truyền thống như CME cũng đã kiện CFTC. Mâu thuẫn này phản ánh sự cạnh tranh giữa quy định liên bang về phái sinh và luật cấm đánh bạc cấp tiểu bang, cũng như lợi ích tài chính từ thuế đánh bạc. Đáng chú ý, gia đình cựu Tổng thống Trump có liên quan sâu sắc đến lĩnh vực này, với Donald Trump Jr. nắm giữ vai trò cố vấn và cổ phần trong cả Kalshi lẫn Polymarket. Điều này cho thấy một mạng lưới lợi ích phức tạp giữa các nhà đầu tư, cơ quan quản lý và chính trị gia. Dù cuộc điều tra với Polymarket có thể báo hiệu sự kết thúc của thời kỳ phát triển thiếu kiểm soát, nhưng nó cũng đánh dấu bước tiến tới một khuôn khổ pháp lý rõ ràng hơn cho tương lai của ngành thị trường dự đoán.

marsbit1 giờ trước

CFTC Mỹ mở cuộc điều tra rộng với Polymarket, mùa cao điểm của thị trường dự đoán sắp 'tắt lửa'?

marsbit1 giờ trước

CFTC Mỹ mở cuộc điều tra rộng rãi với Polymarket, mùa cao điểm của thị trường dự đoán sắp tàn?

Bài viết đưa tin về cuộc điều tra rộng rãi của Ủy ban Giao dịch Hàng hóa Tương lai Hoa Kỳ (CFTC) nhắm vào nền tảng thị trường dự đoán Polymarket, tập trung vào các hoạt động tiếp thị trên mạng xã hội và cáo buộc sử dụng chiêu trò lừa đảo. Sự việc diễn ra trong bối cảnh khối lượng giao dịch của thị trường dự đoán đang bùng nổ nhờ World Cup, với các nền tảng như Kalshi và chính Polymarket báo cáo doanh thu và khối lượng giao dịch kỷ lục. Bài viết phân tích rằng động thái này đánh dấu sự kết thúc của thời kỳ phát triển thiếu kiểm soát và bắt đầu một giai đoạn quản lý chặt chẽ hơn từ các cơ quan chức năng. Đồng thời, nó cũng làm nổi bật cuộc xung đột quyền lực giữa cơ quan quản lý liên bang (CFTC) và chính quyền các tiểu bang (như Kentucky) về quyền tài phán đối với các nền tảng này, liên quan đến lợi ích thuế từ ngành cá cược truyền thống và định nghĩa pháp lý của sản phẩm. Một khía cạnh khác được đề cập là sự tham gia của gia đình cựu Tổng thống Trump, với Donald Trump Jr. đảm nhận vai trò cố vấn và đầu tư vào cả Kalshi lẫn Polymarket, làm sâu sắc thêm mối liên hệ giữa giới chính trị, tư bản và ngành công nghiệp này. Cuộc điều tra của CFTC có thể là bước đi cần thiết để thiết lập khuôn khổ pháp lý rõ ràng, mở đường cho sự phát triển bền vững hơn của thị trường dự đoán trong tương lai.

Odaily星球日报1 giờ trước

CFTC Mỹ mở cuộc điều tra rộng rãi với Polymarket, mùa cao điểm của thị trường dự đoán sắp tàn?

Odaily星球日报1 giờ trước

Người sáng lập Claude Code đưa ra nhận định mới: Phân công nhóm trong thời đại AI được viết lại, "năm kiểu người" này được săn đón nhất

Claude Code người đứng đầu Boris Cherny mới đây chia sẻ quan sát thú vị: cấu trúc phân công đội ngũ đang được viết lại trong thời đại AI. Thay vì các chức danh cố định như kỹ sư, nhà thiết kế..., đội ngũ hiệu quả sẽ gồm 5 vai trò linh hoạt dựa trên hành vi và giai đoạn sản phẩm: 1. **Người tạo mẫu (The Prototyper):** Tập trung vào việc đưa ra lượng lớn ý tưởng mới, không nhất thiết mọi thứ đều phải được triển khai. 2. **Người xây dựng (The Builder):** Chuyển hóa nguyên mẫu thô thành sản phẩm hoặc cơ sở hạ tầng có thể sử dụng thực tế, hoàn thành bước nhảy từ 0.1 đến 1. 3. **Người dọn dẹp (The Sweeper):** Làm công việc "giảm thiểu", đơn giản hóa giao diện người dùng, tái cấu trúc mã nguồn và hệ thống hỗn độn, loại bỏ chức năng dư thừa để đổi lấy hiệu suất cao. 4. **Người tăng trưởng (The Growth):** Tiếp quản sản phẩm đã hoàn thiện, thực hiện lặp lại liên tục để sản phẩm tiến gần hơn đến thị trường và người dùng, giúp sản phẩm từ "có thể dùng" trở thành "được cần". 5. **Người bảo trì (The Maintainer):** Đảm bảo vận hành lâu dài của hệ thống trưởng thành, tập trung vào bảo mật, độ tin cậy, hiệu suất và khả năng phục hồi. Điểm then chốt là các vai trò này không gắn chặt với chức danh truyền thống. Một người có thể đảm nhận nhiều vai trò khác nhau trong các dự án hoặc tại các giai đoạn khác nhau của vòng đời sản phẩm. Thành phần lý tưởng của đội ngũ phụ thuộc vào giai đoạn phát triển sản phẩm: sản phẩm mới cần vai trò 1, 2, 3; sản phẩm đang tăng trưởng cần 2, 3, 4, 5; sản phẩm trưởng thành cần 3, 4, 5. Cherny nhấn mạnh AI như Claude có thể hỗ trợ đắc lực, đặc biệt trong vai trò Người xây dựng và Người dọn dẹp, nhưng sự linh hoạt và thích ứng của con người vẫn là yếu tố không thể thay thế. Tương lai, câu hỏi quan trọng có lẽ không còn là "Bạn làm vị trí gì?" mà là "Bạn có thể thúc đẩy giai đoạn nào trong vòng đời sản phẩm?".

marsbit1 giờ trước

Người sáng lập Claude Code đưa ra nhận định mới: Phân công nhóm trong thời đại AI được viết lại, "năm kiểu người" này được săn đón nhất

marsbit1 giờ trước

Giao dịch

Giao ngay

Bài viết Nổi bật

Làm thế nào để Mua ONE

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Harmony (ONE) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Harmony (ONE) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Harmony (ONE) của BạnSau khi mua Harmony (ONE), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Harmony (ONE)Giao dịch Harmony (ONE) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 577Xuất bản vào 2024.12.12Cập nhật vào 2026.06.02

Làm thế nào để Mua ONE

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của ONE (ONE) được trình bày dưới đây.

活动图片