La nueva herramienta de código abierto de NVIDIA para MoE: Una sola línea de 'import' acelera el ajuste fino 3.7 veces

marsbitPublicado a 2026-06-26Actualizado a 2026-06-26

Resumen

Con solo una línea de importación, la herramienta NeMo AutoModel de NVIDIA acelera el ajuste fino de modelos MoE hasta 3.7 veces. Este nuevo código abierto, basado en Transformers v5 de Hugging Face, permite una mejora significativa sin necesidad de modificar las API existentes. Las pruebas en una configuración de 8 GPUs H100 muestran un aumento en el rendimiento de entrenamiento de 3.4 a 3.7 veces y una reducción del 29% al 32% en el uso de memoria GPU para modelos como Qwen3-30B-A3B. La clave radica en tres tecnologías: Paralelismo de Expertos (EP) para distribuir pesos y reducir la presión en la memoria, DeepEP para fusionar computación y comunicación, y TransformerEngine para optimizar operaciones clave. Juntas, permiten un ajuste más rápido y eficiente de los grandes modelos de lenguaje con arquitectura Mixture of Experts (MoE). El recurso ya está disponible en GitHub, ofreciendo una actualización sencilla para quienes ya utilizan Transformers v5, con mejoras drásticas en velocidad y consumo de recursos durante la fase de fine-tuning.

Una línea de import, el ajuste fino de modelos grandes MoE se acelera 3.7 veces.

La última investigación de NVIDIA ya es de código abierto: NeMo AutoModel, diseñado específicamente para construir y ajustar modelos de IA generativa a gran escala.

Basándose en Hugging Face Transformers v5, NeMo AutoModel puede lograr un ajuste fino más rápido para modelos MoE sin modificar el código de la API, simplemente añadiendo una línea de import.

Los experimentos muestran que, en comparación con la versión original de Transformers v5 de Hugging Face, el NeMo AutoModel de NVIDIA puede lograr un aumento de 3.4 a 3.7 veces en el rendimiento de entrenamiento durante el ajuste fino de MoE, y reducir el uso de memoria GPU entre un 29% y un 32%.

En un solo nodo con 8 GPUs H100 de 80 GB, tomando como ejemplo el Qwen3-30B-A3B, NeMo AutoModel elevó directamente el TPS/GPU (rendimiento por GPU por segundo) de 3075 a 11340, un aumento de 3.69 veces.

Análisis de la tecnología central

MoE se ha convertido en la arquitectura principal de los modelos de vanguardia actuales, pero MoE también plantea nuevos desafíos para el entrenamiento eficiente:

Paralelismo de expertos, fusión de comunicaciones, optimización de kernels... Estas complejas ingenierías requieren infraestructuras complementarias para su soporte.

Transformers v5 de HuggingFace es actualmente la "base universal" de entrenamiento MoE más utilizada. La versión v5 mejoró el soporte nativo para MoE, introduciendo capacidades básicas como backends de expertos, carga dinámica de pesos, ejecución distribuida, etc.

Esta vez, el enfoque de NVIDIA es apoyarse en los hombros de sus predecesores, manteniendo compatibilidad con la API de HuggingFace Transformers, permitiendo que todos puedan obtener un mayor rendimiento de entrenamiento y un menor uso de memoria durante el ajuste fino de MoE sin realizar grandes cambios en el código.

Concretamente, NeMo AutoModel añade, sobre la base de Transformers v5, Paralelismo de Expertos (EP), DeepEP y TransformerEngine.

Paralelismo de Expertos (Expert Parallelism)

La tecnología de paralelismo de expertos se utiliza principalmente para reducir la presión sobre la memoria.

EP distribuye los pesos de los expertos entre múltiples GPUs, de modo que cada GPU ya no contiene todos los parámetros de los expertos, sino solo una parte de ellos.

Por ejemplo, en 8 GPUs con ep_size=8, los pesos de los expertos se distribuyen entre las 8 GPUs, y el uso de memoria MoE en cada GPU puede reducirse a 1/8 del original.

Según los resultados experimentales, para Qwen3, esta tecnología puede reducir la memoria máxima de 68.2 GiB a 48.1 GiB, una disminución del 29%.

Para el modelo Nemotron Nanomo, el uso de memoria se redujo de 62.1 GiB a 42.5 GiB, una disminución del 32%.

El espacio liberado puede usarse para admitir lotes más grandes o secuencias más largas.

DeepEP

DeepEP logra la fusión de cálculo y comunicación.

En el método tradicional, existe un coste de comunicación evidente entre la distribución de tokens y el cálculo de expertos. DeepEP integra las operaciones de distribución y combinación de tokens en kernels GPU optimizados, logrando la superposición del proceso de comunicación con el cálculo de expertos.

TransformerEngine

El kernel TransformerEngine proporciona aceleración para diversas operaciones centrales.

Esta tecnología proporciona implementaciones fusionadas para mecanismos de atención, capas lineales, RMSNorm, etc., acelerando no solo las capas MoE, sino también las capas Transformer ordinarias.

Una línea de import, mejora de velocidad 3 veces

En resumen, para aquellos que ya usaban Transformers v5, NVIDIA NeMo AutoModel ofrece una solución de actualización sin dolor:

Solo hay que añadir una línea de código de import para obtener una mejora de velocidad de 3 veces en el ajuste fino de MoE.

En Qwen3-30B-A3B y Nemotron 3 Nano 30B-A3B, en comparación con Transformers v5, esta solución puede lograr un aumento de 3.4 a 3.7 veces en el rendimiento de entrenamiento, mientras reduce el consumo de memoria entre un 29% y un 32%.

NVIDIA también mostró resultados de ajuste fino completo de parámetros para Nemotron 3 Ultra 550B A55B en 16 nodos H100 con 128 GPUs.

El TPS/GPU fue de 815, el TFLOP/s/GPU fue de aproximadamente 293, y la memoria máxima fue de 58.2 GiB.

La razón por la que no se comparó con v5 aquí es que Transformers v5 directamente saturaría la memoria a esta escala ̄_(ツ)_/ ̄

Si estás interesado, NVIDIA ya ha subido el código, configuraciones y scripts de pruebas de referencia a GitHub: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments

La guía de uso específica está aquí: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility

Este artículo proviene del WeChat público "Qubit", autor: Yu Yang

Criptos en tendencia

Preguntas relacionadas

Q¿Qué es NeMo AutoModel de NVIDIA y cuál es su principal ventaja?

ANeMo AutoModel es el nuevo proyecto de investigación de NVIDIA, de código abierto, diseñado específicamente para la construcción y el ajuste fino de modelos de IA generativa a gran escala. Su principal ventaja es que, manteniendo compatibilidad con la API de Hugging Face Transformers v5, permite acelerar significativamente el ajuste fino de modelos MoE simplemente añadiendo una línea de importación, sin necesidad de modificar el código existente. En las pruebas, logra una mejora de rendimiento de entre 3.4 y 3.7 veces y reduce el uso de memoria GPU entre un 29% y un 32%.

Q¿Qué resultados de rendimiento se obtuvieron al usar NeMo AutoModel con el modelo Qwen3-30B-A3B?

AEn las pruebas realizadas en un único nodo con 8 GPUs H100 de 80 GB, utilizando el modelo Qwen3-30B-A3B, NeMo AutoModel aumentó la velocidad de procesamiento por GPU (TPS/GPU) de 3075 a 11340. Esto representa una mejora de rendimiento de 3.69 veces, casi cuadruplicando la velocidad de ajuste fino. Además, la memoria máxima utilizada se redujo de 68.2 GiB a 48.1 GiB, una disminución del 29%.

Q¿Qué tres tecnologías clave agrega NeMo AutoModel a Transformers v5 para optimizar el ajuste fino de MoE?

ANeMo AutoModel agrega tres tecnologías clave a la base de Transformers v5: 1) Paralelismo de Expertos (Expert Parallelism, EP): Distribuye los pesos de los expertos entre múltiples GPUs para reducir la presión de memoria. 2) DeepEP: Fusiona el cálculo y la comunicación superponiendo la distribución de tokens y el cálculo de expertos en kernels optimizados. 3) TransformerEngine: Proporciona kernels acelerados y fusionados para operaciones clave como atención, capas lineales y RMSNorm, acelerando tanto las capas MoE como las Transformer normales.

Q¿Cómo funciona la tecnología de Paralelismo de Expertos (EP) para reducir el uso de memoria?

ALa tecnología de Paralelismo de Expertos (EP) reduce el uso de memoria distribuyendo los pesos de los expertos (componentes especializados del modelo MoE) entre múltiples GPUs. En lugar de que cada GPU almacene todos los parámetros de todos los expertos, cada una guarda solo una parte de ellos. Por ejemplo, con 8 GPUs y un tamaño de EP de 8, la memoria ocupada por los pesos MoE en cada GPU se reduce a aproximadamente 1/8 de la original. Esto libera espacio para poder usar lotes de datos más grandes o secuencias más largas durante el entrenamiento.

Q¿Dónde se puede encontrar el código y la documentación de NeMo AutoModel?

ANVIDIA ha publicado el código, las configuraciones y los scripts de referencia de NeMo AutoModel en GitHub. El repositorio específico mencionado en el artículo es: https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments. Además, la guía de uso detallada y la documentación sobre la compatibilidad con Hugging Face están disponibles en: https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility.

Lecturas Relacionadas

Competencia encriptada de instituciones coreanas: doble explosión de stablecoins y RWA

Corea del Sur está atravesando un cambio estructural en cripto, pasando de ser un mercado minorista clave a un ecosistema institucional impulsado por monedas estables y tokenización de activos del mundo real (RWA). Las monedas estables respaldadas por won son ahora una prioridad regulatoria y empresarial, vista como una defensa contra la fuga de capitales hacia dólares digitales como USDC. Grandes bancos como KB, Hana y NH, junto con procesadores de pago (Shinhan Card, BC Card) y gigantes tecnológicos (KakaoPay, NAVER Pay), están realizando pilotos activos de pagos y remesas. Para proyectos cripto nativos, este es el momento clave para establecer asociaciones como proveedores de infraestructura subyacente (blockchain, billeteras, custodia). En RWA, Corea se está centrando en sus sectores industriales clave. Los principales corredores como Mirae Asset y Hanwha Investment están explorando la tokenización de activos como financiación naval, cadena de suministro de defensa y propiedad intelectual del K-pop, con un marco legal clarificador que entrará en vigor en 2027. Las oportunidades para los proyectos cripto radican en proporcionar infraestructura de distribución global, liquidez cross-chain y herramientas de habilitación para estos emisores institucionales. El usuario final está siendo abordado a través de grandes plataformas de consumo como NAVER (en proceso de adquirir el operador de Upbit, Dunamu) y Kakao, que están integrando activamente billeteras y monedas estables en sus super-apps. Con un marco regulatorio que se está definiendo y una infraestructura institucional que ya se está construyendo, los proyectos que establezcan colaboraciones prácticas ahora están posicionados para definir el futuro de los activos digitales en Corea del Sur.

Foresight NewsHace 25 min(s)

Competencia encriptada de instituciones coreanas: doble explosión de stablecoins y RWA

Foresight NewsHace 25 min(s)

Nunca imaginé que la primera aplicación práctica de la IA x Crypto sería la auditoría de seguridad

Según los datos, hasta junio de 2026, el TVL total en DeFi ha caído un 39% desde principios de año, mientras que los incidentes de seguridad se han intensificado, con un total de 121 ataques de hackers y pérdidas acumuladas de aproximadamente 942 millones de dólares. La rápida evolución de las herramientas de IA, especialmente tras el lanzamiento del modelo Claude Mythos por parte de Anthropic, ha reducido drásticamente los costes y la habilidad necesaria para encontrar vulnerabilidades en contratos inteligentes. Los atacantes pueden ahora escanear sistemáticamente miles de contratos, incluso descompilando bytecode, lo que ha acortado el ciclo de descubrimiento y explotación a minutos. Esto ha expuesto las deficiencias del modelo de auditoría tradicional, donde los informes tienen una validez limitada. Incluso protocolos auditados como Drift Protocol o KelpDAO han sido vulnerados mediante ingeniería social o fallos en la configuración operativa, mostrando que las auditorías de código ya no son suficientes. La industria se ve forzada a adaptarse: los proyectos requieren auditorías defensivas recurrentes bajo nuevos estándares, y las firmas de auditoría deben evolucionar de un modelo de informe puntual a servicios continuos de monitorización y verificación en tiempo real. Casos como la auditoría IA de Firepan para Curve Finance, que detectó una vulnerabilidad crítica pasada por alto en seis auditorías manuales, demuestran el potencial defensivo de la IA. En conclusión, la seguridad en DeFi ha dejado de ser un trámite previo al lanzamiento para convertirse en una infraestructura que requiere inversión continua, redefiniendo tanto las prácticas de los proyectos como el modelo de negocio de las auditorías.

marsbitHace 1 hora(s)

Nunca imaginé que la primera aplicación práctica de la IA x Crypto sería la auditoría de seguridad

marsbitHace 1 hora(s)

Nadie se lo esperaba: la primera aplicación real de IA x Crypto es la auditoría de seguridad

Los datos muestran que el valor total bloqueado (TVL) en DeFi cayó de aproximadamente 1150 mil millones de dólares a 700 mil millones en el primer semestre de 2026. Paralelamente, los ataques cibernéticos han causado pérdidas cercanas a los 942 millones de dólares en 121 incidentes, con el segundo trimestre siendo el más activo. La popularización de herramientas de IA de nueva generación ha reducido drásticamente el costo y la habilidad necesarios para encontrar vulnerabilidades en contratos inteligentes, desafiando el modelo tradicional de auditoría de seguridad. Los atacantes ahora utilizan IA para escanear miles de contratos, identificar patrones de vulnerabilidad y ejecutar exploits en minutos, lo que hace que los informes de auditoría tradicionales, con validez de meses, sean obsoletos. Incluso protocolos líderes y ampliamente auditados, como Drift Protocol y KelpDAO, han sufrido ataques que explotan fallas en la lógica de negocio, configuración de infraestructura o ingeniería social. Casos como la explotación de contratos históricos desplegados hace años demuestran que el período de protección de una auditoría puede haberse reducido a cero. En respuesta, las empresas de auditoría están desarrollando sistemas de auditoría asistidos por IA y evolucionando de un modelo de informe puntual a servicios de monitoreo continuo, verificación formal y detección de riesgos en tiempo real. Proyectos como Curve Finance y Zcash han beneficiado de auditorías con IA que descubrieron vulnerabilidades complejas pasadas por alto en revisiones humanas. En conclusión, la era de la "auditoría única para siempre" ha terminado. La seguridad debe ser una inversión continua. El sector de la auditoría está en transición de un modelo de bonanza a uno de competencia, donde los actores que se adapten e integren la IA en sus servicios de manera proactiva tendrán mayor probabilidad de sobrevivir.

链捕手Hace 1 hora(s)

Nadie se lo esperaba: la primera aplicación real de IA x Crypto es la auditoría de seguridad

链捕手Hace 1 hora(s)

Trading

Spot

Artículos destacados

Cómo comprar ONE

¡Bienvenido a HTX.com! Hemos hecho que comprar Harmony (ONE) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Harmony (ONE) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Harmony (ONE)Después de comprar tu Harmony (ONE), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Harmony (ONE)Tradear fácilmente con Harmony (ONE) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

536 Vistas totalesPublicado en 2024.12.12Actualizado en 2026.06.02

Cómo comprar ONE

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de ONE (ONE).

活动图片