¿Ejecutar MoE en un móvil? Meta propone MobileMoE, acelera hasta 3.8 veces en iPhone 16 Pro

marsbitPublicado a 2026-06-01Actualizado a 2026-06-01

Resumen

El equipo de Meta presenta MobileMoE, el primer modelo de mezcla de expertos (MoE) optimizado para ejecutarse de manera eficiente en teléfonos inteligentes comerciales. Diseñado como un modelo de lenguaje Transformer decoder-only, MobileMoE reemplaza las capas densas de feed-forward por capas MoE, empleando un router que selecciona los pocos expertos más relevantes por token junto con un experto compartido. El modelo se entrena en cuatro fases: preentrenamiento, entrenamiento intermedio, ajuste fino supervisado y entrenamiento consciente de cuantización (hasta INT4/INT8). Los experimentos determinan una configuración óptima de 8 expertos con granularidad 8, enrutamiento top-4 y un experto compartido. En evaluaciones de referencia, MobileMoE-S/M logra una precisión media comparable o superior a modelos densos, utilizando entre 1/2 y 1/4 del cálculo de inferencia con memoria similar. Especialmente en iPhone 16 Pro, MobileMoE-S acelera la fase de entrada hasta 3.8 veces y la generación token por token hasta 3.4 veces respecto a líneas de base. MobileMoE establece un nuevo límite de Pareto para modelos de lenguaje grandes en dispositivos, mejorando el equilibrio entre precisión y coste computacional. Los desafíos futuros incluyen mejorar la capacidad de seguimiento de instrucciones y la gestión de memoria dinámica, así como explorar el despliegue en NPU móviles.

En los últimos años, el Modelo de Expertos Mixtos (MoE) se ha utilizado ampliamente en grandes modelos en la nube. Sin embargo, en el lado del cliente móvil, los Modelos de Lenguaje a Gran Escala (LLM) todavía se basan principalmente en arquitecturas densas. En el pasado, las restricciones de memoria, potencia computacional y latencia en dispositivos móviles eran más estrictas, y la investigación sistemática sobre MoE en el lado del cliente dentro del rango de menos de mil millones de parámetros activos ha sido escasa. Hoy, con el aumento de la capacidad DRAM en dispositivos móviles, los modelos MoE también comienzan a tener la oportunidad de desplegarse en teléfonos inteligentes.

El equipo de Meta propone MobileMoE, que implementa por primera vez una inferencia eficiente de MoE en teléfonos inteligentes comerciales. Los resultados muestran que, en 14 pruebas básicas, MobileMoE-S/M, con un uso de memoria similar, logra una precisión promedio igual o mayor que la línea de base densa utilizando solo entre 1/2 y 1/4 de los cálculos de inferencia. En pruebas prácticas, MobileMoE-S mostró la mayor aceleración en el backend GPU/MLX del iPhone 16 Pro, alcanzando una aceleración máxima de hasta 3.8 veces en la fase de entrada.

Enlace del artículo: https://arxiv.org/abs/2605.27358

El equipo de investigación también propuso un conjunto de leyes de escalado para MoE en el lado del cliente, para determinar estructuras de modelo más adecuadas para el despliegue en móviles. MobileMoE establece un nuevo frente de Pareto para los grandes modelos de lenguaje en el lado del cliente, logrando un mejor equilibrio entre precisión y coste computacional de inferencia.

Figura | MobileMoE establece un nuevo frente de Pareto para LLMs en el lado del cliente.

¿Cómo está diseñado MobileMoE?

MobileMoE puede entenderse así: es una clase de modelo de lenguaje MoE diseñado para el despliegue en el lado del cliente. En general, sigue siendo un Transformer decoder-only, pero reemplaza las capas feed-forward densas originales por capas MoE. Un enrutador selecciona a los pocos expertos con la puntuación más alta para cada token para participar en el cálculo, mientras que también hay un experto compartido que siempre participa. El flujo de entrenamiento completo consta de cuatro pasos: preentrenamiento, entrenamiento intermedio, ajuste fino supervisado y entrenamiento consciente de la cuantización.

Preentrenamiento: El equipo de investigación realizó el preentrenamiento con aproximadamente 6T tokens de datos con licencia abierta, con una longitud de contexto de 2048. Los datos consisten principalmente en contenido web, cubriendo también áreas como matemáticas, código, conocimiento y ciencia.

Entrenamiento Intermedio: El equipo extendió la longitud de contexto a 8192 y aumentó aún más la proporción de datos de alta calidad en conocimiento, código, matemáticas y ciencia, con una escala total de aproximadamente 500B tokens.

Ajuste Fino Supervisado (SFT): El equipo realizó el ajuste fino en más de 80 millones de muestras de datos de instrucción con licencia abierta para MobileMoE-Base.

Entrenamiento Consciente de la Cuantización: El equipo cuantificó las capas lineales y los embeddings a INT4, las activaciones dinámicas a INT8, manteniendo la precisión del enrutador en FP32.

Figura | Las cuatro etapas de entrenamiento de MobileMoE.

Resultados Experimentales

Resultados del estudio de ablación

El equipo comparó primero tres variables de arquitectura: el número de expertos E, la granularidad del experto g, y si se incluye un experto compartido.

Figura | Escalado del número de expertos E.

Con un presupuesto de memoria fijo, cuando la memoria supera aproximadamente 0.25 GB, la pérdida del MoE comienza a ser inferior a la del modelo denso correspondiente. Al continuar aumentando el número de expertos E, la pérdida disminuye aún más, pero cuando E llega a 8, el beneficio marginal se debilita notablemente. Los experimentos sobre la granularidad del experto g muestran que configuraciones de expertos más finas son generalmente mejores, con g=8 logrando un buen equilibrio entre rendimiento y coste de entrenamiento; cuando g aumenta de 8 a 16, la mejora en la pérdida es inferior a 0.01, pero el tiempo de entrenamiento aumenta aproximadamente un 50%. Bajo el mismo presupuesto computacional, la pérdida del modelo disminuye aún más al incluir un experto compartido.

Basándose en los resultados del estudio de ablación, el equipo finalmente adoptó la configuración E=8, g=8, con experto compartido, es decir, 60 expertos de enrutamiento de grano fino, enrutamiento Top-4 y 1 experto compartido, y utilizó esta estructura para las tres versiones MobileMoE-S/M/L.

Figura | Escalado de modelos MoE bajo condiciones computacionalmente óptimas.

Figura | Eficiencia de entrenamiento de la arquitectura MoE.

14 evaluaciones básicas: estableciendo un nuevo frente de Pareto en el lado del cliente

El equipo evaluó MobileMoE junto con modelos como Gemma 3, SmolLM2, Qwen3.5, OLMo 2, OLMoE-1B-7B bajo una configuración unificada en 14 evaluaciones básicas divididas en cinco categorías: razonamiento de sentido común, conocimiento, ciencia, lectura comprensiva y razonamiento.

Figura | Trayectoria de preentrenamiento de MobileMoE.

Los resultados de comparación de los modelos Base muestran que la puntuación promedio de MobileMoE-M es mayor que la de Qwen3.5 2B, y la de MobileMoE-L es mayor que la de OLMoE-1B-7B, requiriendo además un tamaño de modelo más pequeño; el equipo también mencionó que la versión Base de MobileMoE-L ya tiene una puntuación promedio mayor que la versión Instruct de OLMoE-1B-7B. En cuanto a la escala de entrenamiento, MobileMoE utiliza aproximadamente 6T tokens de preentrenamiento, menos que los 9T de Llama 3.2 1B y los 11T de SmolLM2 1.7B. En la comparación general de modelos ajustados por instrucciones, la precisión promedio de MobileMoE-M ya se acerca a la de OLMoE-1B-7B, pero con aproximadamente un 60% menos de parámetros activos y totales.

Figura | Comparación de modelos MobileMoE-Base.

Evaluaciones avanzadas: ventaja más notable en tareas de código y matemáticas

En evaluaciones avanzadas tras el ajuste fino por instrucciones, MobileMoE se desempeña mejor en tareas de código y matemáticas. Tomando MobileMoE-L como ejemplo, sus puntuaciones promedio en las evaluaciones de código y matemáticas son más altas que las de Qwen3.5 2B y OLMoE-1B-7B. Sin embargo, el equipo también señala que Qwen3.5 2B sigue siendo más fuerte en seguimiento de instrucciones y razonamiento basado en conocimiento.

Figura | Comparación de modelos Instruct en evaluaciones de referencia avanzadas.

Cuantización y despliegue en el lado del cliente: mantiene competitividad tras INT4, aceleración notable en móviles

Tras la cuantización, las puntuaciones promedio generales de MobileMoE-S/M/L disminuyen en comparación con sus versiones BF16, pero la caída está aproximadamente entre 2 y 3 puntos. Aún así, el rendimiento de la versión INT4 de MobileMoE-L sigue siendo superior al de la versión BF16 Instruct de OLMoE-1B-7B.

El equipo también desplegó MobileMoE en Samsung Galaxy S25 e iPhone 16 Pro para realizar pruebas. Los resultados muestran que, bajo condiciones de memoria de pesos INT4 comparables, MobileMoE-S, en comparación con MobileLLM-Pro, acelera la fase de entrada entre 1.8 y 3.8 veces y acelera la fase de generación token por token entre 2.2 y 3.4 veces.

En cuanto al uso de memoria, en Samsung Galaxy S25, con un contexto de 8K y prompts reales, el pico de RSS de MobileMoE-S es de 1.49 GB, menor que los 1.91 GB de MobileLLM-Pro.

Figura | Latencia de ejecución en el lado del cliente.

Limitaciones y direcciones futuras

Actualmente, en capacidades de seguimiento de instrucciones de orden superior, así como en razonamiento basado en conocimiento, el MobileMoE ajustado por instrucciones aún está por detrás de Qwen3.5 2B. El equipo de investigación cree que esta brecha puede estar relacionada con un post-entrenamiento más completo del último. En el futuro, para reducir esta brecha, se necesitarán refuerzo en destilación, post-entrenamiento orientado al razonamiento y expansión multimodal en el lado del entrenamiento.

Además, el equipo señala que la huella de memoria de MoE en el móvil varía con el contenido de entrada. En comparación con entradas de plantilla fija, las entradas reales generalmente generan un mayor uso de memoria. Si las pruebas se basan únicamente en entradas de plantilla, podría subestimarse la presión de memoria en escenarios de despliegue real. En el futuro, para evaluar con mayor precisión el rendimiento de memoria real de MoE en el lado del cliente, aún se necesitan más datos de medición real.

Mientras tanto, el equipo ya ha completado pruebas sistemáticas en dispositivos reales para backends CPU y GPU, pero la ruta NPU aún está por explorar. Simultáneamente, el uso de memoria en tiempo de ejecución de MoE es relativamente sensible al contenido de entrada. En el futuro, el enrutamiento dinámico, la poda de expertos, la cuantización de precisión mixta y el despliegue en NPU móviles son direcciones para continuar mejorando la eficiencia en el lado del cliente.

Para más detalles técnicos, consulte el artículo original.

Este artículo proviene del WeChat público "学术头条" (ID:SciTouTiao), autor: 夏千斯.

Preguntas relacionadas

Q¿Qué es MobileMoE y en qué dispositivo se ha implementado de manera eficiente por primera vez, según el artículo?

AMobileMoE es un modelo de lenguaje de tipo Mixto de Expertos (MoE) diseñado específicamente para su despliegue en dispositivos de borde. Según el artículo, es la primera vez que se consigue una inferencia eficiente de MoE en teléfonos inteligentes comerciales, implementado por el equipo de Meta.

Q¿Cuáles son las cuatro etapas principales del proceso de entrenamiento de MobileMoE descritas en el texto?

ALas cuatro etapas principales del entrenamiento de MobileMoE son: 1) Preentrenamiento, 2) Entrenamiento intermedio (ampliando la longitud de contexto y mejorando la calidad de los datos), 3) Ajuste fino supervisado (SFT), y 4) Entrenamiento consciente de la cuantificación.

QSegún los resultados experimentales, ¿qué ventaja de velocidad se observó al desplegar MobileMoE-S en un iPhone 16 Pro, específicamente durante la fase de entrada?

AEn las pruebas realizadas en un iPhone 16 Pro, MobileMoE-S logró una aceleración de hasta 3.8 veces en la fase de entrada (procesamiento del prompt inicial) en comparación con otros modelos de referencia.

Q¿En qué tipos de tareas específicas demostró MobileMoE un rendimiento más destacado durante las evaluaciones avanzadas?

AEn las evaluaciones avanzadas (tras el ajuste fino por instrucciones), MobileMoE demostró un rendimiento más destacado, especialmente en tareas relacionadas con código y matemáticas.

Q¿Cuáles son algunas de las limitaciones actuales y futuras direcciones de investigación para MobileMoE mencionadas en el artículo?

AEntre las limitaciones actuales se menciona que, en capacidades de seguimiento de instrucciones de alto nivel y razonamiento de conocimiento, MobileMoE aún está por detrás de modelos como Qwen3.5 2B. Las futuras direcciones incluyen: fortalecer la destilación y el post-entrenamiento orientado al razonamiento, expandir a multimodalidad, explorar el despliegue en NPU de dispositivos móviles, y trabajar en técnicas para optimizar el uso dinámico de memoria (como el enrutamiento dinámico o la poda de expertos).

Lecturas Relacionadas

Tras tres trimestres consecutivos de caída, ¿puede el mercado cripto encontrar una ventana de estabilización en el tercer trimestre?

El mercado cripto sufrió su peor trimestre desde 2022, con una caída del 12.6% en la capitalización total (ahora en $2.1 billones). El volumen de operaciones y el valor de las stablecoins también disminuyeron, señalando una salida generalizada de capitales. Bitcoin y Ethereum cayeron un 14.2% y 25.4% respectivamente, rompiendo su correlación con los mercados de riesgo tradicionales. Los ETFs de Bitcoin en EE.UU. registraron importantes salidas netas ($4.67 mil millones en Q2), aunque datos sugieren que el ciclo de ventas podría estar cerca de su fin. La atención del mercado se centra ahora en la reunión de la FED a finales de julio, cuya postura (halcón o paloma) podría definir el rango de trading de Bitcoin para el trimestre. El avance de la ley CLARITY en el Senado estadounidense se ha estancado, reduciendo la probabilidad de aprobación en 2026 y manteniendo una prima de riesgo regulatorio alta. Solo dos sectores mostraron crecimiento: los mercados de predicción (volumen +48.7%) y los coleccionables tokenizados (volumen +143% vs. Q1). El sentimiento general es de cautela. La lógica del mercado ha cambiado, priorizando fundamentos como la política monetaria y la regulación frente a los simples impulsos narrativos. Aunque las bases para una caída extrema parecen limitadas, la recuperación sostenida en Q3 depende críticamente de la FED y de un posible progreso regulatorio.

marsbitHace 4 hora(s)

Tras tres trimestres consecutivos de caída, ¿puede el mercado cripto encontrar una ventana de estabilización en el tercer trimestre?

marsbitHace 4 hora(s)

El Acceso a SpaceX, Desbloqueado: SPCXON Ya Está Disponible en WEEX

SpaceX realizó la mayor OPI de la historia en junio de 2026, pero el acceso para los inversores fue limitado. WEEX presenta ahora SPCXON/USDT, un instrumento tokenizado que permite obtener exposición al precio de SpaceX mediante una cuenta de criptomonedas liquidada en USDT, sin necesidad de un bróker estadounidense. Este producto, basado en el marco de acciones tokenizadas de Ondo, replica la economía de poseer SpaceX para traders no estadounidenses, con dividendos reinvertidos. El caso de inversión se basa en el crecimiento de Starlink y los hitos de Starship, aunque el escepticismo persiste debido a la elevada valoración y a factores como un flotante reducido y próximos desbloqueos de acciones para insiders. Es importante recordar que SPCXON ofrece exposición económica, no propiedad directa de acciones, y puede operar con prima o descuento respecto al valor subyacente. WEEX integra este y otros activos TradFi tokenizados, como MicroStrategy y Micron, en una cuenta unificada junto con criptoactivos, facilitando la rotación entre distintas clases de activos. La plataforma, con millones de usuarios, combina mercados spot y futuros con apalancamiento, todo liquidado en USDT, disolviendo las barreras tradicionales entre los mercados financieros y las criptomonedas.

TheNewsCryptoHace 4 hora(s)

El Acceso a SpaceX, Desbloqueado: SPCXON Ya Está Disponible en WEEX

TheNewsCryptoHace 4 hora(s)

BIT Trading Moments: BTC aún presionado por la EMA 200 semanal, tras el rechazo podría reiniciar la caída, los valores de almacenamiento y semiconductores que subieron fuertemente anoche comenzaron a caer en la sesión nocturna

**BIT Trading Moments: BTC aún presionado por la EMA 200 semanal; almacenamiento y semiconductores caen en el after-hours** El mercado de cripto continúa su recuperación, con **Bitcoin** manteniéndose cerca de los $66,000. Enfrenta una fuerte resistencia en la zona de los $68,000, nivel que coincide con el costo promedio de los inversores en los últimos cinco meses y un punto de fallo anterior. Los analistas señalan que se encuentra atrapado entre la media móvil simple (MA) de 200 semanas (~$63,333) y la media exponencial (EMA) de 200 semanas (~$68,328). Se necesitaría un cierre semanal por debajo de $55,000 o por encima de $70,000 para confirmar una dirección de mayor alcance. Los ETF de Bitcoin registran entradas netas por sexto día consecutivo. En Wall Street, los **futuros de los principales índices** caen. Después de fuertes ganancias el martes, las acciones de **semiconductores y almacenamiento** retroceden en el after-hours: el ETF de semiconductores cae un 2.22%, Micron un 2.29% y SK Hynix casi un 5%. Sin embargo, **Super Micro Computer (SMCI)** se dispara más de un 20% tras el cierre, impulsada por sólidos pedidos. Otras noticias positivas incluyen un contrato de $266M de la Fuerza Aérea para **Rocket Lab**. A pesar del repunte bursátil, factores como el **crudo Brent por encima de $91** y el **rendimiento del bono estadounidense a 10 años subiendo a ~4.64%** generan preocupaciones inflacionarias y enfrían el optimismo. Las acciones relacionadas con cripto, como Coinbase y Robinhood, tuvieron un buen desempeño apoyadas por avances regulatorios. En Asia, los mercados siguieron la recuperación tecnológica. El **índice KOSPI de Corea del Sur** subió un 0.74%, con acciones de semiconductores mostrando volatilidad. El principal riesgo es el **yen japonés**, que tocó su nivel más bajo desde 1986, lo que genera temores a una intervención del gobierno. **Próximos eventos clave:** Este miércoles 22 de julio, el enfoque está en los eventos de **AMD AI** y los resultados financieros de **Alphabet (Google), Tesla e IBM** después del cierre. El jueves 23, la **decisión de tasas del BCE** y los resultados de **Intel** serán cruciales para el sentimiento del mercado.

marsbitHace 4 hora(s)

BIT Trading Moments: BTC aún presionado por la EMA 200 semanal, tras el rechazo podría reiniciar la caída, los valores de almacenamiento y semiconductores que subieron fuertemente anoche comenzaron a caer en la sesión nocturna

marsbitHace 4 hora(s)

Ex presidente de la CFTC y presidente de Circle, Tarbert: Predica el 'largo plazo' pero vende acciones por 30 millones de dólares

El expresidente de la CFTC y actual presidente de Circle, Heath Tarbert, ha instado públicamente a los inversores a mantener una perspectiva a largo plazo frente a la caída del 70% en el precio de las acciones de la compañía. Sin embargo, se revela que desde la OPV de Circle, Tarbert ha vendido continuamente acciones por un valor de aproximadamente 30 millones de dólares mediante planes de trading preestablecidos (10b5-1), sin realizar ninguna compra en el mercado abierto. Esta discrepancia entre su discurso público y sus acciones personales ha generado escepticismo sobre su verdadera confianza en el futuro de la empresa. Su carrera, que incluye pasar de la CFTC a Citadel Securities en apenas 27 días y luego a Circle, muestra un patrón de utilizar su experiencia regulatoria para beneficiar a empresas financieras en momentos clave. Mientras aboga por la paciencia de los accionistas minoristas, su historial sugiere una habilidad para capitalizar oportunidades personales a corto plazo, dejando a los inversores comunes asumir los riesgos a largo plazo.

marsbitHace 4 hora(s)

Ex presidente de la CFTC y presidente de Circle, Tarbert: Predica el 'largo plazo' pero vende acciones por 30 millones de dólares

marsbitHace 4 hora(s)

Gate 研究院: La oleada de 'wallstreetización' de los productos financieros cripto, ¿competencia o fusión?

El artículo analiza la creciente convergencia entre las finanzas tradicionales (TradFi) y las criptofinanzas (Crypto), un proceso denominado "wallstreetización". Partiendo de la visión descentralizada original de Bitcoin, explora cómo gigantes financieros como BlackRock están emitiendo ETFs de criptoactivos, asumiendo roles en custodia, precios y distribución. Este fenómeno no es una simple absorción, sino una evolución bidireccional. Plataformas como Gate (que parte de Crypto y añade acciones reales) y Robinhood (que parte de TradFi e integra criptoactivos) ilustran dos caminos hacia un mismo objetivo: la cuenta financiera unificada del futuro, donde acciones, criptomonedas, RWA y bonos tokenizados convivirán. Los activos del mundo real (RWA), especialmente los bonos del Tesoro tokenizados, actúan como capa intermedia de fusión. La conclusión es que, lejos de anular los ideales descentralizados, esta convergencia está creando un mercado de capitales más global, eficiente e integrado.

marsbitHace 4 hora(s)

Gate 研究院: La oleada de 'wallstreetización' de los productos financieros cripto, ¿competencia o fusión?

marsbitHace 4 hora(s)

Trading

Spot

¿Ejecutar MoE en un móvil? Meta propone MobileMoE, acelera hasta 3.8 veces en iPhone 16 Pro

Resumen

¿Cómo está diseñado MobileMoE?

Resultados Experimentales

Resultados del estudio de ablación

14 evaluaciones básicas: estableciendo un nuevo frente de Pareto en el lado del cliente

Evaluaciones avanzadas: ventaja más notable en tareas de código y matemáticas

Cuantización y despliegue en el lado del cliente: mantiene competitividad tras INT4, aceleración notable en móviles

Limitaciones y direcciones futuras

Preguntas relacionadas

Lecturas Relacionadas

Tras tres trimestres consecutivos de caída, ¿puede el mercado cripto encontrar una ventana de estabilización en el tercer trimestre?

El Acceso a SpaceX, Desbloqueado: SPCXON Ya Está Disponible en WEEX

BIT Trading Moments: BTC aún presionado por la EMA 200 semanal, tras el rechazo podría reiniciar la caída, los valores de almacenamiento y semiconductores que subieron fuertemente anoche comenzaron a caer en la sesión nocturna

Ex presidente de la CFTC y presidente de Circle, Tarbert: Predica el 'largo plazo' pero vende acciones por 30 millones de dólares

Gate 研究院: La oleada de 'wallstreetización' de los productos financieros cripto, ¿competencia o fusión?

Trading

Categorías populares

Etiquetas Populares