Faire tourner un MoE sur smartphone ? Meta propose MobileMoE, avec une accélération de 3,8x sur iPhone 16 Pro

marsbitPublié le 2026-06-01Dernière mise à jour le 2026-06-01

Résumé

Récemment, Meta a proposé MobileMoE, une nouvelle architecture de modèle MoE (Mixture of Experts) optimisée pour fonctionner efficacement sur les smartphones. Cette approche remplace les couches denses traditionnelles des grands modèles de langage (LLM) par des couches MoE, permettant de réduire considérablement la quantité de calculs nécessaires à l'inférence tout en conservant des performances élevées. Les résultats montrent que MobileMoE atteint des scores similaires, voire supérieurs, aux modèles denses de référence sur 14 tests fondamentaux, tout en utilisant seulement 1/2 à 1/4 des opérations de calcul. Après quantification en INT4, le modèle conserve sa compétitivité. Lors de déploiements sur des appareils commerciaux comme l'iPhone 16 Pro, MobileMoE accélère l'inférence jusqu'à 3,8 fois lors de la phase d'entrée et jusqu'à 3,4 fois lors de la génération de tokens, tout en réduisant l'empreinte mémoire. L'étude établit de nouvelles frontières de Pareto pour les LLM sur appareils mobiles, offrant un meilleur compromis entre précision et coût de calcul. Les performances sont particulièrement notables sur les tâches de code et de mathématiques. Les auteurs soulignent que des progrès futurs pourraient passer par l'amélioration de l'alignement via des techniques comme le fine-tuning, le distillation et l'extension multimodale.

Ces dernières années, les modèles Mixtes d'Experts (MoE) ont été largement utilisés dans les grands modèles déployés dans le cloud. Mais sur les appareils mobiles, les modèles de langage de grande taille (LLM) restent principalement basés sur des architectures denses. Par le passé, les contraintes plus strictes des téléphones en matière de mémoire, de puissance de calcul et de latence ont fait que les MoE côté client dans la plage des paramètres actifs inférieure à un milliard n'ont pas fait l'objet d'études systématiques. Aujourd'hui, avec l'augmentation de la capacité DRAM des appareils mobiles, les MoE commencent aussi à avoir une chance d'être déployés sur les smartphones.

Le MobileMoE proposé par l'équipe de Meta a pour la première fois réalisé une inférence MoE efficace sur un smartphone commercial. Les résultats montrent que sur 14 tests de base, avec une mémoire similaire, MobileMoE-S/M, en utilisant seulement de 1/2 à 1/4 de la charge de calcul d'inférence par rapport à la ligne de base dense, a obtenu une précision moyenne équivalente voire supérieure. En test réel, MobileMoE-S a montré l'accélération la plus marquée sur le backend GPU/MLX de l'iPhone 16 Pro, avec une accélération allant jusqu'à 3,8 fois lors de la phase d'entrée.

Lien vers l'article : https://arxiv.org/abs/2605.27358

L'équipe de recherche a également proposé un ensemble de lois de mise à l'échelle pour les MoE côté client, utilisées pour déterminer des architectures de modèles plus adaptées au déploiement sur téléphone. MobileMoE établit également une nouvelle frontière de Pareto pour les grands modèles de langage côté client, obtenant de meilleurs résultats dans le compromis entre précision et coût de calcul d'inférence.

Figure | MobileMoE établit une nouvelle frontière de Pareto pour les LLM côté client.

Comment MobileMoE est-il conçu ?

MobileMoE peut être compris ainsi : c'est une classe de modèles de langage MoE conçue pour le déploiement côté client. Globalement, il reste un Transformer de type décoder-only, mais remplace les couches feed-forward denses originales par des couches MoE. Le routeur sélectionne pour chaque token un petit nombre d'experts ayant les scores les plus élevés pour participer au calcul, et il y a également un expert partagé qui participe toujours. L'ensemble du processus d'entraînement se déroule en quatre étapes : pré-entraînement, entraînement intermédiaire, réglage fin supervisé et entraînement sensible à la quantification.

Pré-entraînement : L'équipe de recherche a effectué le pré-entraînement sur environ 6T de tokens de données sous licence ouverte, avec une longueur de contexte de 2048, les données étant principalement issues du Web, tout en couvrant les domaines des mathématiques, du code, des connaissances et des sciences.

Entraînement intermédiaire : L'équipe de recherche a étendu la longueur du contexte à 8192 et a encore augmenté la proportion de données de haute qualité telles que les connaissances, le code, les mathématiques et les sciences, pour une taille totale d'environ 500B tokens.

Réglage fin supervisé (SFT) : L'équipe de recherche a effectué un réglage fin sur MobileMoE-Base, sur plus de 80 millions d'échantillons de données de réglage fin d'instructions sous licence ouverte.

Entraînement sensible à la quantification : L'équipe de recherche a quantifié les couches linéaires et les embeddings en INT4, les activations dynamiques en INT8, tout en conservant le routeur en précision FP32.

Figure | Les quatre étapes de l'entraînement de MobileMoE.

Résultats expérimentaux

Résultats d'ablation

L'équipe de recherche a d'abord comparé trois variables architecturales : le nombre d'experts E, la granularité des experts g, et l'ajout ou non d'un expert partagé.

Figure | Mise à l'échelle du nombre d'experts E.

Sous un budget mémoire fixe, lorsque la mémoire dépasse environ 0,25 Go, la perte du MoE commence à devenir inférieure à celle du modèle dense correspondant. Continuer à augmenter le nombre d'experts E réduit encore la perte, mais lorsque E atteint 8, le gain marginal s'affaiblit nettement. Les expériences sur la granularité des experts g montrent quant à elles qu'une configuration d'experts plus fine est globalement meilleure, avec g=8 offrant un bon équilibre entre performance et coût d'entraînement ; lorsque g passe de 8 à 16, l'amélioration de la perte est inférieure à 0,01, mais la durée d'entraînement augmente d'environ 50%. À budget de calcul égal, l'ajout d'un expert partagé réduit encore la perte du modèle.

Basé sur les résultats d'ablation, l'équipe de recherche a finalement adopté la configuration E=8, g=8, avec expert partagé, soit 60 experts de routage à granularité fine, un routage Top-4 et 1 expert partagé, et a utilisé cette architecture pour les trois versions MobileMoE-S/M/L.

Figure | Mise à l'échelle des modèles MoE dans des conditions optimales de calcul.

Figure | Efficacité de l'entraînement de l'architecture MoE.

Évaluation sur 14 tests de base : Établir une nouvelle frontière de Pareto côté client

L'équipe de recherche a comparé MobileMoE avec Gemma 3, SmolLM2, Qwen3.5, OLMo 2, OLMoE-1B-7B et d'autres modèles, en les réévaluant dans un cadre unifié sur cinq catégories totalisant 14 tests de base : raisonnement de bon sens, connaissances, sciences, lecture et raisonnement.

Figure | Trajectoire de pré-entraînement de MobileMoE.

Les résultats de comparaison des modèles Base montrent que MobileMoE-M a un score moyen supérieur à Qwen3.5 2B, et MobileMoE-L a un score moyen supérieur à OLMoE-1B-7B, tout en nécessitant une taille de modèle plus petite ; l'équipe de recherche mentionne également que la version Base de MobileMoE-L a déjà un score moyen supérieur à la version Instruct de OLMoE-1B-7B. En termes de volume d'entraînement, MobileMoE utilise environ 6T de tokens de pré-entraînement, soit moins que les 9T de Llama 3.2 1B et les 11T de SmolLM2 1.7B. Dans la comparaison globale des modèles après réglage fin d'instructions, la précision moyenne de MobileMoE-M est déjà proche de celle de OLMoE-1B-7B, mais avec environ 60% de paramètres actifs et totaux en moins.

Figure | Comparaison des modèles MobileMoE-Base.

Évaluations avancées : Avantage plus marqué sur les tâches de code et de mathématiques

Dans les évaluations avancées après réglage fin d'instructions, MobileMoE se distingue davantage sur les tâches de code et de mathématiques. Prenons l'exemple de MobileMoE-L : ses scores moyens dans les deux catégories de tests (code et mathématiques) sont supérieurs à ceux de Qwen3.5 2B et OLMoE- 1B-7B. Cependant, l'équipe de recherche mentionne aussi que, en termes de capacité de suivi d'instructions et de raisonnement sur les connaissances, Qwen3.5 2B reste plus performant.

Figure | Comparaison des modèles Instruct sur les benchmarks avancés.

Quantification et déploiement côté client : Reste compétitif après INT4, accélération notable sur téléphone

Après quantification, les scores moyens globaux de MobileMoE-S/M/L diminuent par rapport à leurs versions BF16 respectives, mais la baisse se situe généralement entre 2 et 3 points. Néanmoins, la performance de la version INT4 de MobileMoE-L reste supérieure à celle de la version BF16 de OLMoE-1B-7B Instruct.

L'équipe de recherche a également déployé MobileMoE sur Samsung Galaxy S25 et iPhone 16 Pro pour des tests. Les résultats montrent que, dans des conditions de mémoire de poids INT4 comparables, MobileMoE-S, par rapport à MobileLLM-Pro, accélère la phase d'entrée de 1,8 à 3,8 fois, et accélère la phase de génération token par token de 2,2 à 3,4 fois.

En termes d'occupation mémoire, dans des conditions réelles avec Samsung Galaxy S25, un contexte de 8K et un prompt réel, le pic RSS de MobileMoE-S est de 1,49 Go, inférieur aux 1,91 Go de MobileLLM-Pro.

Figure | Latence d'exécution côté client.

Limites et orientations futures

Actuellement, en matière de capacités plus avancées de suivi d'instructions ainsi que de raisonnement sur les connaissances, le MobileMoE après réglage fin d'instructions reste en retard par rapport à Qwen3.5 2B. L'équipe de recherche estime que cet écart pourrait être lié à un post-entraînement plus complet de ce dernier. À l'avenir, pour réduire cet écart, le côté entraînement nécessitera de renforcer la distillation, le post-entraînement orienté raisonnement, ainsi que l'extension multimodale.

De plus, l'équipe de recherche souligne que l'empreinte mémoire du MoE sur téléphone varie avec le contenu de l'entrée. Par rapport à des entrées basées sur des templates, les entrées réelles entraînent généralement une occupation mémoire plus élevée. Si les tests sont basés uniquement sur des entrées template, cela pourrait sous-estimer la pression mémoire réelle dans les scénarios de déploiement. À l'avenir, pour évaluer plus précisément les performances mémoire réelles des MoE côté client, il sera nécessaire de s'appuyer sur davantage de données de mesures réelles.

Parallèlement, l'équipe de recherche a déjà terminé des tests systématiques sur appareils réels avec des backends CPU et GPU, mais la voie NPU reste à explorer. En même temps, l'occupation mémoire à l'exécution du MoE est assez sensible au contenu de l'entrée. À l'avenir, le routage dynamique, l'élagage d'experts, la quantification en précision mixte ainsi que le déploiement sur NPU mobile sont autant de directions pour continuer à améliorer l'efficacité côté client.

Pour plus de détails techniques, veuillez consulter l'article original.

Cet article provient du compte public WeChat « Academic Headlines » (ID : SciTouTiao), auteur : Xia Qiansi

Lectures associées

Après trois trimestres consécutifs de baisse, le marché des cryptomonnaies pourra-t-il connaître une fenêtre de stabilisation au troisième trimestre ?

Le marché des cryptomonnaies a enregistré son pire trimestre depuis 2022, avec une capitalisation totale chutant de 12,6% à 2 100 milliards de dollars. Tous les indicateurs clés (volume des échanges, valeur des stablecoins) montrent une sortie nette de capitaux. Le Bitcoin a perdu 14,2% et l'Ethereum 25,4% sur le trimestre, rompant sa corrélation antérieure avec les actions technologiques. Les ETF spot américains sur le Bitcoin ont subi des rachats massifs, avec une sortie nette de 4,67 milliards de dollars au Q2, indiquant une pression de vente continue. Le resserrement de la politique de la Fed et les ventes d'entreprises comme Strategy ont accentué la déleveragisation du secteur. L'attention du marché se porte désormais presque exclusivement sur la réunion de la Fed fin juillet. Une position accommodante pourrait stabiliser le Bitcoin entre 68 000 et 84 000 dollars, tandis qu'un ton hawkish pourrait le faire osciller autour de 50 000-56 000 dollars. Parallèlement, la progression du *CLARITY Act*, une loi cruciale pour la clarté réglementaire, est au point mort au Sénat, réduisant les chances d'adoption en 2026 et maintenant une prime de risque élevée sur l'ensemble du secteur. Malgré ce contexte difficile, quelques secteurs résistent : les marchés de prédiction ont vu leur volume nominal augmenter de 48,7% et les biens collectionnables tokenisés ont progressé d'environ 143%. La tokenisation d'actifs du monde réel (RWA) continue également sa croissance régulière, portée par des fondamentaux indépendants du cycle crypto. Les bases d'un effondrement extrême semblent absentes, mais le marché est désormais guidé par les politiques monétaires, les prix et les attentes de taux, plutôt que par le simple récit haussier. La fin des sorties massives des ETF et le retour des achats des détenteurs à long terme pourraient indiquer une phase de stabilisation potentielle.

marsbitIl y a 2 h

Après trois trimestres consécutifs de baisse, le marché des cryptomonnaies pourra-t-il connaître une fenêtre de stabilisation au troisième trimestre ?

marsbitIl y a 2 h

The SpaceX Trade, Unlocked: SPCXON Débarque sur WEEX

En juin 2026, SpaceX a réalisé la plus grande introduction en bourse de l'histoire, mais l'accès à l'action a été limité pour de nombreux investisseurs en raison de restrictions régionales et de frictions liées aux courtiers. La plateforme WEEX propose désormais une solution via SPCXON/USDT, un instrument tokenisé sur le marché au comptant qui permet d'obtenir une exposition au cours de SpaceX en utilisant l'USDT, sans nécessiter de compte de courtage américain. SPCXON est un produit tokenisé construit sur l'infrastructure d'Ondo, conçu pour refléter l'économie de la détention d'actions SpaceX pour les traders éligibles en dehors des États-Unis, avec des dividendes réinvestis. Le cas d'investissement repose sur la croissance des revenus de Starlink et les progrès de Starship, malgré un valorisation déjà élevée et des risques liés à un flottant public réduit et à des déblocages d'actions internes à venir. Il est important de noter que SPCXON offre une exposition, et non la propriété directe d'actions ou de droits de vote. Son prix peut évoluer avec une prime ou une décote par rapport à la valeur liquidative. WEEX propose également d'autres produits tokenisés comme MSTRON et MUON dans un compte unifié, permettant une rotation entre crypto-monnaies et actions traditionnelles sans transfert de fonds. La plateforme souligne ainsi comment les barrières entre la finance traditionnelle et les actifs numériques s'estompent.

TheNewsCryptoIl y a 3 h

The SpaceX Trade, Unlocked: SPCXON Débarque sur WEEX

TheNewsCryptoIl y a 3 h

BIT Trading Moment : Le BTC reste sous la pression de l'EMA 200 hebdomadaire, un rejet pourrait relancer la baisse, les actions de stockage et de semi-conducteurs qui ont bondi cette nuit ont baissé en séance de nuit

**Résumé des marchés : Bitcoin sous pression, actions technologiques en réajustement** Le marché crypto poursuit son rebond, avec Bitcoin évoluant autour de 66 000 $. Il fait face à une résistance clé vers 68 000 $, niveau correspondant au coût moyen des investisseurs sur cinq mois. Les traders surveillent les moyennes mobiles clés (200 MA à ~63 333 $ et 200 EMA à ~68 328 $ en hebdomadaire). Une rupture au-dessus de 68 000 $ ouvrirait la voie à une hausse, tandis qu'un échec pourrait entraîner un retest des 63 000 $. L'analyse suggère que la dynamique actuelle ressemble à un rebond estival à faible liquidité plutôt qu'au début d'un véritable marché haussier. Sur le marché actions américain, après une forte séance mardi portée par les semi-conducteurs et les titres du stockage (Micron, AMD, Intel...), les contrats à terme indiquent une ouverture en baisse. Les secteurs ayant récemment bondi, comme les semi-conducteurs et le stockage, reculent en séance de nuit. Certaines valeurs se démarquent néanmoins, comme Super Micro Computer (SMCI), en hausse après des résultats et des perspectives robustes liées à la demande de serveurs IA. Des vents contraires persistent : les prix du pétrole (Brent >91$) et les rendements des obligations d'État américaines grimpent, ravivant les craintes inflationnistes. En Asie, les marchés ont suivi le rebond technologique américain, mais de manière hésitante. La tension reste forte sur le yen japonais, qui atteint son plus bas niveau depuis des décennies. **Points clés à surveiller :** * **Crypto :** Niveaux techniques de Bitcoin (68k$/63k$), flux des ETF spot. * **Actions :** Saison des résultats (Tesla, Alphabet, Intel...), activité d'AMD sur l'IA. * **Économie :** Données américaines sur l'emploi, décision de la BCE, tensions géopolitiques et prix de l'énergie.

marsbitIl y a 3 h

BIT Trading Moment : Le BTC reste sous la pression de l'EMA 200 hebdomadaire, un rejet pourrait relancer la baisse, les actions de stockage et de semi-conducteurs qui ont bondi cette nuit ont baissé en séance de nuit

marsbitIl y a 3 h

Ancien président de la CFTC et président de Circle, Tarbert : Vous prêche le long terme tout en réalisant lui-même 30 millions de dollars

L'ancien président de la CFTC et actuel président de Circle, Heath Tarbert, a conseillé aux investisseurs de privilégier une vision à long terme alors que l'action de l'entreprise a chuté de 70 % par rapport à son sommet. Cependant, il a été révélé que depuis l'introduction en bourse de Circle, Tarbert a vendu des actions pour une valeur d'environ 30 millions de dollars via des plans de vente préétablis (10b5-1), sans jamais en acheter sur le marché public. Cette divergence entre son discours public et ses actions personnelles suscite des critiques. La carrière de Tarbert illustre le "pantalon tournant" entre la régulation et le secteur privé. Après avoir quitté la CFTC en mars 2021, il a rejoint Citadel Securities comme responsable juridique en seulement 27 jours, en pleine controverse GameStop. Plus tard, chez Circle, son rôle a été crucial pour naviguer dans le paysage réglementaire et faciliter l'IPO. Son parcours démontre une habileté à convertir son expertise réglementaire et son réseau en opportunités professionnelles lucratives dans le secteur financier, laissant aux investisseurs ordinaires le risque à long terme qu'il promeut verbalement.

marsbitIl y a 3 h

Ancien président de la CFTC et président de Circle, Tarbert : Vous prêche le long terme tout en réalisant lui-même 30 millions de dollars

marsbitIl y a 3 h

Gate Research Institute : La vague de « Wall Streetisation » des produits financiers cryptographiques, concurrence ou fusion ?

Le titre de l'article est : "Gate Institute : La vague de 'Wall Street-isation' des produits financiers cryptos, est-ce une compétition ou une fusion ?" Résumé en français (environ 1400 caractères) : Il y a dix-sept ans, Bitcoin fut créé avec une vision décentralisée et anti-establishment financier. Aujourd'hui, paradoxalement, son adoption massive passe souvent par des ETF émis par des géants comme BlackRock. Cet article analyse cette "Wall Street-isation" apparente des actifs cryptos : les institutions traditionnelles s'emparent-elles du pouvoir d'émission, de tarification, de garde et de distribution ? La réalité est plus nuancée. C'est une convergence à double sens. D'un côté, les plateformes cryptos comme Gate.io étendent leurs services aux actions traditionnelles (états-uniennes, hongkongaises, sud-coréennes), aux CFD et aux produits tokenisés, offrant un compte unifié. De l'autre, des courtiers traditionnels comme Robinhood intègrent les cryptomonnaies et explorent la tokenisation d'actions sur blockchain. Cette fusion vise à créer le "super-compte" financier de demain, où actions, cryptos, ETF et obligations tokenisées (RWA) coexistent dans une même interface, comblant les faiblesses de chaque écosystème. Les RWA, notamment les obligations d'État tokenisées, agissent comme une couche intermédiaire unificatrice. En conclusion, Wall Street n'a pas conquis la crypto, et la crypto n'a pas contourné Wall Street. Ils construisent ensemble une nouvelle forme de marché des capitaux, plus efficace et mondial, où l'idéal décentralisé persiste dans les protocoles, tandis qu'une expérience utilisateur unifiée émerge à l'interface.

marsbitIl y a 3 h

Gate Research Institute : La vague de « Wall Streetisation » des produits financiers cryptographiques, concurrence ou fusion ?

marsbitIl y a 3 h

Trading

Spot

Faire tourner un MoE sur smartphone ? Meta propose MobileMoE, avec une accélération de 3,8x sur iPhone 16 Pro

Résumé

Comment MobileMoE est-il conçu ?

Résultats expérimentaux

Résultats d'ablation

Évaluation sur 14 tests de base : Établir une nouvelle frontière de Pareto côté client

Évaluations avancées : Avantage plus marqué sur les tâches de code et de mathématiques

Quantification et déploiement côté client : Reste compétitif après INT4, accélération notable sur téléphone

Limites et orientations futures

Lectures associées

Après trois trimestres consécutifs de baisse, le marché des cryptomonnaies pourra-t-il connaître une fenêtre de stabilisation au troisième trimestre ?

The SpaceX Trade, Unlocked: SPCXON Débarque sur WEEX

BIT Trading Moment : Le BTC reste sous la pression de l'EMA 200 hebdomadaire, un rejet pourrait relancer la baisse, les actions de stockage et de semi-conducteurs qui ont bondi cette nuit ont baissé en séance de nuit

Ancien président de la CFTC et président de Circle, Tarbert : Vous prêche le long terme tout en réalisant lui-même 30 millions de dollars

Gate Research Institute : La vague de « Wall Streetisation » des produits financiers cryptographiques, concurrence ou fusion ?

Trading

Catégories populaires

Tags tendances