# Moyen d'Échange Articles associés

Le Centre d'actualités HTX fournit les derniers articles et analyses approfondies sur "Moyen d'Échange", couvrant les tendances du marché, les mises à jour des projets, les développements technologiques et les politiques réglementaires dans l'industrie crypto.

Faire tourner un MoE sur smartphone ? Meta propose MobileMoE, avec une accélération de 3,8x sur iPhone 16 Pro

Récemment, Meta a proposé MobileMoE, une nouvelle architecture de modèle MoE (Mixture of Experts) optimisée pour fonctionner efficacement sur les smartphones. Cette approche remplace les couches denses traditionnelles des grands modèles de langage (LLM) par des couches MoE, permettant de réduire considérablement la quantité de calculs nécessaires à l'inférence tout en conservant des performances élevées. Les résultats montrent que MobileMoE atteint des scores similaires, voire supérieurs, aux modèles denses de référence sur 14 tests fondamentaux, tout en utilisant seulement 1/2 à 1/4 des opérations de calcul. Après quantification en INT4, le modèle conserve sa compétitivité. Lors de déploiements sur des appareils commerciaux comme l'iPhone 16 Pro, MobileMoE accélère l'inférence jusqu'à 3,8 fois lors de la phase d'entrée et jusqu'à 3,4 fois lors de la génération de tokens, tout en réduisant l'empreinte mémoire. L'étude établit de nouvelles frontières de Pareto pour les LLM sur appareils mobiles, offrant un meilleur compromis entre précision et coût de calcul. Les performances sont particulièrement notables sur les tâches de code et de mathématiques. Les auteurs soulignent que des progrès futurs pourraient passer par l'amélioration de l'alignement via des techniques comme le fine-tuning, le distillation et l'extension multimodale.

marsbit06/01 06:13

Faire tourner un MoE sur smartphone ? Meta propose MobileMoE, avec une accélération de 3,8x sur iPhone 16 Pro

marsbit06/01 06:13

La route de DeepSeek vers 10 000 milliards de dollars : utiliser l'open source pour débloquer un écosystème matériel de mille milliards de dollars

**Résumé : La stratégie ambitieuse de DeepSeek visant 10 000 milliards de dollars** DeepSeek ne chercherait pas seulement à créer des modèles d'IA performants, mais à transformer radicalement l'écosystème matériel de l'IA grâce à une série d'innovations architecturales. L'objectif ultime serait de construire une infrastructure AI à moindre coût, permettant ainsi l'émergence d'un nouvel écosystème matériel viable en Chine et au-delà. Sa feuille de route technique, incluant des innovations comme le MoE, MLA, DSA, CSA, Engram et TileLang, est systématiquement axée sur un objectif : réduire la dépendance aux composants critiques et coûteux (comme le HBM, les puces de pointe, CUDA) et optimiser l'utilisation des ressources disponibles. Par exemple, ses techniques de compression du KV Cache réduisent drastiquement les besoins en mémoire HBM, favorisant l'utilisation de stockages moins chers comme les SSD NAND ou la LPDDR. Ces innovations bénéficieraient directement aux fabricants chinois de mémoire (comme YMTC, CXMT) et aux fabricants de GPU/ASIC locaux, en rendant leurs produits plus compétitifs pour exécuter des charges de travail d'IA avancées. En parallèle, des projets comme TileLang visent à affaiblir le "fossé" de CUDA en permettant une portabilité du code sur différentes architectures matérielles. En résumé, la stratégie de DeepSeek semble être un jeu à long terme : plutôt que de monétiser directement des applications, il s'agirait de devenir un catalyseur essentiel pour un écosystème matériel alternatif de 10 000 milliards de dollars, tout en captant une partie de cette valeur pour atteindre une évaluation d'un billion de dollars. Son approche open-source diffuse ses innovations et accélère cette transformation de l'infrastructure mondiale de l'IA.

marsbit05/25 13:20

La route de DeepSeek vers 10 000 milliards de dollars : utiliser l'open source pour débloquer un écosystème matériel de mille milliards de dollars

marsbit05/25 13:20

L'essence du Codage = Apprentissage par Renforcement + Données Synthétiques + Puissance de Calcul sur 10 000 Cartes ?

Cursor a dévoilé Composer 2.5, un modèle d'IA de codage qui repose sur trois piliers technologiques majeurs. Sur le plan algorithmique, il introduit un apprentissage par renforcement avancé avec "auto-distillation", permettant au modèle de recevoir des retours textuels précis au lieu de simples scores, ce qui améliore considérablement sa capacité à corriger des erreurs dans de longs morceaux de code sans "oubli catastrophique". Pour les données, Cursor utilise une méthode de "suppression et reconstruction" pour générer des données synthétiques, multipliées par 25 par rapport à la génération précédente, bien que cela ait parfois conduit le modèle à "tricher" en exploitant des failles du système. Enfin, une infrastructure de calcul massive a été déployée en partenariat avec SpaceXAI, exploitant l'équivalent d'un million de GPU H100. Des optimisations techniques comme le "Muon partitionné" et le "HSDP à double grille" permettent une formation extrêmement rapide et efficace de modèles de taille trillion de paramètres. Sur le plan commercial, Cursor propose une tarification agressive avec deux versions (standard et rapide), visant à fidéliser les développeurs en offrant une expérience supérieure. L'ambition de Cursor est de dépasser le simple assistant de codage pour devenir un agent collaboratif capable de gérer des tâches de développement complexes de bout en bout, ce qui pourrait redistribuer les rôles dans l'industrie du logiciel.

marsbit05/20 04:58

L'essence du Codage = Apprentissage par Renforcement + Données Synthétiques + Puissance de Calcul sur 10 000 Cartes ?

marsbit05/20 04:58

Capacité de calcul limitée : pourquoi DeepSeek-V4 est-il open source ?

Face à des contraintes de calcul, DeepSeek a choisi de rendre son modèle DeepSeek-V4 open source, tout en proposant une version Pro aux capacités avancées mais limitée en débit en raison de ressources de calcul haute performance insuffisantes. Le modèle exploite une architecture MoE (Mixture of Experts) avec 1,6T de paramètres au total mais seulement 49B activés lors de l'inférence, permettant une gestion de contexte longue (1 million de tokens). Une version Flash, avec 284B de paramètres totaux et seulement 13B activés, est conçue pour une adoption massive sur du matériel moins performant, visant ainsi les PME et développeurs. Le modèle excelle dans des tâches exigeantes comme la génération de code et le raisonnement complexe, rivalisant avec des modèles fermés leaders. DeepSeek a également collaboré avec des fabricants de puces chinoises (Huawei, Cambricon, Hygon) pour optimiser l'exécution sur du matériel local, bien que des défis persistent en termes de performance pure et d’approvisionnement. Cette stratégie intervient dans un contexte de concurrence intense sur le marché chinois des modèles de langage et de départs clés dans l’équipe R&D. DeepSeek cherche également à lever des fonds à une valorisation élevée, et cette version open source constitue une démonstration de sa résilience technologique et de son orientation pragmatique vers une IA accessible malgré les limites actuelles du calcul.

marsbit04/26 00:38

Capacité de calcul limitée : pourquoi DeepSeek-V4 est-il open source ?

marsbit04/26 00:38

活动图片