# Inférence Articles associés

Le Centre d'actualités HTX fournit les derniers articles et analyses approfondies sur "Inférence", couvrant les tendances du marché, les mises à jour des projets, les développements technologiques et les politiques réglementaires dans l'industrie crypto.

Le CPU, retour discret au centre de la scène du calcul IA

Ces trois dernières années, l'histoire du calcul IA a été presque entièrement centrée sur les GPU, les CPU étant relégués au rôle de soutien. Cependant, à partir de 2026, ce récit évolue. Alors que l'IA passe de l'entraînement massif de modèles au déploiement à grande échelle d'agents et d'inférences, la coordination, la concurrence et la circulation des données deviennent des goulots d'étranglement critiques. Ces tâches d'orchestration, où les GPU sont moins performants, remettent le CPU au centre en tant que « plan de contrôle » de l'infrastructure IA. Intel illustre cette tendance avec son processeur Xeon 6+, lancé en juin 2026. Fabriqué en procédé 18A, il mise sur une densité extrême avec jusqu'à 288 cœurs éco-efficaces (E-cores), optimisés pour le traitement simultané de milliers de tâches légères typiques des charges de travail des agents IA et de l'inférence. Cette approche « haute densité, haut débit » contraste avec la quête traditionnelle de performances mono-cœur. Cependant, la trajectoire d'Intel n'est pas assurée. Le récit du « retour du CPU » est confronté à plusieurs défis : les solutions intégrées CPU-GPU de NVIDIA, la montée des CPU ARM à haute densité développés en interne par les grands clouds (AWS Graviton, Google Axion, etc.), et la nécessité pour le procédé 18A de rivaliser avec les technologies N2 de TSMC et 2 nm de Samsung. En résumé, le CPU retrouve une place essentielle dans l'écosystème du calcul IA, non pas en rivalisant avec le GPU sur le pic de performance, mais en adressant les nouveaux besoins systémiques d'orchestration. La bataille pour savoir quelle architecture (x86 d'Intel/AMD, ARM des clouds ou solutions intégrées de NVIDIA) dominera cette nouvelle ère reste toutefois ouverte.

marsbit06/03 10:46

Le CPU, retour discret au centre de la scène du calcul IA

marsbit06/03 10:46

Faire tourner un MoE sur smartphone ? Meta propose MobileMoE, avec une accélération de 3,8x sur iPhone 16 Pro

Récemment, Meta a proposé MobileMoE, une nouvelle architecture de modèle MoE (Mixture of Experts) optimisée pour fonctionner efficacement sur les smartphones. Cette approche remplace les couches denses traditionnelles des grands modèles de langage (LLM) par des couches MoE, permettant de réduire considérablement la quantité de calculs nécessaires à l'inférence tout en conservant des performances élevées. Les résultats montrent que MobileMoE atteint des scores similaires, voire supérieurs, aux modèles denses de référence sur 14 tests fondamentaux, tout en utilisant seulement 1/2 à 1/4 des opérations de calcul. Après quantification en INT4, le modèle conserve sa compétitivité. Lors de déploiements sur des appareils commerciaux comme l'iPhone 16 Pro, MobileMoE accélère l'inférence jusqu'à 3,8 fois lors de la phase d'entrée et jusqu'à 3,4 fois lors de la génération de tokens, tout en réduisant l'empreinte mémoire. L'étude établit de nouvelles frontières de Pareto pour les LLM sur appareils mobiles, offrant un meilleur compromis entre précision et coût de calcul. Les performances sont particulièrement notables sur les tâches de code et de mathématiques. Les auteurs soulignent que des progrès futurs pourraient passer par l'amélioration de l'alignement via des techniques comme le fine-tuning, le distillation et l'extension multimodale.

marsbit06/01 06:13

Faire tourner un MoE sur smartphone ? Meta propose MobileMoE, avec une accélération de 3,8x sur iPhone 16 Pro

marsbit06/01 06:13

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

Dans un article intitulé "La réduction de 99% du prix de MiMo de Xiaomi n'est pas du marketing ! Luo Fuli répond aux détracteurs sur X", Luo Fuli, responsable de MiMo, a publié un billet de blog technique de 5000 mots pour expliquer la baisse drastique des prix de l'API MiMo-V2.5. Contrairement aux interprétations initiales d'une guerre des prix ou d'une stratégie de perte, cette réduction de 99% concerne spécifiquement le coût des entrées en cache ("Input Cache Hit"), c'est-à-dire la relecture du contexte historique dans les conversations longues. Le billet détaille six piliers d'ingénierie ayant permis cette réduction : 1. **Architecture Hybride SWA** : Réduction du volume de la mémoire cache (KVCache) à 1/7 grâce à une attention par fenêtre glissante sur 60 des 70 couches du modèle. 2. **Gestion en double pool** : Allocation efficace de la mémoire pour matérialiser les gains théoriques du SWA, multipliant par 5 le nombre d'utilisateurs simultanés par GPU. 3. **Cache de préfixe optimisé** : Augmentation du taux de réussite du cache à 93-95% en moyenne, évitant de recalculer les contextes répétés. 4. **Système de cache distribué GCache** : Stockage des données sur les SSD des machines GPU existantes, réduisant les coûts de stockage additionnels à zéro. 5. **Système de routage LLM-Router** : Optimisation de l'acheminement des requêtes pour maximiser l'utilisation du cache et améliorer les performances. 6. **Prédiction Multi-Token (MTP)** : Accélération de la génération des réponses du modèle, réduisant également les coûts de sortie. Cette chaîne d'optimisations systémiques a réduit le temps GPU par requête d'un ordre de grandeur, permettant une baisse de prix de 99% tout en maintenant une marge positive. Luo Fuli souligne qu'il s'agit d'un accomplissement d'ingénierie validé en production, et non d'une simple manœuvre marketing, offrant une référence pour réduire les coûts dans le secteur de l'IA.

marsbit05/31 10:42

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

marsbit05/31 10:42

La philosophie d'investissement de Gavin Baker, investisseur précoce de Nvidia : Investir dans les goulots d'étranglement des infrastructures IA et se couvrir contre le risque du marché global

Le podcast explore la philosophie d'investissement de Gavin Baker, fondateur d'Atreides Management et investisseur de longue date dans Nvidia et Cerebras. Sa thèse centrale est que l'IA n'est pas une bulle, mais un super-cycle d'infrastructure piloté par des contraintes physiques : l'électricité, les plaquettes de silicium (wafers) et la puissance de calcul (token generation). Les opportunités de rendement excédentaire se situeraient non pas dans les modèles de langage grand public, mais dans les "vendeurs de pelles" (picks and shovels) : interconnexion des GPU, mémoire, puces d'inférence, procédés de fabrication avancés et alimentation électrique. Son portefeuille reflète cette vision : il investit de manière concentrée dans des actifs liés aux goulets d'étranglement physiques de l'IA (comme Astera Labs, Micron, Cerebras, Positron) tout en se couvrant contre un repli général du marché via des options de vente (puts) sur le QQQ. Il soutient que ce cycle diffère de la bulle internet des années 2000 car il est financé par les flux de trésorerie des grandes entreprises technologiques (Google, Amazon, Microsoft, Meta) et non par l'endettement. De plus, des contraintes d'offre strictes chez des acteurs comme TSMC, ASML ou dans le secteur de l'énergie empêchent une expansion excessive et rapide, limitant ainsi le risque de formation d'une bulle spéculative. Baker identifie quatre axes d'investissement principaux : les petits modèles de langage verticalisés, les infrastructures souveraines à déploiement rapide, l'optimisation des performances par watt (coût par token) et l'intersection énergie/espace (calcul en orbite). En résumé, sa stratégie consiste à "être long sur les goulets d'étranglement de l'infrastructure IA et court sur le risque de marché général".

marsbit05/30 03:32

La philosophie d'investissement de Gavin Baker, investisseur précoce de Nvidia : Investir dans les goulots d'étranglement des infrastructures IA et se couvrir contre le risque du marché global

marsbit05/30 03:32

Déconstruire la philosophie d'investissement de Gavin Baker, l'investisseur précoce de Nvidia : Long sur les goulets d'étranglement des infrastructures IA, court sur le risque de marché global

Gavin Baker, investisseur précoce de Nvidia, défend l'idée que l'IA n'est pas une bulle mais un super-cycle d'infrastructure, porté par des contraintes physiques : l'électricité, les puces (wafers) et la capacité de calcul (token). Selon lui, les meilleures opportunités d'investissement se situent non pas dans les modèles de langage grand public, mais dans les "vendeurs de pelles" qui résolvent les goulots d'étranglement sous-jacents : la connectivité des GPU (Astera Labs), la mémoire (Micron), les puces d'inférence (Cerebras, Positron), la fabrication avancée (TSMC, ASML) et l'approvisionnement énergétique. Sa stratégie combine une concentration sur ces actifs liés aux infrastructures d'IA avec une couverture sur le risque de marché global via des options de vente (puts) sur le QQQ. Il souligne que les dépenses d'IA sont actuellement financées par les liquidités des grandes entreprises technologiques, et non par de la dette, et que les limites physiques de production (puces, électricité) empêchent une expansion excessive et un éclatement rapide de type bulle Internet. Baker mise également sur la transition vers l'inférence et le post-entraînement des modèles, les petits modèles spécialisés (SLM) et les infrastructures souveraines, où la vitesse de déploiement physique constitue un avantage compétitif majeur.

marsbit05/29 08:41

Déconstruire la philosophie d'investissement de Gavin Baker, l'investisseur précoce de Nvidia : Long sur les goulets d'étranglement des infrastructures IA, court sur le risque de marché global

marsbit05/29 08:41

Pourquoi la capitalisation boursière de Zhipu a-t-elle bondi de près de 30% en une seule journée ?

Le titre "智谱凭什么一天暴涨近30% ?" (Pourquoi les actions de Zhipu AI ont-elles grimpé de près de 30 % en une journée ?) répond à une annonce technique majeure. Le 22 mai, l'entreprise a lancé son API GLM-5.1-highspeed, dont le paramètre clé est une vitesse de génération atteignant **400 tokens par seconde**, un record mondial pour une API de grand modèle linguistique de taille standard. Cette vitesse, équivalant à environ 200 caractères chinois par seconde, est cruciale pour l'ère des **agents IA**. Contrairement aux simples chatbots, les agents effectuent des tâches complexes nécessitant de nombreux appels successifs au modèle. Chaque réduction de latence est donc amplifiée, améliorant radicalement l'expérience utilisateur pour des applications comme l'assistance à la programmation ou les systèmes de décision. Cette performance, estimée à 3-5 fois plus rapide que les modèles phares d'OpenAI ou d'Anthropic, repose sur une innovation profonde en matière d'infrastructure logicielle et matérielle, et non sur un simple ajout de puissance de calcul brute. L'article détaille trois innovations principales : 1. **TileRT (Moteur d'inférence)** : Un nouvel moteur qui compile le modèle entier en un pipeline d'exécution unique et continu sur le GPU, éliminant les temps d'attente entre les opérations. Il utilise une "spécialisation Warp" pour orchestrer efficacement les différents types de calculs. 2. **Adaptation au mécanisme d'attention MLA** : Pour le mécanisme d'attention MLA (inspiré de DeepSeek), TileRT utilise une exécution hétérogène sur plusieurs GPU. Un GPU sert de "routeur" pour les opérations de recherche clairsemée, tandis que les autres traitent les calculs denses en parallèle, optimisant ainsi l'ensemble du processus. 3. **ZCube (Architecture réseau)** : Une nouvelle topologie réseau qui supprime la couche centrale "Spine" traditionnelle. En interconnectant directement les commutateurs d'accès ("Leaf") et en concevant un chemin réseau unique et optimal entre toutes les paires de GPU, ZCube élimine fondamentalement les risques d'encombrement du réseau. Les résultats sont significatifs : **+15% de débit, -40.6% de latence de queue, et une réduction d'un tiers du coût des équipements réseau** pour un cluster donné. En conclusion, cette avancée démontre que les mêmes ressources matérielles (GPU) peuvent produire **plus de résultats**, repoussant les limites de l'efficacité de l'infrastructure logicielle autour du GPU. Cela pourrait, à terme, remodeler la chaîne de valeur des infrastructures IA (bénéficiant potentiellement aux fabricants de commutateurs haute densité et de modules optiques) et abaisser la barrière d'entrée pour les puces alternatives, comme celles d'Huawei.

marsbit05/23 01:28

Pourquoi la capitalisation boursière de Zhipu a-t-elle bondi de près de 30% en une seule journée ?

marsbit05/23 01:28

Quand la puissance de calcul se marchandise, à quand le marché à terme des GPU ?

**Quand la puissance de calcul devient une marchandise : combien de temps avant un marché à terme des GPU ?** Un article de Variant examine la possibilité d'un marché à terme pour la puissance de calcul (GPU). Il propose un cadre d'analyse basé sur cinq conditions préalables au développement d'un tel marché. Le constat actuel est mitigé. Le marché présente une **volatilité des prix élevée** (✅) et des **infrastructures de règlement physique embryonnaires** via des courtiers de gré à gré (✅). Cependant, il souffre d'une **offre très concentrée** chez les grands clouds (❌), d'un **manque de standardisation** des unités de calcul (❌), et les alternatives de couverture restent limitées pour la majorité des acteurs (⚠️). L'article compare cette évolution à celles du pétrole et de l'électricité. Pour que le marché mûrisse, une **fragmentation de l'offre** (nouveaux fournisseurs, adoption de puces alternatives) et une **standardisation** sont nécessaires. Cette dernière pourrait être portée par la demande croissante en **inférence** (moins exigeante que l'entraînement) et l'adoption potentielle de **modèles open-source**, qui démocratiseraient l'accès et homogénéiseraient les besoins matériels. Les auteurs s'interrogent sur l'unité de transaction future (puce, heure d'instance, token) et concluent que si un marché à terme robuste n'est pas pour tout de suite, l'activité dynamique des courtiers et la création d'indices de prix en sont les prémices.

marsbit05/18 09:33

Quand la puissance de calcul se marchandise, à quand le marché à terme des GPU ?

marsbit05/18 09:33

Quand la puissance de calcul se marchandise, combien de temps avant un marché à terme pour les GPU ?

L’article explore la possibilité de voir émerger un marché à terme robuste pour la puissance de calcul (GPU). L'auteur utilise un cadre d'analyse basé sur cinq conditions préalables : fragmentation de l'offre, volatilité des prix, infrastructure de règlement physique, unités standardisées et absence d'alternatives pour la couverture. Le constat actuel est mitigé. Le marché présente une forte volatilité des prix et une infrastructure de base pour le règlement physique existe via les courtiers de gré à gré. Cependant, l'offre reste très concentrée chez les grands hyperscalers (AWS, Azure, etc.), et il manque cruellement une unité de transaction standardisée. De plus, les grands acteurs peuvent se couvrir en interne, laissant les plus petits exposés. L'article conclut qu'un marché à terme mature est encore prématuré, la majorité des transactions ayant lieu de gré à gré. Il soulève plusieurs questions ouvertes : l'offre va-t-elle se fragmenter avec l'émergence de nouveaux fournisseurs ? La standardisation viendra-t-elle peut-être via les besoins en inférence pour modèles open source ? L'unité de transaction finale sera-t-elle l'heure d'instance GPU ou le token ? L'adoption massive de poids open source est identifiée comme un facteur clé pouvant accélérer la démocratisation et la standardisation du marché.

链捕手05/18 09:27

Quand la puissance de calcul se marchandise, combien de temps avant un marché à terme pour les GPU ?

链捕手05/18 09:27

Ce créneau de puces est devenu incandescent

Le marché mondial des puces IA connaît un changement profond, avec une transition majeure des GPU vers les ASIC pour l'inférence, portée par des gains d'efficacité énergétique et de coût. Des signaux forts émergent en 2026 : la part des TPU de Google atteint 78% dans les serveurs, OpenAI déploie des ASIC personnalisés avec Broadcom, et des acteurs comme MediaTek et Qualcomm entrent agressivement sur ce marché. Les prévisions indiquent que les ASIC pourraient représenter 45% du marché des puces IA d'ici 2027. Cette ruée est motivée par l'explosion des charges de travail d'inférence IA, où les ASIC surclassent les GPU en latence et efficacité. L'architecture Transformer, désormais standard, offre un marché large et stable pour ces puces spécialisées. Les hyperscalers (Google, AWS, Meta...) poussent cette tendance via des puces sur mesure pour contrôler leur chaîne d'approvisionnement et leurs coûts. Le paysage se recompose. MediaTek et Qualcomm, issus du mobile, deviennent des acteurs majeurs aux côtés des leaders historiques Broadcom et Marvell. En Chine, des sociétés comme VeriSilicon et ASR voient leurs activités de services ASIC exploser. Cependant, des défis persistent : coûts de développement élevés, écosystème logiciel à construire face à CUDA, et dépendance aux capacités d'emballage avancé de TSMC. L'avenir ne verra pas le remplacement pur des GPU, mais plutôt une spécialisation : GPU pour l'entraînement, ASIC pour l'inférence à grande échelle, dans un écosystème plus diversifié et "démocratisé".

marsbit05/18 00:37

Ce créneau de puces est devenu incandescent

marsbit05/18 00:37

Premier jour d'ouverture en hausse de 108% ! Le plus grand outsider de l'IA 2026 est né, et Altman a encore « gagné sans effort ».

La société de puces IA Cerebras a réalisé une introduction en bourse spectaculaire au Nasdaq, avec une hausse de 108% le premier jour et une valorisation atteignant jusqu'à 1000 milliards de dollars. Cette IPO de 55,5 milliards de dollars, la plus importante dans la tech américaine depuis Uber en 2019, marque le début d'une vague d'introductions attendues en 2026. Fondée en 2015, Cerebras a surmonté des obstacles réglementaires pour connaître une croissance fulgurante en 2025, passant d'une perte de 482 millions de dollars à un bénéfice de 238 millions de dollars, avec un chiffre d'affaires en hausse de 76%. Sa technologie repose sur la puce WSE-3, une "méga-puce" de la taille d'une assiette, offrant une puissance de calcul considérable pour l'inférence IA. L'IPO a généré d'immenses plus-values pour ses investisseurs. Sam Altman, CEO d'OpenAI, a vu sa participation personnelle multipliée par dix. OpenAI elle-même, via un accord liant l'achat de puissance de calcul à l'obtention d'actions, réalise une plus-value latente d'environ 18 milliards de dollars. Cerebras ouvre la voie à une série d'IPO géantes dans l'IA, avec SpaceX (visant 1 750 milliards de dollars), OpenAI (visant 1 000 milliards) et Anthropic (évaluée à 900 milliards) prévues pour 2026. Ces introductions, représentant plus de 3 000 milliards de dollars de valorisation potentielle, signalent que les marchés financiers parient sur la course à la suprématie en matière de calcul nécessaire au développement d'une intelligence artificielle avancée.

marsbit05/15 11:28

Premier jour d'ouverture en hausse de 108% ! Le plus grand outsider de l'IA 2026 est né, et Altman a encore « gagné sans effort ».