Microsoft suspend le codage par ambiance : « Brûler des tokens » coûte déjà plus cher que les employés

marsbitPublié le 2026-05-26Dernière mise à jour le 2026-05-26

Résumé

**La suspension du Vibe Coding par Microsoft : « Brûler des tokens » coûte désormais plus cher que les employés** En mai 2026, Microsoft a retiré l'accès interne à Claude Code, un outil d'IA générative de code très apprécié de ses employés, officiellement pour unifier ses outils. La décision, survenant en fin d'exercice financier, est largement perçue comme un geste financier. Le problème réside dans le modèle du "copilote", où l'IA assiste les employés sans les remplacer. Les coûts des tokens (unités de calcul de l'IA) s'ajoutent ainsi aux salaires existants, faisant exploser la facture sans augmentation proportionnelle des revenus, comme l'ont aussi constaté Uber et NVIDIA. Cette approche contraste radicalement avec celle des startups émergentes, encouragées par des investisseurs comme Y Combinator (YC). Pour elles, une forte facture d'IA n'est pas une dépense, mais un investissement qui remplace des salaires. Leur modèle "AI-native" repose sur de petites équipes humaines soutenues par des agents d'IA, et surtout sur la transformation des connaissances en "actifs de contexte" documentés et exploitables par l'IA, pérennisant le savoir-faire au-delà des départs. L'échec apparent du "vibe coding" chez Microsoft signale moins un problème de coût de l'IA que l'incompatibilité structurelle entre ces outils et les organisations traditionnelles. L'avenir pourrait appartenir aux entreprises conçues dès l'origine pour maximiser la valeur des tokens, pas simplement pour ajouter l'...

14 mai 2026, Microsoft a commencé à supprimer la licence interne Claude Code pour la majorité de ses employés. La date limite est le 30 juin – le dernier jour de l’exercice fiscal de Microsoft.

Il y a à peine 6 mois, Microsoft faisait exactement le contraire – en décembre 2025, il a ouvert l’accès à Claude Code à des milliers d’employés, ingénieurs, chefs de produit, designers inclus, encourageant tout le monde à repenser son flux de travail grâce au « vibe coding ». Les employés adoraient cet outil, peut-être même trop.

Mais 6 mois plus tard, Microsoft fait lui-même marche arrière.

Et quasiment la même semaine, Tom Blomfield, partenaire chez Y Combinator, a prononcé une autre phrase lors d’un « batch talk » : « Si votre facture API ne vous fait pas mal au cœur, c’est que vous ne brûlez pas assez. »

Ce même printemps, la Silicon Valley donne deux réponses diamétralement opposées à la même question – l’IA, utilisée, coûte-t-elle plus ou moins cher qu’un humain ?

01 L’échec sur le terrain du « vibe coding »

Ce que Microsoft annule, ce n’est pas le modèle Claude en soi. Les modèles d’Anthropic continueront d’être disponibles pour les employés Microsoft via Copilot CLI. C’est l’accès au produit Claude Code lui-même qui est supprimé.

Le département le plus touché est « Experiences + Devices » – l’équipe d’ingénieurs derrière Windows, Microsoft 365, Outlook, Teams et Surface. L’EVP Rajesh Jha a présenté cette décision dans un mémo interne comme une « unification de la chaîne d’outils » (toolchain unification), mais les sources internes citées par The Verge sont plus directes : les employés considèrent généralement Claude Code comme plus performant que Copilot CLI, et la popularité de l’outil d’Anthropic au sein de Microsoft a même conduit à une certaine « mise à l’écart » du Copilot CLI maison.

En d’autres termes, Microsoft retire Claude Code non pas parce qu’il est mauvais, mais parce qu’il est trop bon.

Cette date limite du 30 juin n’est pas non plus un hasard – c’est le dernier jour de l’exercice fiscal de Microsoft. Retirer un outil que les employés préfèrent largement, le remplacer par le produit maison, le timing calé sur la clôture fiscale – la part de jugement produit et la part de calcul financier, tout le monde comprend.

Microsoft n’est pas un cas isolé.

Il y a un mois, le CTO d’Uber, Praveen Neppalli Naga, a révélé à The Information : le budget annuel 2026 de l’entreprise pour les outils d’IA de programmation a été entièrement consommé en seulement 4 mois. Uber avait même mis en place un classement interne, encourageant les employés à utiliser davantage l’IA par le biais de concours – résultat : explosion du budget.

Encore plus direct, la déclaration de Bryan Catanzaro, vice-président du Deep Learning appliqué chez Nvidia, lors d’un entretien avec Axios : « Pour mon équipe, le coût de la puissance de calcul dépasse de loin le coût des employés. » Cette phrase sort de la bouche d’un cadre d’une entreprise de matériel – dont le produit principal est justement de vendre de la puissance de calcul.

Fortune a relié ces indices et a donné un titre très Fortune à son article : « Le rapport de Microsoft révèle le vrai problème de coût de l’IA – utiliser ce truc coûte plus cher que de payer des employés ».

Si l’on s’arrête à cette première lecture, la conclusion est simple : le vibe coding a échoué, l’histoire du remplacement de l’humain par l’IA peut être rangée au placard.

Mais cette conclusion est prématurée.

02 Le mode « Copilot » a déjà « buté sur un mur »

Pour expliquer la retraite de Microsoft, il faut d’abord définir ce qu’est le « vibe coding ».

Ce terme a été proposé par Andrej Karpathy début 2025 – il décrit une nouvelle façon de programmer : le développeur n’écrit plus le code ligne par ligne, mais décrit son intention en langage naturel, laissant le LLM générer le code. Le développeur ne lit même pas le code, il ne regarde que le résultat – s’il fonctionne, il l’accepte, sinon, il demande à l’IA de le modifier.

C’est l’une des promesses de productivité les plus séduisantes de l’ère de l’IA. Cela signifie : un ingénieur qui ne sait pas écrire en Rust peut faire écrire du Rust par l’IA ; un chef de produit peut faire créer un prototype par l’IA ; un designer peut faire écrire du code fonctionnel par l’IA. Les personnes ciblées par l’ouverture de Claude Code par Microsoft en décembre 2025 – ingénieurs, chefs de produit, designers – correspondent exactement à ces trois profils. Ce n’est pas une coïncidence, c’est la posture classique d’implémentation du vibe coding.

Mais lorsque le vibe coding s’implante dans une grande entreprise, cela devient structurellement problématique.

Imaginons un ingénieur chez Microsoft, avec un salaire annuel de 300 000 dollars. Une fois équipé de Claude Code, sa productivité augmente de 20% – c’est l’état idéal du vibe coding. Mais parallèlement, son coût mensuel en tokens est-il de 200, 500 ou 2000 dollars ? Ce chiffre augmente de manière monotone avec sa dépendance croissante à l’IA.

Plus gênant encore, il ne sera pas licencié parce qu’il « utilise l’IA » – son salaire de 300k reste, ses avantages sociaux restent, son poste de travail reste.

Autrement dit, la structure de coût totale pour Microsoft est « salaire existant des employés + nouvelle facture de tokens ». Cette équation n’a qu’une direction – l’explosion des coûts.

Et cette « productivité de l’employeur +20% » se traduit-elle financièrement par « chiffre d’affaires +20% » ? Non. C’est « chiffre d’affaires stable, mais structure de coût augmentée d’une facture IA » – car la productivité de la majorité des employés ne se traduit pas directement par des revenus additionnels ; écrire plus vite ne signifie pas que l’entreprise vend plus.

C’est le sens véritable de la phrase de Catanzaro « la puissance de calcul coûte plus cher que les employés ». Il ne s’agit pas de dire que l’IA est stupide, mais que lorsque vous greffez l’IA sur des employés existants, la rentabilité devient impossible.

Cette logique est étayée par des données.

Dans une récente prédiction, Gartner affirme que d’ici 2030, le coût d’inférence des modèles à mille milliards de paramètres aura chuté de près de 90% par rapport à 2025. On pourrait croire que l’IA devient moins chère, mais la véritable conclusion de Gartner est : cela ne rendra pas la facture IA totale des entreprises moins élevée. Will Sommer, analyste directeur principal chez Gartner, a déclaré : « Les DPO ne doivent pas confondre “déflation des tokens de commodité” et “démocratisation des capacités d’inférence de pointe”. »

La prédiction de Goldman Sachs est plus directe : d’ici 2030, l’IA agentique entraînera une multiplication par 24 de la consommation de tokens, atteignant 120 quadrillions par mois. Prix unitaire du token divisé par 10, consommation multipliée par 24 – résultat : la facture totale continue d’augmenter.

Jensen Huang a une version plus radicale. Il y a quelques mois, en public, il a déclaré qu’à l’avenir, chaque employé de Nvidia travaillerait aux côtés de 100 agents IA.

Cela semble beau. Mais si vous êtes CFO, qu’entendez-vous ? 100 fournaises à tokens, brûlant 24h/24.

Le problème n’est pas que l’IA est trop chère. Le problème est l’hypothèse de base : « donner un copilote IA à chaque employé ».

Cette posture a un nom populaire dans la tech – le « mode copilote » (copilot mode). Son postulat central est : l’humain reste aux commandes, l’IA est sur le siège passager pour donner des conseils. Elle ne vous remplace pas, elle vous rend juste plus rapide.

Cette hypothèse est très douce sur le papier – « l’IA ne vous volera pas votre travail, elle vous aidera seulement ». Mais financièrement, sa signification implicite est : tous les salaires existants restent inchangés, mais s’ajoute un coût supplémentaire en tokens.

Or, les tokens ne sont pas un coût fixe, ils sont facturés à la consommation. Plus les employés utilisent, plus l’entreprise paie – c’est exactement la structure de coût que les entreprises détestent : variable, sans plafond, amplifiée à l’inverse de la capacité de production.

Lorsque Microsoft a ouvert l’accès à Claude Code en décembre 2025, il n’avait peut-être pas pleinement conscience de cela. L’idée était probablement : laisser les employés essayer, voir dans quelle mesure l’IA peut améliorer l’efficacité. Mais 6 mois plus tard, les employés sont vraiment devenus accros, Claude Code est devenu trop populaire en interne – résultat : la facture de tokens a largement dépassé les attentes, dépassant ce que Microsoft pouvait récupérer en productivité grâce à cette popularité.

Microsoft se retire. Mais ce n’est pas l’IA qu’il retire – c’est la structure « employé aux commandes, IA en siège passager ».

C’est un échec structurel. Il ne disparaîtra pas parce que les modèles deviennent moins chers, ni parce que les employés deviennent plus compétents – il s’aggravera au fur et à mesure que les employés deviendront plus habiles avec l’IA.

03 Brûler des tokens, parce qu’on ne brûle pas des têtes

Presque la même semaine que la retraite de Microsoft, Tom Blomfield, lors du batch talk de YC, a proposé une perspective totalement différente. Il n’a pas discuté de « comment utiliser l’IA » – il a discuté de « à quoi devrait ressembler une entreprise à l’ère de l’IA ».

Le jugement de Blomfield est direct : aujourd’hui, la plupart des entreprises conservent une structure de « légion romaine » – l’information remonte niveau par niveau, les ordres descendent niveau par niveau, l’humain est le cœur de la coordination. Greffer l’IA sur cette structure, c’est comme donner des armes à feu à des légionnaires romains – ils les utiliseront plus intensément, mais la tactique ne changera pas.

Une véritable entreprise AI-native devrait avoir une autre forme.

Blomfield utilise une description très concrète : chaque action devrait produire un artefact enregistrable et invocable, rendant tout clairement lisible par l’IA (legible to AI) ; l’entreprise devrait être conçue comme une « boucle d’IA auto-améliorante », le système pouvant percevoir l’environnement, prendre des décisions, invoquer des outils, recevoir des retours, s’auto-corriger.

Dans une telle entreprise, l’humain ne garde que deux rôles. Premièrement, celui de contributeur individuel – chaque personne, quel que soit son département, est un « builder » et un « operator », apportant des prototypes en réunion, pas seulement des idées. Deuxièmement, celui de DRI (Directly Responsible Individual) – chaque production a un responsable clairement identifié, « on ne peut pas se cacher derrière l’IA ».

Puis Blomfield a prononcé cette phrase d’or : « Si votre facture API ne vous fait pas mal au cœur, c’est que vous ne brûlez pas assez. »

Si cette phrase apparaissait dans le bureau du CFO de Microsoft, elle serait prise pour une plaisanterie ; mais face à une salle pleine de fondateurs de startups de YC, personne ne la trouve folle.

Pourquoi ?

Diana Hu, une autre partenaire de YC, a donné la réponse début mai lors de la Startup School. Elle a dit : « Maximisez non pas le nombre de têtes, mais la consommation de tokens. » Elle a une version encore plus directe : « Une personne équipée d’outils IA équivaut à une grande équipe d’ingénieurs d’autrefois. »

Remarquez le mot-clé ici : « équivaut ». Pas « équivaut à peu près », pas « similaire à » – remplacement.

Dans le batch de printemps 2026 P26 de YC, plusieurs entreprises font déjà avec 5 ou 6 personnes ce qui en nécessitait 20 ou 30 auparavant. Leur facture de tokens est évidemment élevée, mais leur masse salariale est extrêmement faible – au global, le calcul est bénéficiaire.

Un cas plus radical est Block. Cette entreprise de fintech de Jack Dorsey a récemment licencié 40% de ses effectifs. Il ne s’agit pas d’une « rationalisation des coûts » traditionnelle – Block a simultanément augmenté ses investissements internes en outils IA. La nouvelle structure est exactement celle décrite par Diana Hu : IC + DRI + agent IA.

Brûler des tokens, dans le contexte de YC, n’est pas une dépense, c’est un remplacement. Il ne remplace pas des coûts hors IA, il remplace des salaires. Le calcul devient viable parce que l’entreprise supprime en parallèle les postes qui devaient initialement générer ces salaires.

C’est la raison fondamentale pour laquelle Microsoft et YC, observant la même situation, donnent des réponses opposées – ils ne brûlent pas du tout le même type de tokens. Les tokens de Microsoft font le plein du copilote de l’équipe existante, les tokens de YC remplacent le pilote d’origine.

04 Le véritable actif est en train d’être redéfini

Dans son entretien, Tom Blomfield a également prononcé une autre phrase plus intrigante – « Les humains sont éphémères, la documentation contextuelle est importante. »

C’est un jugement au niveau comptable.

Comment est structuré le bilan d’une entreprise traditionnelle ? À l’actif : immobilisations, créances, fonds commerciaux, propriété intellectuelle. Au passif : dettes et capitaux propres. Les employés ne figurent pas à l’actif – les employés sont un coût. Mais chaque entreprise sait au fond d’elle-même que les employés sont le véritable actif : les relations clients sont dans la tête des commerciaux, l’intuition métier dans celle des chefs de produit, le savoir-faire technique dans celle des ingénieurs.

La caractéristique de cet « actif » est qu’il peut partir. Un employé quitte l’entreprise, l’actif s’envole.

Et l’entreprise AI-native décrite par Blomfield fait une chose : extraire tous ces actifs qui n’existaient que dans les cerveaux humains pour les transformer en « actifs contextuels » lisibles, invocables et itérables par l’IA.

Sous quelle forme concrète ? Une documentation détaillée des besoins ; la capitalisation des processus de chaque décision, chaque échange d’emails, chaque discussion Slack ; des interfaces MCP et API ouvertes ; chaque artefact produit par les outils internes – tous ces éléments constituent une nouvelle couche d’actifs pour l’entreprise, héritable, qui ne s’évapore pas avec le départ d’un employé.

Dans une telle entreprise, l’humain devient au contraire une « variable » – il peut s’intégrer rapidement, ou partir rapidement, car le cœur de l’actif de l’entreprise n’est pas dans son cerveau, mais dans la documentation.

Si cette structure tient, elle signifie non seulement un nouveau modèle organisationnel – elle signifie que le bilan comptable des entreprises est en train d’être réécrit. Une entreprise AI-native de 6 personnes, avec une facture de tokens astronomique, peut sembler financièrement malsaine, mais son véritable actif est peut-être plus solide que celui d’une entreprise traditionnelle de 60 personnes – simplement, les normes comptables actuelles ne savent pas encore comment calculer cet actif.

En d’autres termes, le vibe coding n’est pas mort. Il n’appartient simplement pas aux entreprises traditionnelles.

Le jour où Microsoft a retiré Claude Code n’est pas un jour d’échec de l’économie de l’IA – c’est le jour où une posture consistant à greffer l’IA sur une organisation ancienne s’est auto-démentie.

Et dans cette salle pleine de startups de YC, une autre posture est en train d’émerger – elles sont petites, elles brûlent des tokens, elles n’ont pas de « taux d’utilisation de l’IA par les employés » dans leurs tableaux de bord, leur CFO ne panique pas face à l’explosion de la facture de tokens – car ce qu’elles brûlent n’est pas le « copilote de l’employé », mais bien le « substitut à l’employé ».

Dans les années à venir, toutes les entreprises de taille moyenne qui continuent d’encourager leurs employés à « utiliser un peu plus l’IA » se heurteront au même mur que Microsoft – la facture de tokens structurellement vouée à augmenter.

Mais la vraie raison de ce choc n’est pas que l’IA est trop chère – c’est que l’organisation n’a pas encore changé.

Et la grande majorité des entreprises ne changeront probablement pas de sitôt.

Questions liées

QPourquoi Microsoft a-t-il décidé de retirer Claude Code de ses employés ?

AMicrosoft a retiré Claude Code principalement pour des raisons financières et stratégiques. Bien que l'outil soit très apprécié des employés, son utilisation intensive a entraîné des factures de token bien plus élevées que prévu, augmentant considérablement les coûts. De plus, cela créait une concurrence interne avec le produit maison Copilot CLI, que Microsoft souhaitait privilégier dans le cadre d'une unification de ses outils.

QQu'est-ce que le 'vibe coding' et pourquoi pose-t-il problème dans les grandes entreprises ?

ALe 'vibe coding' est une méthode de programmation où les développeurs utilisent le langage naturel pour décrire leurs intentions, et laissent un LLM générer le code, souvent sans le lire en détail. Dans les grandes entreprises, cela pose un problème structurel : il ajoute le coût des tokens (variable et potentiellement élevé) aux salaires fixes des employés, sans nécessairement générer des revenus supplémentaires proportionnels. Cela conduit à une augmentation nette des coûts pour l'entreprise.

QQuelle est la différence fondamentale entre l'approche de Microsoft et celle des startups du Y Combinator concernant l'utilisation de l'IA ?

ALa différence fondamentale réside dans la structure organisationnelle et le rôle de l'IA. Microsoft a adopté un mode 'copilote', où l'IA assiste les employés existants sans les remplacer, ajoutant simplement le coût des tokens aux dépenses salariales. Les startups du YC visent une structure 'AI-native', où l'IA remplace effectivement des rôles humains. Leur facture de token élevée est compensée par une réduction drastique des effectifs, ce qui rend le modèle économiquement viable.

QQue signifie la phrase de Tom Blomfield : 'Si votre facture d'API ne vous fait pas mal, c'est que vous ne brûlez pas assez de tokens' ?

ADans le contexte des startups AI-native, cette phrase signifie qu'une facture d'API élevée est un signe positif. Elle indique que l'entreprise utilise intensivement l'IA pour automatiser des tâches et remplacer du travail humain coûteux. La douleur de la facture est compensée par des économies bien plus importantes sur les salaires et une productivité radicalement accrue, faisant de la consommation de tokens un investissement stratégique plutôt qu'une simple dépense.

QComment les 'actifs contextuels' redéfinissent-ils la valeur d'une entreprise selon la vision AI-native ?

ADans une entreprise AI-native, la valeur principale ne réside plus uniquement dans le savoir-faire des employés, mais dans les 'actifs contextuels' : la documentation exhaustive, les processus formalisés, les artefacts de décision, et toutes les données rendues lisibles et exploitables par l'IA. Ces actifs sont permanents, transférables et s'améliorent avec le temps, contrairement aux connaissances tacites qui quittent l'entreprise avec les employés. Cela permet de créer une organisation plus résiliente et scalable, où les effectifs humains peuvent être réduits sans perdre le capital intellectuel.

Lectures associées

Trois ans plus tard : Retour sur mon jugement de 2023 concernant ChatGPT

Trois ans après ses prédictions sur ChatGPT en mars 2023, Wang Jianshuo revient sur ses vingt affirmations initiales, évaluées en mai 2026 par des agents IA. Sur les vingt points, la majorité des tendances de fond étaient correctes : l'essor du RAG comme architecture dominante pour l'injection de connaissances, le rôle central de l'interface utilisateur en langage naturel (LUI), l'émergence de protocoles pour un "réseau d'agents", et le rattrapage technologique rapide des modèles chinois. Des erreurs notables portent sur des chiffres précis, comme les 100 billions de paramètres supposés de GPT-4 (en réalité environ 1,8 billion) ou une estimation trop basse des coûts de formation des grands modèles. Certaines prévisions se sont révélées trop absolues ("l'IA ne fera jamais de mathématiques pures") ou ont négligé les disparités (aucune vague de chômage massif, mais un impact sévère sur les jeunes diplômés). L'analyse révèle que les intuitions sur les mécanismes et les directions se sont avérées bien plus fiables que les prédictions numériques ou temporelles, souvent trop optimistes à court terme. La prudence dans les formulations et la reconnaissance des incertitudes se sont montrées précieuses avec le recul. Ce bilan offre des leçons pour les futurs pronostics : privilégier les tendances aux chiffres, anticiper les effets distributifs et accepter que certaines questions demandent plus de trois ans pour être tranchées.

marsbitIl y a 7 h

Trois ans plus tard : Retour sur mon jugement de 2023 concernant ChatGPT

marsbitIl y a 7 h

Trois ans plus tard : un retour sur mes prédictions de 2023 concernant ChatGPT

Trois ans après ses prédictions sur le ChatGPT en mars 2023, Wang Jianshuo revient sur ses 20 affirmations initiales. Évaluées en mai 2026 par des agents IA, la plupart de ses intuitions sur les grandes tendances se sont révélées justes : le RAG est devenu l'architecture standard pour intégrer des connaissances, l'Interface Utilisateur en Langage Naturel (LUI) a créé un nouvel écosystème, et les modèles chinois ont presque rattrapé les leaders mondiaux. Des concepts comme les réseaux d'agents et la nature limitée du test de Turing se sont également matérialisés. Cependant, les prévisions quantitatives et les affirmations trop absolues ont souvent échoué. Le paramétrage supposé du GPT-4 (100T) était inexact, et les coûts de développement des modèles ont dépassé les estimations. Il a sous-estimé la vitesse de personnalisation des IA et l'impact distribué sur l'emploi des jeunes. La capture de valeur a surtout bénéficié à la couche matérielle (comme Nvidia), et non aux seules applications. Les leçons clés sont que les mécanismes et les directions sont plus fiables que les chiffres précis, que l'optimisme à court terme doit être tempéré, et que les nuances ("peut-être", "pour l'instant") rendent les prédictions plus robustes. Cette rétrospective souligne l'importance de distinguer les tendances confirmées des questions toujours ouvertes.

链捕手Il y a 9 h

Trois ans plus tard : un retour sur mes prédictions de 2023 concernant ChatGPT

链捕手Il y a 9 h

Du Token à la main-d'œuvre machine : l'IA passe d'outil à « travailleur »

Alors que l'IA écrit du code, traite des tickets clients et révise des documents juridiques, elle ne se contente plus d'être un outil mais devient une source directe de travail. La commercialisation de l'IA évolue ainsi d'un marché de « jetons » (tokens) ou d'heures de GPU vers un nouveau marché : celui de la « main-d'œuvre machine ». Dans ce marché, le jeton n'est qu'une unité de mesure, le GPU un intrant, et le modèle un outil de production. L'objet véritablement tarifé et échangé est le travail économique accompli directement par le logiciel. Le mécanisme de prix de l'IA devrait évoluer des jetons bruts vers des capacités de modèles standardisées, puis vers une main-d'œuvre sectorielle, et enfin vers un marché de résultats programmables. À l'avenir, les entreprises pourraient ne plus se soucier du modèle ou du GPU spécifique utilisé, mais uniquement du fait que la tâche soit livrée dans des délais, avec un taux de précision, une fiabilité et un coût conformes aux standards. Ce changement ne signifie pas un simple remplacement du travail humain. Alors que la machine assume des tâches standardisées et vérifiables, le rôle humain pourrait se déplacer vers la supervision, la responsabilité finale, la gestion du contexte et les jugements critiques. Dans certains cas, les 1% de jugement humain final pourraient gagner en valeur, car ils permettent de débloquer les 99% d'automatisation à grande échelle. Le marché évolue donc vers une couche où le « travail » lui-même devient l'unité stable, standardisée, vérifiable et négociable. La prochaine phase de concurrence ne portera pas seulement sur la puissance des modèles ou le prix du calcul, mais sur la capacité à standardiser, vérifier et tarifer le « travail » accompli, faisant de la main-d'œuvre machine une nouvelle ressource productive que l'on peut acheter, facturer et échanger.

marsbitIl y a 10 h

Du Token à la main-d'œuvre machine : l'IA passe d'outil à « travailleur »

marsbitIl y a 10 h

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

Dans un article intitulé "La réduction de 99% du prix de MiMo de Xiaomi n'est pas du marketing ! Luo Fuli répond aux détracteurs sur X", Luo Fuli, responsable de MiMo, a publié un billet de blog technique de 5000 mots pour expliquer la baisse drastique des prix de l'API MiMo-V2.5. Contrairement aux interprétations initiales d'une guerre des prix ou d'une stratégie de perte, cette réduction de 99% concerne spécifiquement le coût des entrées en cache ("Input Cache Hit"), c'est-à-dire la relecture du contexte historique dans les conversations longues. Le billet détaille six piliers d'ingénierie ayant permis cette réduction : 1. **Architecture Hybride SWA** : Réduction du volume de la mémoire cache (KVCache) à 1/7 grâce à une attention par fenêtre glissante sur 60 des 70 couches du modèle. 2. **Gestion en double pool** : Allocation efficace de la mémoire pour matérialiser les gains théoriques du SWA, multipliant par 5 le nombre d'utilisateurs simultanés par GPU. 3. **Cache de préfixe optimisé** : Augmentation du taux de réussite du cache à 93-95% en moyenne, évitant de recalculer les contextes répétés. 4. **Système de cache distribué GCache** : Stockage des données sur les SSD des machines GPU existantes, réduisant les coûts de stockage additionnels à zéro. 5. **Système de routage LLM-Router** : Optimisation de l'acheminement des requêtes pour maximiser l'utilisation du cache et améliorer les performances. 6. **Prédiction Multi-Token (MTP)** : Accélération de la génération des réponses du modèle, réduisant également les coûts de sortie. Cette chaîne d'optimisations systémiques a réduit le temps GPU par requête d'un ordre de grandeur, permettant une baisse de prix de 99% tout en maintenant une marge positive. Luo Fuli souligne qu'il s'agit d'un accomplissement d'ingénierie validé en production, et non d'une simple manœuvre marketing, offrant une référence pour réduire les coûts dans le secteur de l'IA.

marsbitIl y a 12 h

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

marsbitIl y a 12 h

Trading

Spot
Futures
活动图片