La guerre des budgets de tokens : l'IA en entreprise entre dans « l'ère de la justification des coûts »

marsbitPublié le 2026-05-28Dernière mise à jour le 2026-05-28

Résumé

Guerre des budgets Token : l'IA en entreprise entre dans l'ère de la « comptabilité ». Après une phase d'adoption générale motivée par la concurrence, l'IA en entreprise aborde désormais une étape cruciale : justifier sa valeur et optimiser ses coûts. Les dépenses de « tokens » pour l'inférence, autrefois considérées comme expérimentales, deviennent des coûts opérationnels récurrents et significatifs. La question centrale n'est plus de savoir si l'IA fonctionne, mais où et comment elle crée de la valeur business pour chaque dollar dépensé. Le défi réside dans la difficulté de quantifier l'utilité réelle d'un token. Une facture élevée peut indiquer un travail productif ou, au contraire, du gaspillage dû à des prompts inefficaces, un contexte trop long, des modèles surdimensionnés ou des tentatives de réexécution multiples. Contrairement aux logiciels SaaS où l'utilisation traduit l'adoption, la consommation de tokens en IA signifie seulement que le compteur tourne, sans garantie de résultat. Trois facteurs principaux compliquent l'analyse : la « traîne des réessais » qui amplifie les coûts en cas d'échecs, l'« inflation du contexte » qui fait exploser les coûts de manière quadratique, et un « routage » sous-optimal vers des modèles plus puissants que nécessaire. L'enjeu est donc de mesurer « l'utilité marginale du token » : la valeur commerciale générée par chaque dollar d'inférence supplémentaire. Pour cela, les entreprises doivent créer une couche de traçabilité reliant ...

Titre original : Token Budget Wars

Auteur original : Jaya Gupta

Traduction et adaptation : Peggy

Note de la rédaction : L'IA en entreprise passe de la question « faut-il l'adopter ? » à celle de « comment justifier son coût ? ».

Ces deux dernières années, de nombreuses entreprises ont poussé leurs employés à utiliser l'IA, davantage pour suivre la tendance technologique et la pression concurrentielle. Mais lorsque le coût de l'inférence de l'IA est passé d'un budget expérimental à une dépense opérationnelle récurrente, les PDG et DAF ont commencé à se poser une question plus pragmatique : quelle valeur l'IA crée-t-elle réellement ? Quel résultat concret obtient-on pour chaque dollar dépensé en tokens ?

C'est précisément le cœur de la « Guerre des budgets de tokens ». Cette guerre ne consiste pas seulement pour les entreprises à vouloir réduire leur facture d'IA, mais à réévaluer quels processus métier méritent plus de puissance de calcul, quelles tâches devraient être confiées à des modèles moins chers, quels flux pourraient être externalisés ou effectués manuellement, et quelles consommations sont purement inefficaces.

L'élément le plus intéressant de l'article est que l'utilisation de l'IA n'est pas synonyme de valeur. À l'ère du SaaS, l'utilisation signifiait généralement que le logiciel était adopté ; mais à l'ère de l'IA, la consommation de tokens indique seulement que « le compteur tourne ». Pour un même flux de travail, le coût peut varier du simple au multiple selon l'incitation, le contexte, le choix du modèle et le nombre de tentatives. Une facture qui augmente peut signifier que l'IA travaille réellement, mais aussi que le système tourne à vide.

Par conséquent, la prochaine étape de l'IA en entreprise ne dépend pas seulement des capacités des modèles, mais aussi de la capacité à corréler le coût des tokens aux résultats métier. La première phase a prouvé que l'IA peut accomplir le travail ; la deuxième phase doit répondre à cette question : ce travail vaut-il réellement d'être payé ?

Voici l'article original :

L'IA en entreprise est passée de « faut-il l'adopter » à « comment l'allouer ».

Au plus haut niveau des entreprises, la nouvelle « monnaie » est votre capacité à quantifier le retour sur investissement de l'IA. Chaque département se voit poser la même question : quelle est votre production ? Quel en est le coût ? Ces deux dernières années, les PDG, en se réveillant le matin pour regarder Jim Cramer sur CNBC (#bearish) tout en voyant les concurrents annoncer des gains de productivité, exigeaient que toute l'entreprise utilise l'IA. Ce qui crée maintenant une réelle pression, c'est la question suivante : prouvez-moi cette valeur.

Claude a été publié en novembre 2025, alors que la plupart des entreprises avaient déjà verrouillé leur budget annuel 2026. Au premier trimestre, l'utilisation réelle avait déjà largement dépassé les prévisions initiales. Le coût de l'inférence n'est plus un simple poste budgétaire d'expérimentation, mais est devenu un coût opérationnel récurrent. Une nouvelle question a alors émergé : où l'IA crée-t-elle réellement de la valeur ?

Cette question est difficile à répondre car l'utilité des tokens n'est pas quantifiée. La facture ne vous dit pas si cette dépense remplace de la main-d'œuvre, génère des revenus, réduit des risques, accélère des processus, ou si c'est juste un groupe d'ingénieurs qui « farme » frénétiquement des tokens pour les classements (#metamates). Lorsque la dépense ne s'élève qu'à quelques centaines de milliers de dollars, cela ressemble encore à une expérience. Mais au-delà d'un certain seuil, par exemple sept chiffres, cela devient une infrastructure. Les écarts techniques commencent à avoir un impact matériel sur le compte de résultat : pour un même flux de travail, avec les mêmes entrées, le coût en tokens de deux exécutions peut varier d'un facteur 5 à 10, sans qu'aucun problème apparent n'explique cette différence. À l'échelle expérimentale, cette volatilité est déjà coûteuse ; mais à l'échelle infrastructurelle, c'est un chiffre que le DAF doit expliquer au PDG.

On peut l'appeler « l'utilité marginale du token » : la valeur commerciale créée pour chaque dollar supplémentaire dépensé en coût d'inférence. C'est le chiffre qui compte vraiment dans la phase de passage à l'échelle, et que la plupart des entreprises ne voient pas actuellement.

La question en conseil d'administration passe de « l'IA est-elle utile ? » à « où l'IA crée-t-elle réellement un effet de levier ? ». C'est pourquoi la soi-disant guerre des budgets de tokens est essentiellement une lutte pour le pouvoir d'allocation des tokens.

Et la lutte pour la propriété des tokens s'intensifie rapidement car elle rencontre un réflexe de management vieux de trente ans : une grande équipe signifie un grand poste, un large périmètre de responsabilités et plus de pouvoir. Par le passé, le signe visible du succès des cadres supérieurs était la taille de l'équipe qu'ils géraient – leurs subordonnés directs, indirects et le nombre total de personnes dans l'organigramme.

Mais lorsque l'intelligence devient une ressource rare, le nouveau signe devient : combien d'intelligence pouvez-vous mobiliser ?

Les dépenses d'IA sont essentiellement en concurrence avec les coûts de main-d'œuvre.

La plupart des demandes de budget IA sont essentiellement l'une de ces trois propositions : remplacer une main-d'œuvre externalisée, remplacer une main-d'œuvre interne, ou créer de nouveaux revenus.

Un employé a un salaire. Un contrat de BPO (Business Process Outsourcing) a un prix à la transaction, à la réclamation, à la facture ou à l'examen. Les humains comprennent ces unités de mesure. Mais le coût de l'inférence est plus complexe, car le coût final d'une tâche dépend de la manière dont le système l'exécute. Une réclamation nécessitant trois tentatives, une correction manuelle et l'appel à un modèle de pointe peut coûter plus cher que la main-d'œuvre externalisée qu'elle était censée remplacer. C'est pourquoi la discussion évolue vers : quel est le coût pour obtenir un résultat ? Par exemple, le coût par ticket résolu, par réclamation traitée, par contrat examiné, par facture finalisée, par poste évité, par client fidélisé, ou par dollar de revenu converti.

Les dirigeants ont réalisé que le BPO est l'endroit le plus facile pour établir un référentiel, car ce travail est déjà facturé à l'« unité accomplie ». En comparaison, la comparaison entre employés internes et IA est bien plus difficile, car un employé fait beaucoup de choses dans une journée, y compris scroller TikTok à la pause déjeuner ; les gains de productivité se traduisent souvent par des recrutements évités ou des capacités libérées de manière diffuse ; et les managers résistent à réduire les effectifs simplement sur la base d'une automatisation partielle. Le BPO fournit une ligne de référence quantifiable pour les équipes métier.

Cela diffère de la logique du SaaS. Le SaaS avait habitué les entreprises à considérer l'utilisation comme un indicateur indirect de la valeur.

Mais l'IA bouleverse cela. La quantité de ressources d'inférence consommées par un même flux de travail peut varier énormément en fonction de l'incitation, du contexte récupéré, du modèle choisi, des outils appelés, du nombre de tentatives, et selon qu'un agent se bloque ou non. L'unité sur la facture – le token – est stable, mais le volume de travail qu'elle représente ne l'est pas.

Pour être plus précis : le signal et le bruit utilisent la même unité de mesure. Une facture de tokens en hausse peut signifier qu'un travail réel est accompli ; mais cela peut aussi signifier que la puissance de calcul est gaspillée sur de mauvaises incitations, des contextes non pertinents, des appels d'outils inutiles, des raisonnements redondants ou des modèles surdimensionnés. Deux entreprises peuvent avoir des factures de tokens identiques, mais des activités sous-jacentes radicalement différentes : l'une convertit l'inférence en résultats, l'autre paie pour des tâtonnements inefficaces, et ces deux situations se ressemblent parfaitement sur les lignes de facturation.

L'utilisation du SaaS vous dit : le logiciel a été adopté. L'utilisation de l'IA vous dit seulement : le compteur tourne. Elle ne vous dit pas si l'entreprise avance réellement.

Pourquoi l'utilité marginale du token est-elle difficile à percevoir ?

Il y a trois raisons principales.

La première est la longue traîne des nouvelles tentatives. Si la probabilité qu'un agent accomplisse correctement un flux de travail du premier coup est p, alors la consommation de tokens attendue par flux de travail résolu grossira approximativement selon T/p, où T est le coût de base. Si le taux de réussite passe de 90 % à 70 %, le coût effectif par problème résolu augmentera d'environ 28 %, et non de 20 %, car les échecs ont un effet composé. Dans les flux de travail d'entreprise, les entrées sont souvent désordonnées et les cas particuliers importants. L'échec ne réduit pas seulement la précision, il modifie aussi l'équation économique.

La deuxième est la dilution du contexte. Pour les opérations qui reposent fortement sur les mécanismes d'attention, le coût de l'inférence augmente approximativement selon O(n²) avec la longueur du contexte. Ainsi, doubler la longueur du contexte multiplie approximativement le coût d'inférence par quatre. Tout le monde souhaite que le modèle ait assez d'informations, donc les systèmes ont tendance à en fournir trop : là où cinq documents suffiraient, la recherche en récupère cinquante ; le connecteur importe tout le fil d'e-mails ; l'agent continue à fonctionner avec un historique de conversation obsolète.

La troisième est l'aiguillage. Quand une équipe ne sait pas quel modèle est « assez bon », par défaut, elle utilise le plus puissant. Une tâche de classification simple peut être exécutée sur le même modèle que celui utilisé pour un raisonnement complexe. Quand le nombre d'appels atteint des millions, confier les tâches simples à un petit modèle ou toutes les tâches à un modèle de pointe fait souvent la différence entre une facture contrôlable et un problème qui remonte au conseil d'administration.

Les secteurs non informatiques ressentiront cette douleur sous forme de « transformation ». Les entreprises de logiciels verront ce problème en premier, car le travail à optimiser est déjà largement instrumenté. Les équipes d'ingénierie ont des indicateurs comme les PR, les commits, les déploiements, les incidents, le lead time, le MTTR, et ces indicateurs sont liés au produit. Bien qu'imparfaits, ce type de travail est plus facile à mesurer.

Les entreprises non informatiques ressentiront ce problème plus profondément, car leur travail est opérationnel. Par exemple : les réclamations, la souscription, les tickets de support client, les audits de conformité, les anomalies de la chaîne logistique, les litiges de paiement. Ou encore, les entreprises possédant des actifs physiques seront confrontées au même problème. Ces flux de travail étaient traditionnellement mesurés en main-d'œuvre, en délai d'exécution, en respect des SLA et en taux d'erreur, et ils ont souvent des exigences plus strictes, devant résister à un audit et non être seulement corrects en moyenne. L'unité de travail et l'unité de coût ne parlent pas la même langue et ne relèvent pas de la même organisation. L'équipe technique peut voir la consommation de tokens, le département métier peut voir les changements dans les flux, mais pour les connecter, plusieurs équipes doivent d'abord s'accorder sur « ce que l'on mesure vraiment ».

Je pense que les entreprises de logiciels vivront la guerre des budgets de tokens comme un problème de mesure de la productivité, ce qui correspond aux nombreux « licenciements liés à l'IA » survenus précédemment ; tandis que les entreprises non informatiques la vivront comme un problème de transformation.

La couche manquante est l'attribution du token au résultat. Les entreprises ont besoin d'une couche de conversion qui connecte la dépense d'inférence au travail accompli, aux résultats métier générés. Cette couche doit répondre à trois questions : quel est le coût réel de ce flux de travail, incluant les tentatives et corrections ? Dans la trajectoire d'exécution de l'agent, quelles parties sont réellement importantes, lesquelles ne sont que des tâtonnements inefficaces ? Ce travail a-t-il modifié le mode opératoire – par exemple, moins de tickets par agent support, des cycles de réclamation plus courts, un budget BPO réduit, des recrutements reportés ? La couche suivante consiste à attribuer les résultats dans le langage métier. Ne pas simplement dire « ce flux de travail a coûté 2,13 dollars », mais plutôt : traiter ce type de réclamation par un agent est moins cher qu'en BPO, mais si la police exige des documents d'exception supplémentaires, la longue traîne des tentatives détruit la rentabilité.

La mesure deviendra la mémoire. Pour connecter un token à un résultat, les entreprises doivent capturer tout ce qui s'est passé entre les deux : ce que l'agent a vu, ce qu'il a recherché, les outils qu'il a appelés, ce qu'il a ignoré, où il a retenté, quand il a été remplacé par un humain, quelle règle d'exception s'appliquait, quel précédent a joué un rôle, et pourquoi un chemin a réussi alors qu'un autre a échoué. La couche de mesure doit enregistrer la trace des décisions, ce que les entreprises n'ont presque jamais possédé par le passé. Les systèmes d'enregistrement peuvent capturer ce qui s'est passé, mais rarement le pourquoi. Par exemple, un CRM peut vous dire qu'une transaction a été reportée, mais pas le raisonnement non documenté derrière la prévision de vente.

La raison d'une décision est l'un des actifs les plus susceptibles de se dégrader et de disparaître dans une entreprise, car elle existe dans les fils Slack, les chaînes d'e-mails, les réunions d'escalade et la tête des gens. Mais le problème, c'est que les gens partent et les processus changent.

L'IA change cela, car un agent génère une trace. Chaque recherche, appel d'outil, tentative, escalade, correction manuelle et décision finale fait partie du cheminement du contexte à l'action puis au résultat. Au départ, les entreprises captureront ces traces pour justifier les dépenses. Mais une fois capturées, ces traces deviendront plus précieuses que les rapports de coût eux-mêmes, car elles constitueront un enregistrement durable de la manière dont l'organisation prend réellement ses décisions. (Hum, le graphe de contexte, même si j'en ai vraiment assez entendu parler ces derniers temps.)

La couche d'allocation est le véritable prix à gagner. Si l'inférence devient une ressource facturée à la consommation dans le modèle opérationnel du client, alors chaque dollar doit prouver qu'il mérite d'être dépensé. Quels fournisseurs peuvent expliquer quand un token s'est converti en résultat, quand ce n'est pas le cas, et pourquoi ?

Les entreprises ne découvriront pas cela toutes seules. Elles l'achèteront comme une transformation. Les entreprises du Fortune 500 ont déjà vécu ce scénario à plusieurs reprises : attachez vos ceintures, engagez McKinsey, recrutez tous les anciens employés de Palantir sur le marché, et laissez le PDG conduire le changement de haut en bas. L'attribution du token au résultat arrivera de manière similaire aux ERP, aux outils de BI et à la transformation numérique : comme un « projet » soutenu par la direction, accompagné d'une infrastructure sous-jacente, et finissant par devenir la nouvelle source de vérité. Les fondateurs qui réussiront à faire cela constitueront des équipes fondatrices d'un type différent, et ils seront eux-mêmes différents du prototype traditionnel de l'entrepreneur.

Celui qui maîtrise l'attribution du token au résultat pourra prendre les décisions d'allocation : quels flux de travail méritent plus de puissance de calcul, lesquels doivent être limités, lesquels devraient basculer vers des modèles moins chers, lesquels continueront à être faits par des humains, lesquels peuvent remplacer le BPO. Et une fois que vous pouvez prendre ces décisions, vous contrôlez le flux des dépenses d'IA au sein de l'entreprise, et vous obtenez la confiance nécessaire pour allouer cette ressource.

La première phase de l'IA en entreprise a prouvé que les modèles peuvent accomplir le travail. La phase suivante déterminera quelle partie de ce travail vaut réellement d'être payée. Comme l'a dit Charlie Munger : montrez-moi les incitations, et je vous montrerai les résultats.

Lien vers l'article original

Questions liées

QQuel est le principal défi évoqué dans l'article pour les entreprises qui adoptent l'IA à grande échelle ?

ALe principal défi est de passer de la simple adoption de l'IA à la gestion et à la justification de son coût. Les entreprises doivent maintenant quantifier la valeur créée par chaque dollar dépensé en tokens d'IA, en reliant ces coûts à des résultats commerciaux concrets, et non plus seulement constater l'utilisation.

QQu'est-ce que l'article appelle la 'guerre du budget des tokens' et en quoi consiste-t-elle ?

ALa 'guerre du budget des tokens' désigne la lutte au sein des entreprises pour allouer et justifier les dépenses en tokens d'IA. Elle ne vise pas seulement à réduire la facture, mais à déterminer quels processus métier méritent plus de puissance de calcul, lesquels doivent utiliser des modèles moins chers, lesquels peuvent être externalisés ou faits manuellement, et lesquels représentent une consommation inefficace.

QPourquoi la mesure de l'utilisation de l'IA est-elle un indicateur trompeur de la valeur créée, selon l'article ?

AContrairement aux logiciels SaaS où l'utilisation indique une adoption, la consommation de tokens en IA indique seulement que le 'compteur tourne'. Un même flux de travail peut coûter plusieurs fois plus cher selon la formulation des instructions, le contexte, le modèle choisi et le nombre de tentatives. Une facture élevée peut signifier un travail réel ou un gaspillage de ressources, les deux ayant la même apparence sur la facture.

QQuels sont les trois facteurs principaux qui rendent difficile la vision de 'l'utilité marginale du token' ?

ALes trois facteurs principaux sont : 1) La longue traîne des nouvelles tentatives : les échecs et réessais augmentent les coûts de manière composée. 2) L'inflation du contexte : fournir trop d'informations fait exploser les coûts de manière quadratique. 3) Le routage inefficace : utiliser par défaut le modèle le plus puissant pour des tâches simples, ce qui est très coûteux à grande échelle.

QQuelle est, selon l'article, la prochaine étape cruciale pour la gestion de l'IA en entreprise et quel en sera l'enjeu ?

ALa prochaine étape cruciale est la création d'une 'couche d'attribution' capable de relier les dépenses en tokens aux résultats métier. Celui qui maîtrisera cette attribution pourra décider de l'allocation des ressources IA (quels flux obtenir plus de puissance, quels modèles utiliser, etc.) et contrôler ainsi les dépenses. L'enjeu est de déterminer quels travaux réalisés par l'IA valent véritablement d'être payés.

Lectures associées

Trois ans plus tard : Retour sur mon jugement de 2023 concernant ChatGPT

Trois ans après ses prédictions sur ChatGPT en mars 2023, Wang Jianshuo revient sur ses vingt affirmations initiales, évaluées en mai 2026 par des agents IA. Sur les vingt points, la majorité des tendances de fond étaient correctes : l'essor du RAG comme architecture dominante pour l'injection de connaissances, le rôle central de l'interface utilisateur en langage naturel (LUI), l'émergence de protocoles pour un "réseau d'agents", et le rattrapage technologique rapide des modèles chinois. Des erreurs notables portent sur des chiffres précis, comme les 100 billions de paramètres supposés de GPT-4 (en réalité environ 1,8 billion) ou une estimation trop basse des coûts de formation des grands modèles. Certaines prévisions se sont révélées trop absolues ("l'IA ne fera jamais de mathématiques pures") ou ont négligé les disparités (aucune vague de chômage massif, mais un impact sévère sur les jeunes diplômés). L'analyse révèle que les intuitions sur les mécanismes et les directions se sont avérées bien plus fiables que les prédictions numériques ou temporelles, souvent trop optimistes à court terme. La prudence dans les formulations et la reconnaissance des incertitudes se sont montrées précieuses avec le recul. Ce bilan offre des leçons pour les futurs pronostics : privilégier les tendances aux chiffres, anticiper les effets distributifs et accepter que certaines questions demandent plus de trois ans pour être tranchées.

marsbitIl y a 6 h

Trois ans plus tard : Retour sur mon jugement de 2023 concernant ChatGPT

marsbitIl y a 6 h

Trois ans plus tard : un retour sur mes prédictions de 2023 concernant ChatGPT

Trois ans après ses prédictions sur le ChatGPT en mars 2023, Wang Jianshuo revient sur ses 20 affirmations initiales. Évaluées en mai 2026 par des agents IA, la plupart de ses intuitions sur les grandes tendances se sont révélées justes : le RAG est devenu l'architecture standard pour intégrer des connaissances, l'Interface Utilisateur en Langage Naturel (LUI) a créé un nouvel écosystème, et les modèles chinois ont presque rattrapé les leaders mondiaux. Des concepts comme les réseaux d'agents et la nature limitée du test de Turing se sont également matérialisés. Cependant, les prévisions quantitatives et les affirmations trop absolues ont souvent échoué. Le paramétrage supposé du GPT-4 (100T) était inexact, et les coûts de développement des modèles ont dépassé les estimations. Il a sous-estimé la vitesse de personnalisation des IA et l'impact distribué sur l'emploi des jeunes. La capture de valeur a surtout bénéficié à la couche matérielle (comme Nvidia), et non aux seules applications. Les leçons clés sont que les mécanismes et les directions sont plus fiables que les chiffres précis, que l'optimisme à court terme doit être tempéré, et que les nuances ("peut-être", "pour l'instant") rendent les prédictions plus robustes. Cette rétrospective souligne l'importance de distinguer les tendances confirmées des questions toujours ouvertes.

链捕手Il y a 9 h

Trois ans plus tard : un retour sur mes prédictions de 2023 concernant ChatGPT

链捕手Il y a 9 h

Du Token à la main-d'œuvre machine : l'IA passe d'outil à « travailleur »

Alors que l'IA écrit du code, traite des tickets clients et révise des documents juridiques, elle ne se contente plus d'être un outil mais devient une source directe de travail. La commercialisation de l'IA évolue ainsi d'un marché de « jetons » (tokens) ou d'heures de GPU vers un nouveau marché : celui de la « main-d'œuvre machine ». Dans ce marché, le jeton n'est qu'une unité de mesure, le GPU un intrant, et le modèle un outil de production. L'objet véritablement tarifé et échangé est le travail économique accompli directement par le logiciel. Le mécanisme de prix de l'IA devrait évoluer des jetons bruts vers des capacités de modèles standardisées, puis vers une main-d'œuvre sectorielle, et enfin vers un marché de résultats programmables. À l'avenir, les entreprises pourraient ne plus se soucier du modèle ou du GPU spécifique utilisé, mais uniquement du fait que la tâche soit livrée dans des délais, avec un taux de précision, une fiabilité et un coût conformes aux standards. Ce changement ne signifie pas un simple remplacement du travail humain. Alors que la machine assume des tâches standardisées et vérifiables, le rôle humain pourrait se déplacer vers la supervision, la responsabilité finale, la gestion du contexte et les jugements critiques. Dans certains cas, les 1% de jugement humain final pourraient gagner en valeur, car ils permettent de débloquer les 99% d'automatisation à grande échelle. Le marché évolue donc vers une couche où le « travail » lui-même devient l'unité stable, standardisée, vérifiable et négociable. La prochaine phase de concurrence ne portera pas seulement sur la puissance des modèles ou le prix du calcul, mais sur la capacité à standardiser, vérifier et tarifer le « travail » accompli, faisant de la main-d'œuvre machine une nouvelle ressource productive que l'on peut acheter, facturer et échanger.

marsbitIl y a 10 h

Du Token à la main-d'œuvre machine : l'IA passe d'outil à « travailleur »

marsbitIl y a 10 h

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

Dans un article intitulé "La réduction de 99% du prix de MiMo de Xiaomi n'est pas du marketing ! Luo Fuli répond aux détracteurs sur X", Luo Fuli, responsable de MiMo, a publié un billet de blog technique de 5000 mots pour expliquer la baisse drastique des prix de l'API MiMo-V2.5. Contrairement aux interprétations initiales d'une guerre des prix ou d'une stratégie de perte, cette réduction de 99% concerne spécifiquement le coût des entrées en cache ("Input Cache Hit"), c'est-à-dire la relecture du contexte historique dans les conversations longues. Le billet détaille six piliers d'ingénierie ayant permis cette réduction : 1. **Architecture Hybride SWA** : Réduction du volume de la mémoire cache (KVCache) à 1/7 grâce à une attention par fenêtre glissante sur 60 des 70 couches du modèle. 2. **Gestion en double pool** : Allocation efficace de la mémoire pour matérialiser les gains théoriques du SWA, multipliant par 5 le nombre d'utilisateurs simultanés par GPU. 3. **Cache de préfixe optimisé** : Augmentation du taux de réussite du cache à 93-95% en moyenne, évitant de recalculer les contextes répétés. 4. **Système de cache distribué GCache** : Stockage des données sur les SSD des machines GPU existantes, réduisant les coûts de stockage additionnels à zéro. 5. **Système de routage LLM-Router** : Optimisation de l'acheminement des requêtes pour maximiser l'utilisation du cache et améliorer les performances. 6. **Prédiction Multi-Token (MTP)** : Accélération de la génération des réponses du modèle, réduisant également les coûts de sortie. Cette chaîne d'optimisations systémiques a réduit le temps GPU par requête d'un ordre de grandeur, permettant une baisse de prix de 99% tout en maintenant une marge positive. Luo Fuli souligne qu'il s'agit d'un accomplissement d'ingénierie validé en production, et non d'une simple manœuvre marketing, offrant une référence pour réduire les coûts dans le secteur de l'IA.

marsbitIl y a 12 h

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

marsbitIl y a 12 h

Analyse rétrospective des opérations magistrales de Cathie Wood sur Circle

Cathy Wood (ARK) a réalisé une opération exemplaire sur l'action Circle, démontrant une maîtrise des mouvements de marché à court terme malgré son approche d'investissement habituellement tournée vers le très long terme. Elle a d'abord acquis près de 4,5 millions d'actions au prix d'introduction de 31 dollars, profitant ainsi de l'envolée initiale due à une faible offre flottante et une forte demande. Lorsque le titre a été propulsé à près de 300 dollars en juin 2025, porté par l'adoption du projet de loi sur les stablecoins (GENIUS Act), Wood a systématiquement vendu par tranches environ 1,7 million d'actions à un prix moyen d'environ 210 dollars, réalisant ainsi des plus-values substantielles. Cette décision était motivée à la fois par des règles internes de rééquilibrage de portefeuille et par l'anticipation de l'augmentation future de l'offre d'actions. Par la suite, face à la chute de l'action (jusqu'à -83% depuis son pic), Wood a racheté progressivement sa position initiale à des prix bien inférieurs (entre environ 50 et 130 dollars), portant son portefeuille à nouveau à environ 4,5 millions d'actions fin mars 2026. L'opération illustre trois principes clés : une conviction forte sur le modèle économique à long terme de Circle (stablecoin USDC), une exécution disciplinée par tranches sans chercher à prédire les sommets ou les creux, et le respect strict de règles de gestion des risques limitant le poids d'un titre dans le portefeuille.

marsbitIl y a 16 h

Analyse rétrospective des opérations magistrales de Cathie Wood sur Circle

marsbitIl y a 16 h

Trading

Spot
Futures

Articles tendance

Comment acheter ERA

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Caldera (ERA) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Caldera (ERA).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Caldera (ERA)Après avoir acheté vos Caldera (ERA), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Caldera (ERA)Tradez facilement Caldera (ERA) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

544 vues totalesPublié le 2025.07.17Mis à jour le 2025.07.17

Comment acheter ERA

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de ERA (ERA) sont présentées ci-dessous.

活动图片