Quand le Token coûte plus cher que l'homme, le « récit de l'IA » rencontre des difficultés

marsbitPublié le 2026-05-29Dernière mise à jour le 2026-05-29

Résumé

**Résumé** La rentabilité des investissements en IA générative est sévèrement mise en doute, alors que les coûts liés aux tokens explosent sans que leur valeur commerciale tangible n'apparaisse. Des entreprises comme Uber constatent des niveaux de consommation « choquants » sans amélioration produit claire, tandis que Microsoft réduit ses licences face à des factures jugées insoutenables. Des données révèlent un problème systémique : une étude montre que seulement 18 cents sur chaque dollar dépensé en tokens génèrent de la valeur pour l'utilisateur final, le reste étant absorbé par la correction d'erreurs ou des frictions internes. Parallèlement, le prix des tokens a fortement augmenté. Le débat est polarisé. Les optimistes voient une transition douloureuse mais nécessaire, anticipant une explosion de la demande et une amélioration des indicateurs de rentabilité. Les pessimistes, comme des analystes de Goldman Sachs, soulignent une structure économique déformée où la valeur profite presque exclusivement aux fabricants de semi-conducteurs (comme Nvidia), tandis que les géants du cloud s'endettent lourdement pour financer l'infrastructure. Une inquiétude majeure réside dans la structure de financement circulaire entre les laboratoires d'IA (OpenAI, Anthropic) et les fournisseurs de cloud (Microsoft, Google...). Ces derniers investissent dans les labos via des crédits cloud, qui sont ensuite dépensés en services de calcul, alimentant ainsi leurs propres revenus. La pérennité...

Rédigé par : Bao Yilong

Source : Wall Street News

La rationalité des dépenses en IA des entreprises est soumise à une épreuve rigoureuse : la consommation de tokens continue d'augmenter, mais la valeur commerciale quantifiable reste difficile à trouver.

Le 22 mai, Andrew Macdonald, directeur des opérations d'Uber, société d'une capitalisation boursière de plus de 2000 milliards de dollars, a déclaré publiquement dans un podcast qu'entre l'augmentation de la consommation de tokens et l'amélioration substantielle des produits, « cette ligne n'existe pas encore ».

Macdonald a souligné qu'il était de plus en plus difficile pour les entreprises de justifier les dépenses en IA en constante augmentation. Il a même inventé un terme pour décrire le phénomène de gaspillage au sein des équipes d'ingénierie : « tokenmaxxing » (maximisation des tokens).

Mi-mai, Microsoft, invoquant que la facturation par tokens était « insoutenable », a commencé à réduire les licences internes de Claude Code.

La combinaison de ces deux événements oblige le marché à considérer sérieusement une variable précédemment négligée. La tokenomie, c'est-à-dire l'économie unitaire de la consommation de tokens à l'échelle des entreprises, est passée d'une question marginale à un pilier central du débat sur l'investissement en IA.

Cinq ensembles de données, une nouvelle image

Depuis avril, plusieurs ensembles de données se sont succédé, dessinant ensemble une image alarmante.

En avril de cette année, le directeur technique d'Uber a déclaré publiquement que la société avait épuisé son budget annuel pour Claude Code en quatre mois.

Parmi 5000 ingénieurs, le taux d'utilisation mensuel se situe entre 84% et 95%, avec des factures mensuelles par personne allant de 150 à 2000 dollars. Le CTO lui-même aurait consommé pour 1200 dollars de tokens lors d'une démonstration interne de deux heures.

Macdonald a décrit avoir été « littéralement abasourdi » en apprenant ce chiffre.

Côté Microsoft, selon le bulletin d'information Notepad de Tom Warren de The Verge, Claude Code est rapidement devenu populaire parmi les ingénieurs internes de Microsoft. Cependant, le modèle de facturation basé sur les tokens rend les dépenses à grande échelle insoutenables, et Microsoft a immédiatement commencé à réduire les licences concernées.

GitHub a annoncé qu'à partir du 1er juin, tous les plans Copilot passeraient d'un abonnement fixe à une facturation à l'usage.

Le post de discussion officiel a recueilli près de 900 votes négatifs, car des calculs d'utilisateurs montrent qu'une session de programmation avec un agent intelligent consomme généralement entre 30 et 40 dollars, ce qui signifie qu'un forfait mensuel de 10 dollars serait épuisé en une seule utilisation.

La plateforme de productivité des développeurs Entelligence.AI, après avoir agrégé les données de 2444 entreprises, a constaté que :

  • Pour chaque dollar dépensé en tokens d'IA, seuls 18 cents généraient une valeur réelle atteignant les utilisateurs.
  • 44 cents étaient utilisés pour corriger des bugs introduits par l'IA elle-même ; 27 cents allaient à la refonte ; 11 cents étaient consommés par les frictions de revue.

Selon le Bloomberg Silicon Data LLM Token Expenditure Index, le prix des tokens a augmenté d'environ 65% depuis fin février, et les prix des logiciels d'IA aux États-Unis ont grimpé de 20% à 37% sur un an.

Le débat haussier/baissier : un même fait, deux interprétations

Les mêmes données, sous différents cadres d'analyse, conduisent à des conclusions diamétralement opposées.

Les optimistes estiment que la situation actuelle n'est que les douleurs de l'accouchement d'une transformation réussie.

Selon l'analyse de Jim Schneider de Goldman Sachs début mai, d'ici 2030, l'IA agentielle entraînera une multiplication par 24 de la consommation de tokens, atteignant environ 120 trillions de tokens par mois. La marge brute des hyperscalers et des fournisseurs de modèles deviendra positive dans les 3 à 12 prochains mois.

Rich Privorotsky de Goldman Sachs estime quant à lui que le premier trimestre 2026 a peut-être marqué le pic du « tokenmaxxing » comme KPI, l'industrie passant de la recherche de la consommation à une mesure plus saine : le « coût par action efficace ».

Des recherches économiques de JPMorgan ont également révélé un bond dans les nouveaux et mis à jour packages Python sur PyPI début 2026, une tendance qui n'était pas apparue lors du lancement de ChatGPT en 2022, indiquant qu'une réelle amélioration de la productivité était en cours.

Par ailleurs, le ratio cours/bénéfice des « Magnificent 7 » est actuellement d'environ 20 fois les bénéfices futurs, bien inférieur aux 52 fois du pic de la bulle technologique en 2000, aux 67 fois du Japon en 1989 et aux 34 fois de l'ère des « Nifty Fifty ». Selon les standards historiques des bulles, la situation actuelle ne constitue pas une bulle.

La vision baissière a été exposée de manière systématique par Jim Covello, analyste semi-conducteurs de Goldman Sachs, dans un rapport d'avril.

Il a souligné que presque toute la valeur de la chaîne d'approvisionnement en IA est captée par les sociétés de semi-conducteurs, un phénomène sans précédent et insoutenable historiquement. Les sociétés de puces devraient bénéficier lorsque leurs clients en bénéficient. Dans ce cycle, leur prospérité se fait au détriment de la consommation en amont de toute la chaîne industrielle.

Le bénéfice net de Nvidia a été multiplié par environ 20 depuis le lancement de ChatGPT ; les principaux hyperscalers ont épuisé leur trésorerie opérationnelle et se sont tournés vers la dette — l'émission de dette liée aux centres de données en 2025 s'élève à environ 1820 milliards de dollars, doublant par rapport à 2024.

Une étude du MIT Nanda montre que 95% des entreprises investissant dans l'IA générative ont un retour sur investissement nul. Ce découplage peut durer un moment, mais ne peut pas perdurer éternellement.

Les inquiétudes liées à la structure de financement circulaire

Ce débat touche également une dimension plus complexe : la boucle financière entre les hyperscalers et les laboratoires d'IA.

Selon les documents d'entreprise compilés par The Information, OpenAI et Anthropic représentent ensemble plus de la moitié des engagements futurs de services cloud d'environ 2000 milliards de dollars de Microsoft, Oracle, Google et Amazon. Plus précisément :

  • Sur les 627 milliards de dollars de commandes en souffrance de services cloud de Microsoft, 280 milliards sont liés à OpenAI ;
  • Sur les 553 milliards de dollars de pipeline d'activité d'Oracle, 54% (environ 300 milliards) sont promis par OpenAI ;
  • Sur les 467,6 milliards de dollars de Google, Anthropic représente 43% (environ 200 milliards) ;
  • L'exposition correspondante d'Amazon atteint également 51% de son arriéré de 464 milliards.

Cette structure de financement a un caractère circulaire endogène. Les 13 milliards de dollars d'investissement de Microsoft dans OpenAI ont été largement fournis sous forme de crédits Azure, qu'OpenAI utilise pour acheter de la puissance de calcul Azure, que Microsoft comptabilise ensuite en revenus cloud.

Les mêmes hyperscalers sont à la fois des investisseurs en capital dans les laboratoires d'IA et des fournisseurs de services facturant la puissance de calcul.

Cette structure se reflète également dans les données de profit. Alphabet a publié un bénéfice record de 62,6 milliards de dollars au premier trimestre, dont environ 28,7 milliards, près de la moitié, provenaient de la plus-value comptable de la participation dans Anthropic.

Sur les 30,3 milliards de dollars de bénéfice du premier trimestre d'Amazon, 16,8 milliards étaient des gains non réalisés avant impôts sur Anthropic, tandis que son flux de trésorerie disponible, en raison des dépenses d'investissement en centres de données de 44,2 milliards de dollars sur la période, s'effondrait de 95% à 1,2 milliard de dollars.

La soutenabilité de ce système dépend de la capacité des laboratoires d'IA à obtenir un financement externe continu pour honorer leurs engagements cloud, ce qui dépend à son tour de la volonté continue des entreprises clientes à payer des factures de tokens en hausse.

Il est rapporté qu'Anthropic dépense actuellement 3 dollars pour chaque dollar de revenu. Une fois que le rythme du financement ralentira, la crédibilité des prévisions de revenus cloud diminuera, et les multiples d'évaluation des hyperscalers seront également soumis à des pressions de réévaluation.

Cette chaîne transmet dans les deux sens et se brisera également dans les deux sens.

Ce n'est pas 1999, mais le problème est réel

La situation actuelle ne constitue pas une configuration typique de bulle.

En termes de multiples de valorisation, les « Magnificent Seven » s'échangent actuellement à environ 20 fois les bénéfices futurs, bien en deçà des niveaux de 52 fois au pic de la bulle technologique de 2000, de 67 fois au Japon en 1989 ou de 34 fois à l'ère des « Nifty Fifty ».

La technologie de l'IA est réelle. Pour les groupes d'utilisateurs intensifs, les données d'amélioration de la productivité sont vérifiables. Le chiffre d'affaires annualisé d'OpenAI est d'environ 20 milliards de dollars, celui d'Anthropic d'environ 4,3 milliards de dollars. Ces deux laboratoires ne vont pas disparaître.

Aujourd'hui, le coût des tokens (dépenses de calcul) est devenu le facteur déterminant du succès ou de l'échec de l'IA, alors qu'il y a six mois, on ne parlait même pas de ce sujet.

À l'époque, on ne se préoccupait que de savoir si « la technologie fonctionnait ». Maintenant, la réponse est claire : pour un travail spécifique et des personnes spécifiques, la technologie fonctionne bel et bien.

Mais une nouvelle question se pose : l'argent économisé par les entreprises en aval grâce à l'IA peut-il être transmis à temps en amont pour surpasser la fenêtre de valorisation laissée par les marchés financiers aux laboratoires d'IA et aux géants du cloud ?

Les optimistes sur l'IA pensent que tant que la technologie continue de mûrir, le ROI (retour sur investissement) des entreprises deviendra positif dans un délai de 1 à 1,5 an.

Les pessimistes, quant à eux, pensent que davantage de dirigeants, comme Macdonald, se plaindront publiquement du faible retour sur investissement de l'IA et commenceront à réduire les budgets.

Ces deux possibilités se produisent, l'issue est indécise. La seule certitude est que le mensonge passé selon lequel « tant que la consommation de tokens augmente, c'est que la transformation par l'IA réussit » est détruit.

Une consommation élevée de tokens n'égale pas une valeur commerciale. Ces deux bulles doivent finalement être réduites. La facture de l'IA est arrivée à échéance, mais qui va finalement la payer ? Pour l'instant, cela reste une inconnue.

Questions liées

QPourquoi les entreprises comme Uber et Microsoft remettent-elles en question leurs dépenses en IA liées aux tokens ?

ALes entreprises constatent que la consommation de tokens augmente sans amélioration mesurable des produits ou de la productivité. Par exemple, Uber a épuisé son budget annuel pour Claude Code en quatre mois, et Microsoft a réduit ses licences internes en raison de factures de tokens jugées insoutenables. Cela soulève des doutes sur le retour sur investissement de l'IA.

QQuels sont les principaux problèmes identifiés dans l'économie des tokens pour les entreprises ?

ALes problèmes clés incluent : 1) Le coût élevé des tokens (hausse de 65% depuis février). 2) Une faible valeur commerciale tangible : seulement 18 cents de valeur utilisateur par dollar dépensé en tokens. 3) Des dépenses importantes pour corriger les bugs générés par l'IA (44 cents par dollar). 4) La difficulté à justifier des budgets croissants face à un retour sur investissement incertain.

QQuels arguments soutiennent les points de vue 'haussier' (optimiste) et 'baissier' (pessimiste) sur l'avenir de l'IA ?

ALes optimistes (haussiers) citent : une croissance potentielle de 24x de la consommation de tokens d'ici 2030, des signes de gains de productivité réels (comme l'augmentation des packages Python), et des valorisations jugées raisonnables par rapport aux bulles passées. Les pessimistes (baissiers) soulignent : la concentration des profits chez les fabricants de puces (comme NVIDIA), l'endettement massif des géants du cloud pour financer l'IA, et le fait que 95% des entreprises investissant dans l'IA générative auraient un retour nul.

QQuel est le problème structurel lié au financement entre les fournisseurs de cloud et les laboratoires d'IA ?

AIl existe une boucle de financement circulaire : les géants du cloud (Microsoft, Google, etc.) investissent dans des laboratoires d'IA (OpenAI, Anthropic) sous forme de crédits cloud. Les labos utilisent ces crédits pour acheter de la puissance de calcul chez ces mêmes géants, qui enregistrent ces dépenses comme revenus. Cette structure crée une interdépendance fragile : la soutenabilité dépend de la capacité des labos à lever des fonds pour honorer leurs engagements cloud, eux-mêmes basés sur la volonté des entreprises clientes de payer des factures de tokens de plus en plus élevées.

QL'article compare-t-il la situation actuelle de l'IA à la bulle internet de 1999 ? Quelle est sa conclusion ?

ANon, l'article conclut que ce n'est pas une bulle typique comme en 1999. Les arguments sont : 1) Les valorisations des grandes tech sont plus basses (20x les bénéfices futurs contre 52x en 2000). 2) La technologie IA est réelle et apporte des gains de productivité vérifiables pour certains. 3) Le débat porte désormais sur l'économie des tokens et le retour sur investissement concret, et non sur la viabilité de la technologie elle-même. Le vrai enjeu est de savoir si les économies générées en aval pourront rattraper les coûts croissants en amont avant la fin du 'délai de grâce' accordé par les marchés.

Lectures associées

Trois ans plus tard : Retour sur mon jugement de 2023 concernant ChatGPT

Trois ans après ses prédictions sur ChatGPT en mars 2023, Wang Jianshuo revient sur ses vingt affirmations initiales, évaluées en mai 2026 par des agents IA. Sur les vingt points, la majorité des tendances de fond étaient correctes : l'essor du RAG comme architecture dominante pour l'injection de connaissances, le rôle central de l'interface utilisateur en langage naturel (LUI), l'émergence de protocoles pour un "réseau d'agents", et le rattrapage technologique rapide des modèles chinois. Des erreurs notables portent sur des chiffres précis, comme les 100 billions de paramètres supposés de GPT-4 (en réalité environ 1,8 billion) ou une estimation trop basse des coûts de formation des grands modèles. Certaines prévisions se sont révélées trop absolues ("l'IA ne fera jamais de mathématiques pures") ou ont négligé les disparités (aucune vague de chômage massif, mais un impact sévère sur les jeunes diplômés). L'analyse révèle que les intuitions sur les mécanismes et les directions se sont avérées bien plus fiables que les prédictions numériques ou temporelles, souvent trop optimistes à court terme. La prudence dans les formulations et la reconnaissance des incertitudes se sont montrées précieuses avec le recul. Ce bilan offre des leçons pour les futurs pronostics : privilégier les tendances aux chiffres, anticiper les effets distributifs et accepter que certaines questions demandent plus de trois ans pour être tranchées.

marsbitIl y a 7 h

Trois ans plus tard : Retour sur mon jugement de 2023 concernant ChatGPT

marsbitIl y a 7 h

Trois ans plus tard : un retour sur mes prédictions de 2023 concernant ChatGPT

Trois ans après ses prédictions sur le ChatGPT en mars 2023, Wang Jianshuo revient sur ses 20 affirmations initiales. Évaluées en mai 2026 par des agents IA, la plupart de ses intuitions sur les grandes tendances se sont révélées justes : le RAG est devenu l'architecture standard pour intégrer des connaissances, l'Interface Utilisateur en Langage Naturel (LUI) a créé un nouvel écosystème, et les modèles chinois ont presque rattrapé les leaders mondiaux. Des concepts comme les réseaux d'agents et la nature limitée du test de Turing se sont également matérialisés. Cependant, les prévisions quantitatives et les affirmations trop absolues ont souvent échoué. Le paramétrage supposé du GPT-4 (100T) était inexact, et les coûts de développement des modèles ont dépassé les estimations. Il a sous-estimé la vitesse de personnalisation des IA et l'impact distribué sur l'emploi des jeunes. La capture de valeur a surtout bénéficié à la couche matérielle (comme Nvidia), et non aux seules applications. Les leçons clés sont que les mécanismes et les directions sont plus fiables que les chiffres précis, que l'optimisme à court terme doit être tempéré, et que les nuances ("peut-être", "pour l'instant") rendent les prédictions plus robustes. Cette rétrospective souligne l'importance de distinguer les tendances confirmées des questions toujours ouvertes.

链捕手Il y a 10 h

Trois ans plus tard : un retour sur mes prédictions de 2023 concernant ChatGPT

链捕手Il y a 10 h

Du Token à la main-d'œuvre machine : l'IA passe d'outil à « travailleur »

Alors que l'IA écrit du code, traite des tickets clients et révise des documents juridiques, elle ne se contente plus d'être un outil mais devient une source directe de travail. La commercialisation de l'IA évolue ainsi d'un marché de « jetons » (tokens) ou d'heures de GPU vers un nouveau marché : celui de la « main-d'œuvre machine ». Dans ce marché, le jeton n'est qu'une unité de mesure, le GPU un intrant, et le modèle un outil de production. L'objet véritablement tarifé et échangé est le travail économique accompli directement par le logiciel. Le mécanisme de prix de l'IA devrait évoluer des jetons bruts vers des capacités de modèles standardisées, puis vers une main-d'œuvre sectorielle, et enfin vers un marché de résultats programmables. À l'avenir, les entreprises pourraient ne plus se soucier du modèle ou du GPU spécifique utilisé, mais uniquement du fait que la tâche soit livrée dans des délais, avec un taux de précision, une fiabilité et un coût conformes aux standards. Ce changement ne signifie pas un simple remplacement du travail humain. Alors que la machine assume des tâches standardisées et vérifiables, le rôle humain pourrait se déplacer vers la supervision, la responsabilité finale, la gestion du contexte et les jugements critiques. Dans certains cas, les 1% de jugement humain final pourraient gagner en valeur, car ils permettent de débloquer les 99% d'automatisation à grande échelle. Le marché évolue donc vers une couche où le « travail » lui-même devient l'unité stable, standardisée, vérifiable et négociable. La prochaine phase de concurrence ne portera pas seulement sur la puissance des modèles ou le prix du calcul, mais sur la capacité à standardiser, vérifier et tarifer le « travail » accompli, faisant de la main-d'œuvre machine une nouvelle ressource productive que l'on peut acheter, facturer et échanger.

marsbitIl y a 11 h

Du Token à la main-d'œuvre machine : l'IA passe d'outil à « travailleur »

marsbitIl y a 11 h

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

Dans un article intitulé "La réduction de 99% du prix de MiMo de Xiaomi n'est pas du marketing ! Luo Fuli répond aux détracteurs sur X", Luo Fuli, responsable de MiMo, a publié un billet de blog technique de 5000 mots pour expliquer la baisse drastique des prix de l'API MiMo-V2.5. Contrairement aux interprétations initiales d'une guerre des prix ou d'une stratégie de perte, cette réduction de 99% concerne spécifiquement le coût des entrées en cache ("Input Cache Hit"), c'est-à-dire la relecture du contexte historique dans les conversations longues. Le billet détaille six piliers d'ingénierie ayant permis cette réduction : 1. **Architecture Hybride SWA** : Réduction du volume de la mémoire cache (KVCache) à 1/7 grâce à une attention par fenêtre glissante sur 60 des 70 couches du modèle. 2. **Gestion en double pool** : Allocation efficace de la mémoire pour matérialiser les gains théoriques du SWA, multipliant par 5 le nombre d'utilisateurs simultanés par GPU. 3. **Cache de préfixe optimisé** : Augmentation du taux de réussite du cache à 93-95% en moyenne, évitant de recalculer les contextes répétés. 4. **Système de cache distribué GCache** : Stockage des données sur les SSD des machines GPU existantes, réduisant les coûts de stockage additionnels à zéro. 5. **Système de routage LLM-Router** : Optimisation de l'acheminement des requêtes pour maximiser l'utilisation du cache et améliorer les performances. 6. **Prédiction Multi-Token (MTP)** : Accélération de la génération des réponses du modèle, réduisant également les coûts de sortie. Cette chaîne d'optimisations systémiques a réduit le temps GPU par requête d'un ordre de grandeur, permettant une baisse de prix de 99% tout en maintenant une marge positive. Luo Fuli souligne qu'il s'agit d'un accomplissement d'ingénierie validé en production, et non d'une simple manœuvre marketing, offrant une référence pour réduire les coûts dans le secteur de l'IA.

marsbitIl y a 13 h

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

marsbitIl y a 13 h

Trading

Spot
Futures

Articles tendance

Comment acheter PEOPLE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter ConstitutionDAO (PEOPLE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément ConstitutionDAO (PEOPLE).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos ConstitutionDAO (PEOPLE)Après avoir acheté vos ConstitutionDAO (PEOPLE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des ConstitutionDAO (PEOPLE)Tradez facilement ConstitutionDAO (PEOPLE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

544 vues totalesPublié le 2024.12.12Mis à jour le 2025.03.21

Comment acheter PEOPLE

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de PEOPLE (PEOPLE) sont présentées ci-dessous.

活动图片