Titre original : Token Budget Wars
Auteur original : Jaya Gupta
Traduction et adaptation : Peggy
Note de la rédaction : L'IA en entreprise passe de la question « faut-il l'adopter ? » à celle de « comment justifier son coût ? ».
Ces deux dernières années, de nombreuses entreprises ont poussé leurs employés à utiliser l'IA, davantage pour suivre la tendance technologique et la pression concurrentielle. Mais lorsque le coût de l'inférence de l'IA est passé d'un budget expérimental à une dépense opérationnelle récurrente, les PDG et DAF ont commencé à se poser une question plus pragmatique : quelle valeur l'IA crée-t-elle réellement ? Quel résultat concret obtient-on pour chaque dollar dépensé en tokens ?
C'est précisément le cœur de la « Guerre des budgets de tokens ». Cette guerre ne consiste pas seulement pour les entreprises à vouloir réduire leur facture d'IA, mais à réévaluer quels processus métier méritent plus de puissance de calcul, quelles tâches devraient être confiées à des modèles moins chers, quels flux pourraient être externalisés ou effectués manuellement, et quelles consommations sont purement inefficaces.
L'élément le plus intéressant de l'article est que l'utilisation de l'IA n'est pas synonyme de valeur. À l'ère du SaaS, l'utilisation signifiait généralement que le logiciel était adopté ; mais à l'ère de l'IA, la consommation de tokens indique seulement que « le compteur tourne ». Pour un même flux de travail, le coût peut varier du simple au multiple selon l'incitation, le contexte, le choix du modèle et le nombre de tentatives. Une facture qui augmente peut signifier que l'IA travaille réellement, mais aussi que le système tourne à vide.
Par conséquent, la prochaine étape de l'IA en entreprise ne dépend pas seulement des capacités des modèles, mais aussi de la capacité à corréler le coût des tokens aux résultats métier. La première phase a prouvé que l'IA peut accomplir le travail ; la deuxième phase doit répondre à cette question : ce travail vaut-il réellement d'être payé ?
Voici l'article original :
L'IA en entreprise est passée de « faut-il l'adopter » à « comment l'allouer ».
Au plus haut niveau des entreprises, la nouvelle « monnaie » est votre capacité à quantifier le retour sur investissement de l'IA. Chaque département se voit poser la même question : quelle est votre production ? Quel en est le coût ? Ces deux dernières années, les PDG, en se réveillant le matin pour regarder Jim Cramer sur CNBC (#bearish) tout en voyant les concurrents annoncer des gains de productivité, exigeaient que toute l'entreprise utilise l'IA. Ce qui crée maintenant une réelle pression, c'est la question suivante : prouvez-moi cette valeur.
Claude a été publié en novembre 2025, alors que la plupart des entreprises avaient déjà verrouillé leur budget annuel 2026. Au premier trimestre, l'utilisation réelle avait déjà largement dépassé les prévisions initiales. Le coût de l'inférence n'est plus un simple poste budgétaire d'expérimentation, mais est devenu un coût opérationnel récurrent. Une nouvelle question a alors émergé : où l'IA crée-t-elle réellement de la valeur ?
Cette question est difficile à répondre car l'utilité des tokens n'est pas quantifiée. La facture ne vous dit pas si cette dépense remplace de la main-d'œuvre, génère des revenus, réduit des risques, accélère des processus, ou si c'est juste un groupe d'ingénieurs qui « farme » frénétiquement des tokens pour les classements (#metamates). Lorsque la dépense ne s'élève qu'à quelques centaines de milliers de dollars, cela ressemble encore à une expérience. Mais au-delà d'un certain seuil, par exemple sept chiffres, cela devient une infrastructure. Les écarts techniques commencent à avoir un impact matériel sur le compte de résultat : pour un même flux de travail, avec les mêmes entrées, le coût en tokens de deux exécutions peut varier d'un facteur 5 à 10, sans qu'aucun problème apparent n'explique cette différence. À l'échelle expérimentale, cette volatilité est déjà coûteuse ; mais à l'échelle infrastructurelle, c'est un chiffre que le DAF doit expliquer au PDG.
On peut l'appeler « l'utilité marginale du token » : la valeur commerciale créée pour chaque dollar supplémentaire dépensé en coût d'inférence. C'est le chiffre qui compte vraiment dans la phase de passage à l'échelle, et que la plupart des entreprises ne voient pas actuellement.
La question en conseil d'administration passe de « l'IA est-elle utile ? » à « où l'IA crée-t-elle réellement un effet de levier ? ». C'est pourquoi la soi-disant guerre des budgets de tokens est essentiellement une lutte pour le pouvoir d'allocation des tokens.
Et la lutte pour la propriété des tokens s'intensifie rapidement car elle rencontre un réflexe de management vieux de trente ans : une grande équipe signifie un grand poste, un large périmètre de responsabilités et plus de pouvoir. Par le passé, le signe visible du succès des cadres supérieurs était la taille de l'équipe qu'ils géraient – leurs subordonnés directs, indirects et le nombre total de personnes dans l'organigramme.
Mais lorsque l'intelligence devient une ressource rare, le nouveau signe devient : combien d'intelligence pouvez-vous mobiliser ?
Les dépenses d'IA sont essentiellement en concurrence avec les coûts de main-d'œuvre.
La plupart des demandes de budget IA sont essentiellement l'une de ces trois propositions : remplacer une main-d'œuvre externalisée, remplacer une main-d'œuvre interne, ou créer de nouveaux revenus.
Un employé a un salaire. Un contrat de BPO (Business Process Outsourcing) a un prix à la transaction, à la réclamation, à la facture ou à l'examen. Les humains comprennent ces unités de mesure. Mais le coût de l'inférence est plus complexe, car le coût final d'une tâche dépend de la manière dont le système l'exécute. Une réclamation nécessitant trois tentatives, une correction manuelle et l'appel à un modèle de pointe peut coûter plus cher que la main-d'œuvre externalisée qu'elle était censée remplacer. C'est pourquoi la discussion évolue vers : quel est le coût pour obtenir un résultat ? Par exemple, le coût par ticket résolu, par réclamation traitée, par contrat examiné, par facture finalisée, par poste évité, par client fidélisé, ou par dollar de revenu converti.
Les dirigeants ont réalisé que le BPO est l'endroit le plus facile pour établir un référentiel, car ce travail est déjà facturé à l'« unité accomplie ». En comparaison, la comparaison entre employés internes et IA est bien plus difficile, car un employé fait beaucoup de choses dans une journée, y compris scroller TikTok à la pause déjeuner ; les gains de productivité se traduisent souvent par des recrutements évités ou des capacités libérées de manière diffuse ; et les managers résistent à réduire les effectifs simplement sur la base d'une automatisation partielle. Le BPO fournit une ligne de référence quantifiable pour les équipes métier.
Cela diffère de la logique du SaaS. Le SaaS avait habitué les entreprises à considérer l'utilisation comme un indicateur indirect de la valeur.
Mais l'IA bouleverse cela. La quantité de ressources d'inférence consommées par un même flux de travail peut varier énormément en fonction de l'incitation, du contexte récupéré, du modèle choisi, des outils appelés, du nombre de tentatives, et selon qu'un agent se bloque ou non. L'unité sur la facture – le token – est stable, mais le volume de travail qu'elle représente ne l'est pas.
Pour être plus précis : le signal et le bruit utilisent la même unité de mesure. Une facture de tokens en hausse peut signifier qu'un travail réel est accompli ; mais cela peut aussi signifier que la puissance de calcul est gaspillée sur de mauvaises incitations, des contextes non pertinents, des appels d'outils inutiles, des raisonnements redondants ou des modèles surdimensionnés. Deux entreprises peuvent avoir des factures de tokens identiques, mais des activités sous-jacentes radicalement différentes : l'une convertit l'inférence en résultats, l'autre paie pour des tâtonnements inefficaces, et ces deux situations se ressemblent parfaitement sur les lignes de facturation.
L'utilisation du SaaS vous dit : le logiciel a été adopté. L'utilisation de l'IA vous dit seulement : le compteur tourne. Elle ne vous dit pas si l'entreprise avance réellement.
Pourquoi l'utilité marginale du token est-elle difficile à percevoir ?
Il y a trois raisons principales.
La première est la longue traîne des nouvelles tentatives. Si la probabilité qu'un agent accomplisse correctement un flux de travail du premier coup est p, alors la consommation de tokens attendue par flux de travail résolu grossira approximativement selon T/p, où T est le coût de base. Si le taux de réussite passe de 90 % à 70 %, le coût effectif par problème résolu augmentera d'environ 28 %, et non de 20 %, car les échecs ont un effet composé. Dans les flux de travail d'entreprise, les entrées sont souvent désordonnées et les cas particuliers importants. L'échec ne réduit pas seulement la précision, il modifie aussi l'équation économique.
La deuxième est la dilution du contexte. Pour les opérations qui reposent fortement sur les mécanismes d'attention, le coût de l'inférence augmente approximativement selon O(n²) avec la longueur du contexte. Ainsi, doubler la longueur du contexte multiplie approximativement le coût d'inférence par quatre. Tout le monde souhaite que le modèle ait assez d'informations, donc les systèmes ont tendance à en fournir trop : là où cinq documents suffiraient, la recherche en récupère cinquante ; le connecteur importe tout le fil d'e-mails ; l'agent continue à fonctionner avec un historique de conversation obsolète.
La troisième est l'aiguillage. Quand une équipe ne sait pas quel modèle est « assez bon », par défaut, elle utilise le plus puissant. Une tâche de classification simple peut être exécutée sur le même modèle que celui utilisé pour un raisonnement complexe. Quand le nombre d'appels atteint des millions, confier les tâches simples à un petit modèle ou toutes les tâches à un modèle de pointe fait souvent la différence entre une facture contrôlable et un problème qui remonte au conseil d'administration.
Les secteurs non informatiques ressentiront cette douleur sous forme de « transformation ». Les entreprises de logiciels verront ce problème en premier, car le travail à optimiser est déjà largement instrumenté. Les équipes d'ingénierie ont des indicateurs comme les PR, les commits, les déploiements, les incidents, le lead time, le MTTR, et ces indicateurs sont liés au produit. Bien qu'imparfaits, ce type de travail est plus facile à mesurer.
Les entreprises non informatiques ressentiront ce problème plus profondément, car leur travail est opérationnel. Par exemple : les réclamations, la souscription, les tickets de support client, les audits de conformité, les anomalies de la chaîne logistique, les litiges de paiement. Ou encore, les entreprises possédant des actifs physiques seront confrontées au même problème. Ces flux de travail étaient traditionnellement mesurés en main-d'œuvre, en délai d'exécution, en respect des SLA et en taux d'erreur, et ils ont souvent des exigences plus strictes, devant résister à un audit et non être seulement corrects en moyenne. L'unité de travail et l'unité de coût ne parlent pas la même langue et ne relèvent pas de la même organisation. L'équipe technique peut voir la consommation de tokens, le département métier peut voir les changements dans les flux, mais pour les connecter, plusieurs équipes doivent d'abord s'accorder sur « ce que l'on mesure vraiment ».
Je pense que les entreprises de logiciels vivront la guerre des budgets de tokens comme un problème de mesure de la productivité, ce qui correspond aux nombreux « licenciements liés à l'IA » survenus précédemment ; tandis que les entreprises non informatiques la vivront comme un problème de transformation.
La couche manquante est l'attribution du token au résultat. Les entreprises ont besoin d'une couche de conversion qui connecte la dépense d'inférence au travail accompli, aux résultats métier générés. Cette couche doit répondre à trois questions : quel est le coût réel de ce flux de travail, incluant les tentatives et corrections ? Dans la trajectoire d'exécution de l'agent, quelles parties sont réellement importantes, lesquelles ne sont que des tâtonnements inefficaces ? Ce travail a-t-il modifié le mode opératoire – par exemple, moins de tickets par agent support, des cycles de réclamation plus courts, un budget BPO réduit, des recrutements reportés ? La couche suivante consiste à attribuer les résultats dans le langage métier. Ne pas simplement dire « ce flux de travail a coûté 2,13 dollars », mais plutôt : traiter ce type de réclamation par un agent est moins cher qu'en BPO, mais si la police exige des documents d'exception supplémentaires, la longue traîne des tentatives détruit la rentabilité.
La mesure deviendra la mémoire. Pour connecter un token à un résultat, les entreprises doivent capturer tout ce qui s'est passé entre les deux : ce que l'agent a vu, ce qu'il a recherché, les outils qu'il a appelés, ce qu'il a ignoré, où il a retenté, quand il a été remplacé par un humain, quelle règle d'exception s'appliquait, quel précédent a joué un rôle, et pourquoi un chemin a réussi alors qu'un autre a échoué. La couche de mesure doit enregistrer la trace des décisions, ce que les entreprises n'ont presque jamais possédé par le passé. Les systèmes d'enregistrement peuvent capturer ce qui s'est passé, mais rarement le pourquoi. Par exemple, un CRM peut vous dire qu'une transaction a été reportée, mais pas le raisonnement non documenté derrière la prévision de vente.
La raison d'une décision est l'un des actifs les plus susceptibles de se dégrader et de disparaître dans une entreprise, car elle existe dans les fils Slack, les chaînes d'e-mails, les réunions d'escalade et la tête des gens. Mais le problème, c'est que les gens partent et les processus changent.
L'IA change cela, car un agent génère une trace. Chaque recherche, appel d'outil, tentative, escalade, correction manuelle et décision finale fait partie du cheminement du contexte à l'action puis au résultat. Au départ, les entreprises captureront ces traces pour justifier les dépenses. Mais une fois capturées, ces traces deviendront plus précieuses que les rapports de coût eux-mêmes, car elles constitueront un enregistrement durable de la manière dont l'organisation prend réellement ses décisions. (Hum, le graphe de contexte, même si j'en ai vraiment assez entendu parler ces derniers temps.)
La couche d'allocation est le véritable prix à gagner. Si l'inférence devient une ressource facturée à la consommation dans le modèle opérationnel du client, alors chaque dollar doit prouver qu'il mérite d'être dépensé. Quels fournisseurs peuvent expliquer quand un token s'est converti en résultat, quand ce n'est pas le cas, et pourquoi ?
Les entreprises ne découvriront pas cela toutes seules. Elles l'achèteront comme une transformation. Les entreprises du Fortune 500 ont déjà vécu ce scénario à plusieurs reprises : attachez vos ceintures, engagez McKinsey, recrutez tous les anciens employés de Palantir sur le marché, et laissez le PDG conduire le changement de haut en bas. L'attribution du token au résultat arrivera de manière similaire aux ERP, aux outils de BI et à la transformation numérique : comme un « projet » soutenu par la direction, accompagné d'une infrastructure sous-jacente, et finissant par devenir la nouvelle source de vérité. Les fondateurs qui réussiront à faire cela constitueront des équipes fondatrices d'un type différent, et ils seront eux-mêmes différents du prototype traditionnel de l'entrepreneur.
Celui qui maîtrise l'attribution du token au résultat pourra prendre les décisions d'allocation : quels flux de travail méritent plus de puissance de calcul, lesquels doivent être limités, lesquels devraient basculer vers des modèles moins chers, lesquels continueront à être faits par des humains, lesquels peuvent remplacer le BPO. Et une fois que vous pouvez prendre ces décisions, vous contrôlez le flux des dépenses d'IA au sein de l'entreprise, et vous obtenez la confiance nécessaire pour allouer cette ressource.
La première phase de l'IA en entreprise a prouvé que les modèles peuvent accomplir le travail. La phase suivante déterminera quelle partie de ce travail vaut réellement d'être payée. Comme l'a dit Charlie Munger : montrez-moi les incitations, et je vous montrerai les résultats.
Lien vers l'article original






