Récemment, un nouveau terme a suscité un vaste débat : « Tokenpocalypse » (l'apocalypse des tokens).
L'origine en est la refonte tarifaire de GitHub Copilot par Microsoft. À partir du 1er juin, Copilot est passé entièrement à un modèle de facturation basé sur les tokens, avec des multiplicateurs de coût variant considérablement entre les différents modèles. Le prix par token pour certains modèles est jusqu'à 60 fois supérieur à celui d'autres.
Et les modèles avancés, considérés par les utilisateurs comme « vraiment performants », sont précisément ceux qui ont subi les plus fortes augmentations.
Alors qu'Anthropic, OpenAI et d'autres leaders de l'IA se préparent à entrer en bourse, ces entreprises vont faire face à des pressions de rentabilité accrues, ce qui pourrait forcer davantage de fournisseurs à suivre la tendance à la hausse.
Le coût d'utilisation de l'IA est un problème inévitable pour les entreprises cherchant à étendre leur productivité. La récente tendance du « tokenmaxxing », qui poussait à comparer la consommation de tokens des employés, touche à sa fin à l'approche de la « Tokenpocalypse ».
« La frénésie du tokenmaxxing, de son émergence à son apogée puis à son rejet, n'aura duré que six mois. »
Le dilemme des entreprises
Un développeur d'une grande entreprise décrit un dilemme absurde : depuis longtemps, l'entreprise oblige ses employés à utiliser des outils d'IA ; utiliser trop peu de tokens pouvait conduire à un entretien. Mais avec la nouvelle tarification, utiliser trop de tokens conduit également à un entretien.
Pire encore, l'équipe de Copilot n'a toujours pas mis en ligne la fonctionnalité de « plafond de tokens par employé ». Cela signifie que, dans le nouveau modèle de facturation, un seul employé peut épuiser le budget mensuel en tokens de toute l'entreprise en une seule journée.
« Mon travail ne consiste plus à utiliser un logiciel pour résoudre des problèmes métier », écrit ce développeur, « mon travail est devenu de gérer le problème de la consommation de tokens. »
Les commentaires sont encore plus savoureux. Un utilisateur résume : « La politique de l'entreprise est devenue : 'Utilisez l'IA pour tout, mais faites attention à ne pas en utiliser trop, car si le LLM consomme trop de tokens, vous serez suspendu, puis vous serez critiqué pour ne pas avoir utilisé l'IA le reste du mois.' »
L'accent excessif mis par les entreprises sur la productivité de l'IA peut aussi être une arme à double tranchant.
Un responsable informatique d'un grand cabinet d'avocats s'est même « vanté » lors d'un séminaire sur l'IA : après une panne de leur système d'IA, les avocats ont pratiquement cessé de travailler, car ils en sont devenus dépendants.
« Une personne formée pendant des années admet librement qu'elle ne peut plus travailler sans une boîte de dialogue d'IA ? Je serais tellement gêné que je commencerais à remettre en question ma carrière. »
Le dépassement budgétaire d'Uber : un microcosme du secteur
Aujourd'hui, la plupart des modèles d'IA proposent des forfaits d'utilisation, mais les problèmes de contrôle budgétaire des entreprises s'aggravent avec la tendance à la facturation progressive des tokens.
Uber a parcouru un cycle complet en un mois et demi : d'abord la découverte que « le budget IA brûlait bien plus vite que prévu », suivie de la mise en place urgente de plafonds d'utilisation et de restrictions pour les employés.
« Imaginez qu'une entreprise comme Uber, qui utilise massivement l'IA, atteigne ses limites aussi rapidement », a-t-on déclaré dans un podcast de TechCrunch. « La question est : les laboratoires d'IA pourront-ils réduire les coûts pour les aligner sur la volonté de payer des clients ? »
Un fait peu connu : lorsque ChatGPT Plus a été initialement tarifé à 20 dollars par mois, il n'y avait pas de réflexion stratégique derrière, « c'était juste un chiffre sorti au hasard ». Tout le secteur en paie encore les conséquences.
« Votre travail ne sera pas remplacé par l'IA, mais votre budget pourrait l'être »
Sur Reddit, on trouve d'autres détails révélateurs. Quelqu'un a créé dans son entreprise un tableau de bord de suivi des coûts AWS Bedrock, affichant en temps réel sur CloudWatch les dépenses pour chaque modèle et chaque token (y compris les tokens de cache), « pour que les développeurs et la finance voient l'argent brûler ensemble ». La réaction dans les commentaires : « Félicitations, vous venez de leur fournir un nouvel indicateur KPI. »
Une autre grande entreprise a déjà connu un resserrement similaire : une fois les quotas d'IA épuisés, tout le monde a été rétrogradé de force vers GPT-4.2, perdant même l'intégration VSCode.
Un observateur extérieur au secteur technologique exprime ce que beaucoup pensent : « Toute cette histoire consomme tellement d'énergie mentale et d'heures de travail qu'elle affecte déjà la livraison du travail qui rapporte vraiment de l'argent à l'entreprise. »
Alors que le secteur tout entier est encore plongé dans le récit « l'IA va tout remplacer », une question plus réaliste émerge : la facture de la puissance de calcul, quelqu'un devra bien la payer. Et la « Tokenpocalypse » n'est peut-être que le début de ce règlement de comptes.












