Texte | Silicon Quadrant
Lorsque les utilisateurs ne se demanderont plus s'ils doivent augmenter leur forfait mensuel de données, ils devront peut-être commencer à se demander combien de services Token acheter chaque mois.
Les Token sont sur le point d'être vendus par les opérateurs comme des services standardisés, à l'instar du trafic internet, de la bande passante ou des SMS.
Récemment, les trois principaux opérateurs télécoms chinois ont successivement lancé des produits forfaitaires en Token : des abonnements mensuels Token pour les utilisateurs individuels, et des forfaits de puissance de calcul (computing) échelonnés pour les développeurs et les clients professionnels. Ils ont également annoncé avoir intégré des dizaines, voire des centaines de grands modèles sur leurs plateformes, avec un système de « paiement mensuel, accès multi-modèles, réglé sur la facture téléphonique ».
China Telecom a déjà lancé des forfaits Token pour particuliers et entreprises, avec un tarif mensuel minimum de 9.9 yuans pour 10 millions de Token d'utilisation. Des opérateurs régionaux comme Shanghai Mobile et Shanghai Telecom proposent quant à eux des modes de facturation par points de quota ou par Token génériques. Par exemple, Shanghai Mobile offre 400 000 Tokens pour 1 yuan.
Avec les opérateurs qui commencent à vendre des services Token, le coût pour les utilisateurs de changer de grand modèle va considérablement diminuer. Pour les entreprises de grands modèles, cela signifie que la « fidélité des utilisateurs » sera affaiblie, et seule une « concurrence plus acharnée » leur permettra de préserver leur part de marché.
À l'avenir, les fabricants de grands modèles comme Doubao, Qianwen, DeepSeek, etc., devront non seulement rivaliser sur les « prix », mais aussi sur la « qualité des Token par unité d'énergie consommée », et même se tourner vers « des capacités de solutions applicatives à plus forte valeur ajoutée ».
01 Qu'est-ce qu'un service Token ?
Pour comprendre le service Token, il faut d'abord comprendre ce qu'est un Token.
Un ordinateur ne peut pas directement reconnaître du texte, seulement du code binaire (0 et 1). Ainsi, chaque mot, caractère, son ou ponctuation que nous saisissons est converti en code binaire via un mécanisme d'encodage spécifique.
Dans le contexte des grands modèles, le processus commence également par la reconnaissance d'un encodage numérique, et le nombre de bits de cet encodage varie légèrement pour chaque caractère.
Le Token est l'unité de calcul minimale traitée par un grand modèle. L'entrée de l'utilisateur, la mémoire contextuelle et la sortie du modèle sont toutes calculées en Token. Plus l'appel au modèle est complexe, plus le contexte est long, plus la chaîne d'exécution d'un Agent est profonde, plus la consommation de Token est élevée.
Typiquement : En anglais, un Token correspond environ à 4 lettres. En chinois, en raison de la densité d'information plus élevée des caractères, un sinogramme, un signe de ponctuation ou une locution correspond souvent à 1 ou 2 Tokens.
Étant donné que la réflexion et la production des grands modèles se font Token par Token, l'industrie a donc adopté la facturation et le calcul des quotas d'utilisation en « par million de Tokens (Per Million Tokens) » ou en « points de quota ».
Actuellement, les entreprises de grands modèles facturent les Token de manière progressive. Les utilisateurs ordinaires utilisant des modèles standards comme Doubao ou Qianwen sont gratuits. En revanche, pour une utilisation intensive de niveau professionnel, il est possible d'acheter différents paliers de services API par abonnement ou à la consommation.
Depuis l'année dernière, les opérateurs ont ouvert des « supermarchés de calcul » pour grands modèles. Les éditeurs de modèles sont les « commerçants hébergés », et les opérateurs perçoivent des « frais de plateforme + frais de calcul + frais de canal ». L'utilisateur n'achète pas un « modèle de l'opérateur », mais plutôt : sur la plateforme de l'opérateur, en utilisant la puissance de calcul de l'opérateur, il fait appel à n'importe quel grand modèle, avec une facturation au Token.
En juillet 2025, China Mobile a lancé la plateforme de services de modèles MoMA (Mobile Model Access) ; en avril, China Telecom a lancé la plateforme opérationnelle de services Token Xingchen TokenHub ; en mai, « China Unicom Xingluo » a publié sa plateforme de services Token. Ces plateformes intègrent les principaux grands modèles comme ceux de Baidu, Alibaba, ByteDance (Douyin), DeepSeek, etc., avec une API unifiée, une authentification unifiée et une facturation unifiée.
Les plateformes des opérateurs adaptent en interne de multiples grands modèles. L'utilisateur n'a qu'à changer le nom du modèle (Model ID) pour basculer en douceur.
02 Pourquoi les opérateurs vendent-ils des Token ?
L'explosion des services Token n'est pas un hasard.
Tout d'abord, le modèle de tarification change. À l'ère traditionnelle du cloud computing, les utilisateurs étaient habitués à payer pour la « durée de location des serveurs » ou la « bande passante fixe » (c'est-à-dire le paiement de la puissance de calcul au niveau IaaS), ils achetaient de la vitesse et du temps. Mais avec le développement des grands modèles, les capacités offertes par les différents modèles et les coûts de consommation requis par les différentes tâches varient énormément. Par exemple, un modèle plus puissant coûte plus cher par Token ; un contexte plus long consomme plus de Tokens ; plus la complexité du raisonnement est élevée, plus le coût réel est élevé. La facturation au Token permet d'aligner le « degré d'intelligence consommé par l'utilisateur » et le « coût en puissance de calcul supporté par le fournisseur ».
Ensuite, cela réduit les barrières techniques et le « coût d'expérimentation ». Le développement et le déploiement d'un grand modèle nécessitent des investissements de dizaines de millions, voire de milliards de dollars. Pour la grande majorité des PME et des développeurs individuels, construire son propre modèle n'est pas réaliste. Le service Token découpe et conditionne la capacité d'« Intelligence Artificielle Générale (IAG ou AGI) », permettant aux développeurs de ne pas se soucier du nombre de GPU utilisés en couches basses, mais simplement d'appeler l'API à la demande et de payer les frais de Token.
Enfin, la demande urgente générée par l'explosion de la couche applicative. En entrant dans l'année 2026, les scénarios applicatifs explosent : Agents IA (Intelligents), assistance à la programmation par IA, génération de contenu multimodal, etc. Dans leur fonctionnement quotidien, ces applications nécessitent des interactions fréquentes et massives de « débit » avec les grands modèles sous-jacents. Un outil automatisé d'écriture de code par IA peut consommer des millions de Tokens en une seule nuit. Cette interaction haute fréquence et à grande échelle pousse le marché à fournir des services de forfaits Token plus standardisés, stables et compétitifs en termes de prix.
Au cours des vingt dernières années, le modèle commercial des opérateurs a connu trois changements majeurs dans son unité de mesure centrale.
La première étape était l'ère de la voix, où les opérateurs vendaient des minutes. La deuxième étape était l'ère de l'internet mobile, où ils vendaient des Go de trafic. En entrant dans l'ère de l'IA, les opérateurs commencent à tenter de vendre des Tokens.
Les Token suivent un processus d'évolution similaire à celui du trafic internet. Au départ, ce n'était qu'un indicateur technique ; ensuite, cela est devenu une unité de facturation ; pour finalement évoluer en un produit standardisé.
L'entrée en scène des opérateurs marque le fait que les Token commencent à quitter le champ technique pour entrer dans le système de consommation.
Dans les années à venir, la manière dont les utilisateurs achètent des capacités d'IA pourrait changer fondamentalement : les particuliers achèteront des « forfaits mensuels IA », les entreprises achèteront des « pools de ressources Token », les forfaits internet familiaux comprendront des quotas IA, et les lignes dédiées aux entreprises et gouvernements intégreront des services Agent. Les Token deviendront une ressource de base, comme l'électricité, l'eau ou le trafic internet.
Cela ne signifie cependant pas que les opérateurs remplaceront les fabricants de grands modèles.
03 Quel forfait Token choisir ?
Le service Token doit-il être acheté directement auprès des fabricants natifs de grands modèles, ou sur les plateformes des opérateurs ? Quels sont actuellement les avantages et inconvénients des deux modèles économiques ?
Le premier est le modèle des fabricants natifs de modèles, c'est-à-dire la facturation au million de Tokens. Des entreprises comme OpenAI, Anthropic, DeepSeek, Qianwen, etc., adoptent généralement ce système. Les utilisateurs paient séparément pour les Tokens d'entrée et de sortie. Certains, comme Qianwen, pourraient utiliser un système de pré-achat en début de mois et de règlement en fin de mois.
Le second est l'abonnement mensuel des opérateurs avec un quota de Token. Par exemple, Shanghai Telecom propose un forfait minimum de 9.9 yuans pour 10 millions de Token, avec des options supplémentaires en cas de dépassement. Il est également prévu d'intégrer les droits Token dans l'espace numérique familial « Meihaojia » et de permettre un paiement direct sur la facture téléphonique.
Ce modèle « tout compris en un prix » ou « intégré à la facture » permet aux utilisateurs chinois d'acheter de la puissance de calcul pour grands modèles comme ils achètent un forfait de données.
Alors que le marché international est principalement dominé par la tarification progressive des API des entreprises natives de grands modèles, le marché chinois pousse les services Token vers une ère de « forfaitisation » similaire à celle des forfaits téléphoniques.
Pour l'instant, les deux modèles de tarification ont leurs avantages, car les utilisateurs des forfaits Token se divisent principalement en trois catégories.
La première est celle des développeurs indépendants et des passionnés de technologie (Geeks). Ils utilisent les interfaces API fournies par les différents fabricants pour créer leurs propres applications IA personnalisées, comme des outils de productivité, des extensions de traduction automatique, des bases de connaissances personnelles, etc.
La deuxième catégorie est celle des PME, des start-ups et des éditeurs de logiciels indépendants (ISV) côté B. C'est le cœur de cible principal des services Token. Qu'il s'agisse d'acheter des Token pour les employés afin de les utiliser pour la programmation, de développer des Agents IA pour des secteurs spécifiques, ou d'intégrer des fonctionnalités d'assistance IA dans les systèmes ERP et CRM existants des entreprises, les PME ont besoin de s'abonner aux « forfaits Token version équipe » des fournisseurs de cloud ou des opérateurs.
La troisième catégorie est celle des travailleurs « très dépendants de l'IA » et des familles ordinaires, qui, dans le cadre domestique, ont besoin d'utiliser l'IA de manière intensive pour la rédaction de textes, l'écriture de code, ou pour l'assistance aux devoirs des enfants.
Du point de vue de l'économie de la technologie, le modèle de facturation pure au Token des grands modèles natifs est plus scientifique pour les PME et les start-ups.
Le modèle forfaitaire des opérateurs présente deux avantages : d'une part, les développeurs indépendants ne sont pas liés à un seul grand modèle et peuvent choisir librement parmi plusieurs modèles via les plateformes des opérateurs ; d'autre part, les services Token pourraient atteindre plus rapidement le grand public consommateur. Car la plupart des gens savent ce que représentent 100 Go de trafic, mais ne peuvent pas percevoir ce que signifient 10 millions de Token.
L'utilisation de l'abonnement mensuel par les opérateurs réduit essentiellement la barrière cognitive. L'utilisateur n'a pas besoin de comprendre le Token, il peut simplement commencer avec le forfait standard de 9.9 yuans pour 10 millions de Token pour découvrir ses besoins.
Avec les opérateurs qui commencent à vendre des services Token, les « Doubao et autres » sont sur le point de s'engager dans une concurrence acharnée à trois niveaux.
De la « course aux paramètres » à la « course au rendement énergétique » : Pour les entreprises de grands modèles, elles ne pourront plus poursuivre aveuglément des modèles avec de très grands paramètres et une consommation d'énergie élevée. Elles devront plutôt consacrer leurs efforts à des capacités comme la distillation de modèles (Distillation), la quantification (Quantization) et l'optimisation de l'inférence (Inference Optimization), afin de produire des Token de meilleure qualité avec une consommation d'énergie réduite.
La concurrence sur les prix va s'intensifier davantage. Une fois que les opérateurs auront agrégé des centaines de modèles, le coût de changement pour l'utilisateur diminuera. Si le modèle A augmente ses prix, il pourra être remplacé par le modèle B via la plateforme. Lorsque les différences de capacités entre modèles sont faibles, le prix devient le facteur de concurrence central.
Le centre de profit des entreprises de grands modèles va se déplacer. Vendre uniquement des API génère des profits limités. À l'avenir, le point de profit pourrait se déplacer vers les Agents, les applications sectorielles et les solutions d'entreprise. Le modèle lui-même deviendra progressivement une infrastructure, tandis que la couche applicative deviendra le centre de valeur.
Peut-être qu'un « marché bilatéral » est en train de se former : les opérateurs contrôlent l'accès, les fabricants de modèles contrôlent les capacités.






