Votre abonnement payé à Claude, combien les fabricants de modules optiques en perçoivent-ils ?

marsbitPublié le 2026-06-17Dernière mise à jour le 2026-06-17

Résumé

Résumé : Un graphique estimant la répartition des 20 USD mensuels d'un abonnement Claude Pro entre la société de modèles, le cloud, la dépréciation des GPU, l'électricité et la chaîne d'approvisionnement relance le débat sur la valorisation des revenus des applications d'IA. Contrairement aux logiciels SaaS traditionnels à marge élevée, les applications d'IA ont un coût marginal par usage ("inférence") non négligeable, lié à la consommation de calcul, d'électricité et de bande passante. Cette structure de coûts variables remet en question l'assimilation automatique des revenus de l'IA à ceux du SaaS. Actuellement, la croissance de l'utilisation de l'IA profite plus directement aux infrastructures (GPU, HBM, cloud, électricité), dont les revenus sont plus certains et rapidement vérifiables. Pour que les éditeurs de modèles retrouvent des valorisations élevées typiques du logiciel, ils doivent démontrer une amélioration durable de leur marge, prouvant que les gains d'efficacité (optimisation des modèles, cache, puces sur mesure) dépassent la hausse de la consommation et de la complexité des tâches des utilisateurs. Le défi pour les investisseurs est d'évaluer cette dynamique coût-revenu en l'absence de données de marge transparentes pour les principaux acteurs de l'IA.

TL;DR

Un schéma estimatif qui décompose l'abonnement mensuel américain Claude Pro d'environ 20 $ entre l'entreprise de modèles, le cloud/calcul, l'amortissement du GPU, l'électricité et la chaîne d'approvisionnement amène les investisseurs à reconsidérer comment évaluer les revenus des applications d'IA.

Ce schéma ne représente pas les données officielles de partage des revenus d'Anthropic, d'Amazon Web Services ou de NVIDIA, et ne doit pas être considéré comme le bilan réel d'une entreprise. Sa valeur réside dans la mise en lumière d'une question plus fondamentale : quelle partie des frais d'abonnement payés par l'utilisateur pour une application d'IA peut se transformer en marge brute logicielle, comme dans le SaaS traditionnel ?

La vision de valorisation du SaaS traditionnel est claire. Une fois le logiciel développé, la vente d'un compte supplémentaire génère généralement des coûts marginaux faibles ; les entreprises de logiciel purs et matures affichent souvent des marges brutes supérieures à 70%, voire 80%. Les investisseurs acceptent des multiples élevés car les marges bénéficiaires ont le potentiel de s'améliorer avec l'augmentation du chiffre d'affaires.

Le problème des applications d'IA est que chaque requête de l'utilisateur - qu'il s'agisse de poser une question, d'écrire du code, d'analyser un fichier ou d'appeler un agent - consomme du temps GPU, de l'électricité, de la bande passante mémoire et des ressources cloud. En surface, c'est un abonnement fixe, mais en coulisses, il y a une chaîne de coûts qui varie avec l'utilisation. Les utilisateurs légers peuvent être très rentables, tandis que pour les utilisateurs intensifs exécutant des tâches en continu dans les limites de leur forfait ou d'outils associés, les coûts peuvent augmenter rapidement.

Ainsi, l'objectif du schéma de décomposition des 20 $ n'est pas de déterminer précisément combien chaque entreprise prélève, mais de remettre en question l'idée que « les revenus d'une application d'IA sont naturellement équivalents à des revenus SaaS ». Pour justifier une valorisation élevée, une entreprise d'IA doit non seulement prouver que les utilisateurs sont prêts à payer, mais aussi que la marge brute pondérée par le volume d'utilisation peut s'améliorer de manière durable.

Derrière les frais d'abonnement se cache une chaîne de coûts d'inférence

La plus grande différence entre un abonnement à l'IA et un abonnement logiciel classique réside dans le fait que le coût marginal « par utilisation » n'est plus proche de zéro.

Dans le SaaS traditionnel, lorsqu'une équipe ouvre un compte supplémentaire, le fournisseur supporte également des coûts de serveurs, de support client et de bande passante, mais ces coûts n'augmentent généralement pas linéairement avec chaque clic. Les coûts réellement élevés sont ceux de la R&D préalable, des ventes et de l'acquisition de clients. Une fois le produit mis à l'échelle, une part substantielle du revenu supplémentaire peut être conservée.

Les produits de grands modèles sont différents. L'utilisateur saisit une question, le modèle génère une réponse : ce processus s'appelle l'inférence, c'est-à-dire le calcul effectif lorsque le modèle est appelé par l'utilisateur. Le token est l'unité de base pour mesurer la lecture/écriture de texte par le modèle. Plus l'utilisateur pose de questions, plus le contexte est long et plus le contenu généré est complexe, plus la consommation de tokens et de puissance de calcul est importante.

Cela crée une contradiction entre l'abonnement fixe et les coûts variables. L'abonnement mensuel Claude Pro est d'environ 20 $ aux États-Unis, un prix qui peut varier selon la région, les taxes et les ajustements d'Anthropic. L'utilisateur voit un prix fixe, mais l'entreprise de modèles fait face à des comportements d'utilisation très variés. Certains se contentent d'écrire des e-mails et de rechercher des informations, tandis que d'autres traitent de longs documents, exécutent des tâches de codage ou utilisent des processus d'automatisation plus complexes.

Le schéma de décomposition circulant sur le marché tente de rendre cela concret : sur 20 $, une partie revient à l'entreprise de modèles, une autre partie paie les fournisseurs de cloud et de puissance de calcul. Les coûts de calcul incluent l'électricité, l'exploitation-maintenance et l'amortissement des GPU. L'achat des GPU remonte ensuite la chaîne vers NVIDIA, TSMC, les fournisseurs de HBM (mémoire à large bande passante), les fabricants de modules optiques, les ODM et les entreprises liées à l'électricité.

Ici, « l'amortissement du GPU » peut être compris comme le fait que le coût élevé du GPU n'est pas imputé en une fois, mais est réparti progressivement dans le service d'IA selon sa durée d'utilisation, son intensité d'utilisation ou les règles comptables. La répartition réelle est influencée par les limites des forfaits, la proportion d'utilisateurs légers et intensifs, les prix de facturation interne des fournisseurs cloud, les remises sur la capacité réservée, le taux d'utilisation des GPU et la durée d'amortissement. Le coût moyen n'est pas égal au coût marginal.

Ce sur quoi les investisseurs doivent vraiment se concentrer est la tendance : les entreprises d'applications d'IA ne peuvent pas se contenter de divulguer la croissance de leurs revenus, elles doivent aussi expliquer si les coûts de calcul sous-jacents à cette croissance augmentent au même rythme. Si l'expansion du volume d'utilisation est plus rapide que l'amélioration de l'efficacité des modèles, plus les revenus d'abonnement sont élevés, plus la pression sur la marge brute peut devenir évidente. Ce n'est que si l'amélioration de l'efficacité est suffisamment rapide que les entreprises de modèles auront une chance de se rapprocher à nouveau de la structure bénéficiaire des éditeurs de logiciels.

L'infrastructure perçoit d'abord des revenus plus certains

À ce stade, la croissance du volume d'utilisation de l'IA alimente plus directement l'infrastructure que la couche applicative dans son ensemble.

Que l'utilisateur utilise un modèle dans Claude, ChatGPT, Gemini ou un agent interne d'entreprise, l'inférence finit par reposer sur la puissance de calcul, l'électricité, la mémoire et le réseau. La couche applicative peut connaître des changements de produits, mais la consommation de ressources de base est plus rigide. Tant que le volume d'utilisation de l'IA continue d'augmenter, les dépenses en capital cloud, les achats de GPU, la demande en HBM et la consommation électrique des centres de données seront stimulés.

C'est également la raison pour laquelle la chaîne d'infrastructure, avec NVIDIA, TSMC, SK Hynix, etc., continue d'être réévaluée par le marché. La marge brute globale de NVIDIA est restée à un niveau élevé ces dernières années, environ 71,1 % (GAAP) et 71,3 % (non-GAAP) pour l'exercice 2026, et les prévisions pour les trimestres suivants restent élevées. Il convient de noter que certains trimestres peuvent être affectés par des charges spécifiques, et les résultats financiers publics ne permettent pas toujours de décomposer directement la structure réelle de la marge brute des centres de données d'IA, mais le pouvoir de fixation des prix des infrastructures rares est déjà reflété dans les performances.

Le HBM est un maillon typique de cette chaîne. Il ne s'agit pas d'une mémoire ordinaire, mais d'un composant clé des accélérateurs d'IA qui supporte les calculs à haut débit. Avec l'augmentation de la taille des modèles, de la longueur du contexte et des besoins en inférence simultanée, la dépendance des puces d'IA à la mémoire à large bande passante s'accroît. Les estimations de la chaîne d'approvisionnement montrent que la part du HBM dans le coût des nouvelles puces d'IA augmente, ce qui explique aussi pourquoi SK Hynix, Samsung, Micron sont reprixés dans ce cycle d'IA.

L'électricité et les centres de données passent également du statut de coût de fond à celui de thème d'investissement principal. La consommation d'énergie d'une simple requête textuelle n'est peut-être pas énorme, mais les agents complexes, les longs contextes, la génération de code et les tâches multi-tours amplifient la quantité de calcul. Pour les fournisseurs de cloud et les opérateurs de centres de données, l'enjeu n'est pas la consommation d'une requête unique, mais le fait que lorsque des volumes massifs de requêtes d'inférence se produisent en continu, le taux d'utilisation des clusters, le prix de l'électricité, le refroidissement, la capacité des salles de serveurs et l'accès au réseau électrique deviennent tous des facteurs de coût et des goulots d'étranglement.

L'avantage du côté infrastructure est que la validation des performances est plus rapide. Les dépenses en capital liées à l'IA des fournisseurs cloud ont déjà eu lieu, les revenus et la marge brute de NVIDIA apparaissent dans ses résultats, et les commandes et prix des fabricants de HBM se reflètent également plus rapidement dans leurs comptes de résultats. La couche applicative des modèles négocie davantage sur des attentes futures : taux de conversion aux abonnements, taux de pénétration en entreprise, revenus d'API et libération des bénéfices futurs une fois la courbe des coûts descendue.

L'amélioration de l'efficacité reste l'argument central des optimistes

Les investisseurs en logiciel et les optimistes de l'IA ne sont pas sans réplique. Le point central des partisans de l'efficacité est que le coût élevé actuel de l'inférence n'est qu'un phénomène de la phase initiale, et que l'optimisation des modèles, la mise en cache, les petits modèles, les puces propriétaires et un taux d'utilisation des clusters plus élevé feront continuellement baisser le coût unitaire. Si la baisse des coûts est suffisamment rapide, les applications d'IA pourraient encore revenir à la logique de marge brute élevée des logiciels.

Cette objection a des bases réelles. Certains modèles dominants ont vu leur prix unitaire baisser significativement pour des capacités équivalentes ou supérieures. OpenAI a indiqué que le coût par token de GPT-4o mini avait chuté de 99 % par rapport à l'ancien text-davinci-003. Le rythme n'est pas complètement uniforme selon les entreprises, Anthropic récemment a davantage proposé des mises à niveau au même prix et une stratification des modèles, mais la direction de l'industrie reste d'offrir plus de puissance à un coût moindre.

Les entreprises de modèles ont également plusieurs moyens d'améliorer leur économie unitaire. Confier les tâches simples à de petits modèles, réutiliser les requêtes courantes via la mise en cache, dédier les contextes longs et les tâches complexes à des modèles plus puissants. Les fournisseurs de cloud, quant à eux, réduisent le coût unitaire du calcul grâce à des puces propriétaires et à l'ordonnancement des clusters. Google a ses TPU, Microsoft a lancé Maia pour l'inférence, Amazon progresse également avec Trainium et Inferentia.

Si l'on ne considère que le progrès technique, la marge bénéficiaire des applications d'IA a effectivement une marge d'amélioration. Une inférence moins chère, un meilleur routage des modèles, une plus forte capacité de compression peuvent toutes permettre à un même abonnement de 20 $ de supporter un volume d'utilisation plus important. Les utilisateurs légers, les forfaits d'entreprise à prix élevé, la tarification différenciée des API et des limites d'utilisation plus strictes peuvent également améliorer l'économie unitaire globale.

La difficulté réside dans le fait que la baisse des coûts n'est pas la seule variable. Les applications d'IA évoluent du simple chat vers des charges de travail plus lourdes. Autrefois, les utilisateurs se contentaient peut-être de questions-réponses et de reformulation de texte ; aujourd'hui, de plus en plus de demandes proviennent d'agents de code, du traitement de longs documents, de la génération vidéo et multimodale, des processus d'automatisation d'entreprise. Ces scénarios ont une valeur plus élevée, mais aussi une consommation plus élevée. Plus le modèle est utile, plus les utilisateurs sont susceptibles de lui confier des tâches plus complexes et plus longues.

Le désaccord devient ainsi plus concret : la vitesse de baisse du coût de l'inférence peut-elle dépasser la croissance du volume d'utilisation et de la complexité des tâches ? Si le coût unitaire baisse rapidement, mais que la consommation moyenne des utilisateurs augmente encore plus vite, la marge brute pondérée des entreprises de modèles restera sous pression. À l'inverse, si le routage des modèles, la mise en cache, les puces propriétaires et la stratification des prix sont suffisamment efficaces, l'abonnement à l'IA pourrait progressivement se débarrasser de ses caractéristiques de coût élevé actuelles.

Le nombre d'abonnés n'est pas la marge brute

Le schéma de décomposition des 20 $ ne doit pas être interprété comme une fin en soi. Il ressemble davantage à un rappel de valorisation à l'étape actuelle : alors que le marché ne dispose pas encore de données suffisamment transparentes sur la marge brute des entreprises de modèles, les investisseurs doivent appliquer une décote à l'hypothèse selon laquelle « une application d'IA est naturellement égale à du SaaS ».

Pour les entreprises de modèles non cotées comme OpenAI ou Anthropic, les investisseurs externes ont du mal à voir le bilan complet. Les documents de financement, les divulgations des partenaires, la structure des coûts cloud, les prix des forfaits entreprise, la part des revenus d'API et les limites d'utilisation deviennent tous des indices de jugement. Les données vraiment précieuses ne sont pas le nombre d'utilisateurs payants, mais la proportion d'utilisateurs légers et intensifs, la volonté des clients entreprise de payer un prix plus élevé pour une utilisation intensive, l'évolution des coûts de facturation cloud, et la mesure dans laquelle la baisse du coût unitaire de l'inférence se répercute sur la marge brute de l'entreprise.

La validation par la chaîne des sociétés cotées apparaîtra plus rapidement dans les résultats financiers. La marge brute globale et la croissance des revenus des centres de données de NVIDIA, la demande en procédés avancés et en packaging de TSMC, les prix et marges bénéficiaires des fabricants de HBM, l'intensité des dépenses en capital des fournisseurs cloud continueront de refléter si le volume d'utilisation de l'IA se transmet toujours au segment infrastructure. Si ces indicateurs restent solides, tandis que la couche applicative des modèles manque de preuves d'amélioration de la marge brute, le marché continuera d'accorder une prime de valorisation plus certaine à l'infrastructure.

En fin de compte, pour retrouver un ancrage de valorisation plus élevé, les entreprises de modèles devront prouver non seulement que les utilisateurs sont prêts à payer 20 $, mais aussi qu'après une utilisation intensive, ces frais d'abonnement peuvent laisser une marge brute suffisante. Le prochain cycle de divergence sur la valorisation ne portera probablement pas sur les chiffres d'ARR mis en avant, mais sur la possibilité de concilier simultanément les coûts d'inférence, les limites des forfaits et les prix payés par les entreprises.

Questions liées

QQuel est le principal défi de la valorisation des entreprises d'applications d'IA par rapport au modèle SaaS traditionnel ?

ALe principal défi réside dans le coût marginal élevé de l'inférence. Contrairement au SaaS classique où le coût de desservir un utilisateur supplémentaire est faible, chaque requête d'un utilisateur d'IA (question, génération de code, analyse) consomme des ressources GPU, de l'électricité et de la bande passante. Les coûts varient avec l'intensité d'utilisation, ce qui empêche les revenus d'abonnement de se traduire directement en marges élevées et stables typiques du logiciel.

QPourquoi les acteurs de l'infrastructure (comme Nvidia) reçoivent-ils actuellement des revenus considérés comme plus « certains » dans la chaîne de valeur de l'IA ?

ALes acteurs de l'infrastructure bénéficient d'une demande plus directe et inélastique. Quelle que soit l'application d'IA utilisée (Claude, ChatGPT, etc.), l'inférence nécessite toujours des GPU, de la mémoire HBM, de la puissance de calcul et de l'électricité. Cette demande est fondamentalement liée à la croissance du volume d'utilisation de l'IA, ce qui se traduit rapidement par des dépenses d'investissement, des commandes et des résultats financiers visibles, leur conférant ainsi des revenus considérés comme plus prédictibles et certains.

QQuel est l'argument principal des optimistes (« bulls ») concernant la profitabilité future des applications d'IA ?

ALeur argument central est l'amélioration continue de l'efficacité. Ils estiment que les coûts élevés actuels de l'inférence sont temporaires. Les progrès techniques comme l'optimisation des modèles, la mise en cache, l'utilisation de petits modèles pour des tâches simples, les puces sur mesure (comme les TPU de Google) et une meilleure utilisation des clusters devraient réduire considérablement le coût par requête (token). Si cette baisse est suffisamment rapide, la structure de profit des applications d'IA pourrait se rapprocher de celle des logiciels traditionnels.

QPourquoi le simple nombre d'abonnés payants n'est-il pas un indicateur suffisant pour évaluer une entreprise d'application d'IA ?

AParce qu'il ne révèle rien sur la rentabilité sous-jacente. Un utilisateur « léger » (quelques requêtes simples) peut être très rentable, tandis qu'un utilisateur « intensif » (traitement de longs documents, agents de code) peut générer des coûts d'inférence élevés qui grèvent la marge sur son abonnement fixe. Ainsi, la métrique clé n'est pas le nombre d'abonnés, mais le coût moyen pondéré par l'utilisation (Cout par Token/Requête) et la capacité de l'entreprise à gérer le mix d'utilisateurs et la complexité croissante des tâches via une tarification différenciée.

QQuel rôle joue la mémoire HBM (High Bandwidth Memory) dans l'économie de l'IA et pourquoi est-elle cruciale ?

ALa mémoire HBM est un composant essentiel et coûteux des puces d'accélération IA (comme celles de Nvidia). Elle permet un débit de données extrêmement élevé entre le processeur et la mémoire, ce qui est critique pour les calculs parallèles massifs des grands modèles. À mesure que les modèles gagnent en taille et en complexité (contextes plus longs), la demande en HBM augmente, représentant une part croissante du coût des puces IA. Cela fait des fabricants de HBM (SK Hynix, Samsung, Micron) des bénéficiaires clés et directs de l'expansion de l'IA.

Lectures associées

qinbaFrank : Récapitulation et perspectives de la vague de puissance de calcul de l'IA – Des trois grands débats de Nvidia à l'interconnexion optique, l'introduction en bourse de SpaceX, comment les capitaux sont-ils en train de se redéployer ?

Source : Cynthia, Hong Kong Ethereum Community Hub. Invité : qinbaFrank, investisseur en actions américaines et en crypto-marchés secondaires. Lors d'un événement VIP le 8 juin 2026, l'investisseur expérimenté qinbaFrank a partagé son analyse sur la vague de puissance de calcul de l'IA. Il a retracé le parcours du marché depuis 2023, marqué par trois grands débats : sur la nécessité des dépenses d'investissement (2023), sur l'accélération soutenue des dépenses des grandes entreprises technologiques (2024-début 2025), et sur la possible surévaluation de la puissance de calcul (début 2025). Un consensus s'est finalement établi en 2025. Le cadre central de son analyse repose sur le **taux de pénétration** comme clé de l'efficacité commerciale. Contrairement à la bulle Internet de 2000, l'IA bénéficie aujourd'hui d'infrastructures matures (cloud, API) permettant une diffusion et une adoption commerciale beaucoup plus rapides. Le point critique se situe à 10% de pénétration, un seuil déjà dépassé dans les entreprises, signant l'entrée dans une phase de croissance accélérée. La logique commerciale de l'IA diffère de celle d'Internet : elle ne se contente pas de connecter, mais remplace directement le **travail cognitif humain**. Une fois ses capacités dépassant la moyenne humaine, sa valeur commerciale croît de manière exponentielle. L'investissement dans la chaîne d'approvisionnement en puissance de calcul évolue d'une focalisation sur les GPU vers une réévaluation systémique, suivant trois logiques : 1. **Pénurie et tarification** : la demande se propage des GPU à la mémoire (HBM, DRAM), aux CPU pour l'ordonnancement, et enfin à l'alimentation électrique. 2. **Mise à niveau** : les interconnexions optiques (CPO), les réseaux d'alimentation (passage au HVDC 800V) et le packaging avancé (3D) deviennent essentiels pour gagner en efficacité. 3. **Perspective à long terme** : l'informatique en périphérie (edge computing) et l'IA physique (robots, véhicules autonomes) formeront la prochaine courbe de croissance. Le point d'ancrage fondamental pour la poursuite de la tendance est la croissance des **revenus annuels récurrents (ARR) des éditeurs de modèles** et des **revenus cloud** des grands acteurs technologiques. Tant que cette croissance reste soutenue, les dépenses d'investissement et la dynamique de la chaîne logistique restent justifiées. Les ajustements de marché sont alors plus susceptibles d'être des corrections de valorisation (niveau L1/L2) que le renversement d'une tendance structurelle (niveau L3). En conclusion, qinbaFrank considère l'IA non comme une révolution technologique isolée, mais comme une **amélioration fondamentale de la capacité cognitive sous-jacente** de la civilisation, ouvrant la voie à une série de vagues d'innovations (agents, robots, etc.). Le marché suivra une progression en vagues, alternant entre les phases de pénurie, de mise à niveau et de validation commerciale. *Disclaimer : Ce contenu présente les opinions de l'invité et ne constitue pas un conseil en investissement.*

marsbitIl y a 2 h

qinbaFrank : Récapitulation et perspectives de la vague de puissance de calcul de l'IA – Des trois grands débats de Nvidia à l'interconnexion optique, l'introduction en bourse de SpaceX, comment les capitaux sont-ils en train de se redéployer ?

marsbitIl y a 2 h

Un pays qui a miné du Bitcoin pendant 8 ans, construit une banque cryptographique qui lui est propre

Un petit pays de l'Himalaya, le Bhoutan, qui mine du Bitcoin depuis 2018, franchit une nouvelle étape dans l'écosystème crypto avec la création de la DK Bank. Située dans la nouvelle cité spéciale de Gakiling (GMC), cette banque agréée a pour objectif de combler le déficit de services bancaires pour les entreprises du secteur, souvent confrontées à des fermetures de comptes par les institutions traditionnelles. La DK Bank se distingue en offrant un compte unifié permettant de gérer simultanément des devises traditionnelles (9 monnaies fiduciaires) et des actifs numériques comme l'USDT ou l'USDC. Elle propose également des services de garde, de prêts gagés sur Bitcoin et des voies de conversion. Pour y parvenir, la banque a dû relever des défis techniques majeurs, notamment l'intégration de systèmes fonctionnant 24h/24 avec l'infrastructure bancaire classique, et mettre en place une solide vérification des clients, surveillant à la fois les flux financiers hors-chaîne et l'historique des portefeuilles sur la blockchain. Ce projet s'inscrit dans la stratégie plus large du Bhoutan et de la zone administrative spéciale de GMC, qui aspire à devenir un hub financier pour l'Asie du Sud. La cité a adopté un cadre réglementaire inspiré de Singapour et d'Abou Dhabi, offrant une voie accélérée d'agrément pour les entreprises déjà licenciées dans ces juridictions, tout en exigeant une présence commerciale réelle pour bénéficier d'avantages fiscaux. Les responsables soulignent que cette initiative n'est pas une spéculation sur le prix du Bitcoin, mais une diversification dans l'infrastructure blockchain (minage, garde, tokenisation d'actifs réels). Ils voient là une opportunité pour les petites nations de construire une souveraineté financière indépendante des grandes puissances. Alors que la ville de GMC est encore en construction, la DK Bank représente la première pierre de cet ambitieux projet visant à attirer les acteurs de la finance numérique avec des valeurs de stabilité et d'inclusion.

Foresight NewsIl y a 3 h

Un pays qui a miné du Bitcoin pendant 8 ans, construit une banque cryptographique qui lui est propre

Foresight NewsIl y a 3 h

Trading

Spot
Futures
活动图片