Google commence à vendre ses TPU, les géants cherchent à produire des "jetons à bas prix" avec des puces IA

marsbitPublié le 2026-06-24Dernière mise à jour le 2026-06-24

Résumé

Google commence désormais à vendre directement ses puces TPU (Tensor Processing Unit) et ses solutions matérielles de calcul IA aux centres de données tiers et aux clients. Ces puces, conçues spécifiquement pour les opérations mathématiques de tenseurs et de matrices, sont au cœur du fonctionnement des grands modèles d'IA. Auparavant, les TPU n'étaient accessibles que via la location dans les centres de données cloud de Google. Cette stratégie permet à Google de proposer une alternative à l'écosystème NVIDIA (GPU, CUDA), non pas en se positionnant sur la puissance brute, mais sur l'efficacité et la réduction des coûts, notamment pour l'inférence des modèles. L'objectif est de produire des "tokens" à moindre coût, un facteur clé pour démocratiser l'utilisation de l'IA à grande échelle. Google, à l'instar des grands fournisseurs de cloud comme Huawei Cloud et Alibaba Cloud, ne vend pas seulement du matériel. Il propose un écosystème complet intégrant puces, clusters, logiciels et services, transformant la puissance de calcul en une "productivité" directement utilisable. Cela reflète une évolution du marché : la compétition ne porte plus seulement sur la puissance des puces, mais sur la capacité à offrir une "meilleure puissance de calcul" – c'est-à-dire la solution la plus efficace et la plus économique pour des besoins variés. Ainsi, le marché de l'infrastructure IA évolue d'une "guerre des puces" vers une "guerre des systèmes". Si NVIDIA conserve sa position dominante pour...

Il y a quelque temps, Google a annoncé qu'il commençait officiellement à vendre directement ses puces TPU autodéveloppées, ainsi que le matériel de calcul IA associé, aux centres de données tiers et aux clients. Considéré comme "l'arme secrète" de Google dans le domaine de l'IA, les TPU n'étaient auparavant accessibles aux tiers que via la location dans des centres de données cloud. L'industrie pensait même que Google ne vendrait pas ces puces à l'extérieur, mais c'est une bonne nouvelle qui est finalement arrivée en juin de cette année.

Alors, qu'est-ce qu'un "TPU" ? Son nom complet est "Tensor Processing Unit (Unité de traitement des tenseurs)". Contrairement aux CPU et GPU, il s'agit d'une puce spécialement conçue pour les "opérations mathématiques sur matrices et tenseurs" dans le calcul IA, capable de traiter les calculs associés avec une efficacité extrêmement élevée.

Cela semble être une puce auxiliaire ? Cependant, la réalité est différente, car la technologie actuelle des grands modèles d'IA consiste essentiellement en des opérations mathématiques complexes (principalement des multiplications matricielles) sur des données massives. Google a donc fait une chose : combiner des milliers de TPU en un supercalculateur en cluster, puis utiliser des hôtes CPU pour orchestrer (décomposer les tâches, convertir les données), créant ainsi des centres de calcul IA d'une efficacité extrêmement élevée.

Source : Google

C'est aussi pourquoi Gemini peut arracher des utilisateurs à OpenAI et autres entreprises avec des frais d'abonnement plus bas et des quotas d'utilisation plus élevés. Même en regardant uniquement le prix par jeton, Gemini est l'un des représentants des produits IA étrangers ayant un prix bas pour son modèle phare, et un prix pour ses modèles principaux proche de celui d'acteurs chinois comme DeepSeek.

De plus, les TPU sont plus aptes à gérer les requêtes de calcul massives des utilisateurs quotidiens, correspondant en quelque sorte "sur mesure" à l'écosystème IA futur, si bien que le monde extérieur convoitait déjà depuis longtemps ces puces. Après l'annonce du plan de vente, Google a également révélé un accord de 5 milliards de dollars pour construire conjointement avec le célèbre fonds privé Blackstone un grand centre de calcul, d'une capacité provisoire de 500 mégawatts.

Leikeji (ID : leitech) suppose qu'après cette annonce, de nombreuses entreprises, en particulier celles souhaitant construire leurs propres centres de calcul, vont probablement s'adresser à Google pour des devis ou des collaborations. Certains pourraient penser qu'Amazon devrait s'inquiéter, car c'est clairement une concurrence pour ses services cloud. En réalité, ce n'est pas le cas. Celui qui a probablement le plus mal à la tête en ce moment, c'est NVIDIA.

Google porte un coup bas à NVIDIA ?

D'abord, petite question : pourquoi NVIDIA est-elle devenue l'une des entreprises les plus importantes à l'ère de l'IA ? Si votre réponse est seulement "la puissance de calcul des GPU", vous n'avez raison qu'à moitié.

Le véritable point fort de NVIDIA, c'est qu'elle ne se contente plus de vendre des GPU depuis longtemps. CUDA, NVLink, DGX, le réseau InfiniBand, les bibliothèques logicielles IA, l'écosystème développeur, les partenaires serveurs, l'adaptation aux fournisseurs cloud, toutes ces choses constituent ensemble le fossé protecteur de NVIDIA.

Ainsi, lorsque vous achetez et mettez en route une carte de calcul NVIDIA, vous n'achetez pas seulement une carte, mais un ensemble complet d'écosystème IA déjà validé par l'industrie. Pour la plupart des entreprises, l'écosystème CUDA de NVIDIA leur évite de "réinventer la roue", économisant ainsi beaucoup d'efforts et de coûts.

C'est aussi pourquoi de nombreuses entreprises d'IA continuent d'utiliser les GPU NVIDIA même en sachant qu'ils sont chers. Car pendant la période d'explosion de l'IA, le "coût" peut être négligé, le seul critère étant de pouvoir devancer ou rattraper plus vite les concurrents. Cependant, à mesure que les grands modèles d'IA entrent dans une phase de généralisation, ce que tout le monde veut n'est plus seulement la "vitesse". Face à une base d'utilisateurs massive, l'efficacité et le rapport qualité-prix deviennent les nouveaux points clés.

Google a visiblement aussi constaté cela, c'est pourquoi ils ont misé sur les TPU et les ont regroupés en une solution complète. Les puces de cette solution ne visent pas à battre NVIDIA en performance de calcul brute, mais à empaqueter l'expérience accumulée par Google au fil des années dans les puces, les centres de données, les réseaux, le stockage, l'orchestration et l'entraînement de modèles, pour en faire une capacité de service cloud que les entreprises peuvent acheter directement.

C'est là que Google "copie" vraiment NVIDIA. Il ne copie pas la vente de puces, mais la vente de systèmes et d'écosystèmes, transformant une série de matériels en "productivité" que les clients peuvent utiliser, ce qui est très attrayant pour les entreprises souhaitant garder le contrôle de leurs propres centres de calcul.

Alors, NVIDIA doit paniquer ? Pas nécessairement, mais le mal de tête est réel, car même si les cartes de calcul haut de gamme sont rentables, les entreprises ne peuvent pas rester indéfiniment dans un état de "tout acheter sans compter". Elles vont progressivement se tourner vers d'autres puces offrant un meilleur rapport qualité-prix. À ce moment-là, la solution TPU de Google impactera certainement cette partie du marché de NVIDIA.

Cependant, pour toute l'industrie de l'IA, NVIDIA reste actuellement la norme universelle la plus reconnue sur le marché du calcul IA, et la position de l'écosystème CUDA n'est pas facilement ébranlée en une ou deux générations de puces. Surtout dans l'étape d'entraînement des grands modèles, de nombreuses équipes ont accumulé une grande expérience autour de l'écosystème NVIDIA, et changer de plateforme de manière hasardeuse présente des risques non négligeables.

Par exemple, DeepSeek a récemment annoncé que son nouveau modèle pouvait être entraîné avec les puces Huawei Ascend, et cela n'a été possible qu'après une collaboration approfondie entre Huawei et DeepSeek et plusieurs itérations de versions.

Source : Ascend

Mais du point de vue de Google, il n'est pas nécessaire de remplacer NVIDIA dans tous les scénarios. S'il parvient à capter une partie de la clientèle entreprise et à prouver que son efficacité est supérieure à celle d'autres écosystèmes de calcul, il pourra déjà se tailler une part du gâteau sur le marché de l'infrastructure IA.

En particulier dans la phase d'inférence, les serveurs de calcul TPU de Google présentent clairement un avantage. Tout le monde sait que l'utilisation réelle des jetons les consume à une vitesse comparable à l'ouverture d'une vanne. Il y a eu le cas d'Uber qui a brûlé son budget annuel en quatre mois, celui d'une entreprise mystérieuse dépensant 500 millions de dollars en un mois en frais de jetons, et plus récemment, celui de Microsoft, pourtant riche, limitant les autorisations de ses employés et leur ordonnant d'utiliser sa propre puissance de calcul.

On peut dire qu'avec l'augmentation de la fréquence d'utilisation de l'IA dans divers domaines, de plus en plus de cas prouveront que le coût des jetons est la clé de la future compétition en IA. Car celui dont le coût par jeton est plus bas pourra étendre l'IA à davantage de lignes métier, pour s'emparer des utilisateurs et du marché.

La puissance de calcul devient une ressource de base, les opportunités arrivent pour les fournisseurs cloud

Un internaute a fait une analogie très pertinente : entraîner un modèle, c'est comme acheter une voiture, tandis que le service d'inférence, c'est comme l'essence qu'il faut brûler chaque jour. Même les grandes fortunes ne peuvent pas faire tourner toutes leurs voitures au SP98 tous les jours ; la puissance de calcul fournie par Google, c'est comme le SP92. Bien que la puissance soit un peu moindre, la voiture roule quand même, le travail est fait de la même manière, et c'est moins cher.

Il y a quelque temps, Leikeji a écrit un article mentionnant un consensus actuel dans l'industrie : La puissance de calcul IA devient de plus en plus une ressource de base, comme l'électricité, l'eau ou la bande passante.

Et pour les utilisateurs, ils n'ont pas besoin de savoir comment la "puissance de calcul" est produite, mais ils s'intéresseront à son prix comme ils s'intéressent à leurs factures d'eau et d'électricité. Cet "utilisateur" peut être un individu, une entreprise, une ville, voire un pays.

Ainsi, sur le futur marché de l'IA, NVIDIA restera importante, car sans puces hautes performances, tout est impossible. Mais lorsque la demande en puissance de calcul devient une ressource de base à long terme, stable et à grande échelle, le pouvoir de décision se déplacera progressivement vers les fournisseurs de services cloud.

C'est pourquoi les fournisseurs cloud comme Google, Microsoft, Amazon, Alibaba Cloud, Huawei Cloud ne se contentent plus d'être seulement des "revendeurs" de la puissance de calcul GPU de NVIDIA, mais développent tous leurs propres écosystèmes de calcul. Cela ne signifie pas qu'ils ne continueront pas à acheter des GPU NVIDIA, car le marché en a besoin, les clients aussi, et ils peuvent aussi être vendus à bon prix.

Source : Leikeji

Mais en même temps, leur véritable centre de développement se tournera inévitablement vers leur propre écosystème, et c'est ce dont NVIDIA doit se méfier le plus. Après tout, la valorisation actuelle de NVIDIA repose en grande partie sur sa position de "fondation de base de l'IA". Si NVIDIA perd le contrôle du marché des cartes de calcul non haut de gamme, il pourrait progressivement revenir à sa position d'il y a 5 ans sur le marché des cartes graphiques pour jeux : bien qu'au sommet, il n'est pas indispensable.

En fait, si nous ramenons notre perspective en Chine, des changements similaires sont déjà apparus. Auparavant, lorsque nous parlions des cartes de calcul IA chinoises, nous mettions souvent l'accent sur la comparaison des performances de calcul, discutant de l'écart de performance par carte par rapport aux cartes de calcul de pointe.

Cette question est certes importante, mais si l'on se focalise uniquement sur la performance de la puce elle-même, on néglige un autre point clé : Les fournisseurs cloud chinois transforment également les puces, les clusters, les plateformes cloud, les services de modèles et les solutions sectorielles en un système complet de production IA, et c'est là la compétitivité centrale de l'IA chinoise.

Ce n'est pas Leikeji qui le dit, mais c'est ce que font les principaux fournisseurs de services cloud comme Huawei Cloud et Alibaba Cloud. Par exemple, le service cloud Huawei Ascend, bien que ce soient les puces Ascend qui font régulièrement sensation, Huawei propose désormais autour de la puissance de calcul Ascend une chaîne d'outils cloudifiée, des clusters super-nœuds, la migration de modèles, l'optimisation de l'entraînement et de l'inférence, ainsi que des capacités de déploiement sectoriel.

Source : Weibo

De plus, Huawei promeut également cet écosystème de calcul auprès de davantage d'entreprises d'IA chinoises. Outre DeepSeek mentionné précédemment, il y a également Baidu, iFlytek, Zhipu AI, MiniMax et d'autres grands acteurs de l'IA. On peut dire que Huawei a progressivement construit son propre écosystème de calcul. La prochaine étape consiste à embarquer plus de partenaires, puis à conquérir le marché avec des prix de jetons plus bas.

Il en va de même pour Alibaba Cloud. Ils ont lancé en mai de cette année la puce IA d'entraînement et d'inférence intégrées Zhenwu M890, et avant cela, la Zhenwu 810E était déjà largement déployée dans la plateforme de calcul intelligent Lingjun d'Alibaba Cloud. Lors du sommet Alibaba Cloud de cette année, Alibaba Cloud a directement annoncé que les puces IA de la série Zhenwu de Pingtouge avaient atteint un volume cumulé de 560 000 unités expédiées, avec un chiffre d'affaires annualisé franchissant le seuil des 10 milliards de yuans.

On peut dire que dans l'apprentissage de NVIDIA, les fournisseurs de services cloud chinois non seulement avancent plus vite, mais ont aussi commencé plus tôt.

La puissance de calcul la plus forte ? Non, le monde a besoin de la "puissance de calcul optimale"

Bien sûr, NVIDIA ne va pas perdre soudainement sa position centrale à l'ère de l'IA simplement parce que Google commence à vendre des TPU.

Du moins pour longtemps encore, les GPU, CUDA et l'écosystème développeur resteront des standards incontournables pour toute l'industrie de l'IA. Surtout dans les scénarios d'entraînement de grands modèles, de calcul haute performance et de développement d'IA généraliste, NVIDIA reste actuellement le choix le plus mature et le plus reconnu par l'industrie.

Mais le problème, c'est que le marché du calcul IA entre dans une nouvelle phase.

Avant, on se disputait pour savoir "quelle puce était la plus puissante", maintenant, ce qui intéresse vraiment les entreprises devient "qui peut rendre le calcul moins cher". C'est là que les avantages des fournisseurs de services cloud comme Google, Huawei Cloud, Alibaba Cloud commencent à se manifester : ils disposent d'une multitude de clients individuels et entreprises, de données, d'applications et de scénarios, et sont aussi plus habiles à empaqueter divers matériels en un système de productivité directement utilisable.

En d'autres termes, ce qui est vraiment rare à l'ère de l'IA, ce ne sont plus seulement les puces elles-mêmes, mais la capacité systémique à transformer les puces en productivité.

Lorsque la puissance de calcul ressemble de plus en plus à une ressource de base comme l'eau, l'électricité ou la bande passante, l'entreprise qui l'emporte ne sera pas nécessairement celle dont la performance par carte est la plus forte, mais celle qui pourra fournir de manière continue la puissance de calcul IA aux clients à un coût inférieur et avec une efficacité supérieure.

Ainsi, de l'avis de Leikeji, la vente de TPU par Google est en réalité un signal. Il rappelle à toute l'industrie que la concurrence dans les infrastructures IA n'est plus seulement une guerre des puces, mais une guerre des systèmes.

Cet article provient du compte WeChat officiel "Leikeji", auteur : Leikeji

Questions liées

QQu'est-ce que le TPU de Google et en quoi diffère-t-il des CPU et GPU ?

ALe TPU (Tensor Processing Unit) est un processeur développé par Google, conçu spécifiquement pour les opérations mathématiques de type matrice et tenseur, essentielles au calcul de l'IA. Contrairement aux CPU (unités centrales de traitement) et GPU (unités de traitement graphique) qui sont plus polyvalents, le TPU est optimisé pour offrir une efficacité extrêmement élevée dans les calculs d'IA.

QPourquoi Google vend-il désormais ses TPU directement aux clients ?

AGoogle vend maintenant ses TPU directement pour fournir aux entreprises une alternative plus économique et efficace aux puces traditionnelles comme celles de Nvidia. Cela permet aux clients de construire leurs propres centres de calcul d'IA avec des coûts de token inférieurs, améliorant ainsi la rentabilité et l'accessibilité des services d'IA à grande échelle.

QEn quoi la stratégie de Google représente-t-elle une menace pour Nvidia ?

ALa stratégie de Google représente une menace pour Nvidia car elle propose une solution complète (matériel, logiciel, écosystème) axée sur le rapport coût-efficacité, notamment pour l'inférence d'IA. Cela pourrait concurrencer les parts de marché de Nvidia dans les segments où la performance maximale n'est pas critique, mais où la réduction des coûts de token est primordiale.

QQuelle analogie l'article utilise-t-il pour expliquer la différence entre l'entraînement des modèles d'IA et les services d'inférence ?

AL'article utilise l'analogie de l'achat d'une voiture (entraînement du modèle) et du carburant quotidien (services d'inférence). Tout comme on ne peut pas toujours utiliser du carburant premium (98), les entreprises cherchent des solutions d'inférence plus économiques (comme le 92) pour réduire les coûts tout en maintenant des opérations fonctionnelles.

QPourquoi les fournisseurs de services cloud comme Google, Huawei et Alibaba développent-ils leurs propres écosystèmes de calcul d'IA ?

ALes fournisseurs de services cloud développent leurs propres écosystèmes de calcul d'IA pour transformer la puissance de calcul brute en systèmes de productivité complets et économiques. Cela leur permet de réduire la dépendance envers des fournisseurs comme Nvidia, de maîtriser les coûts, et d'offrir des solutions intégrées adaptées aux besoins spécifiques de leurs clients, renforçant ainsi leur compétitivité sur le marché de l'IA en tant que service de base.

Lectures associées

Le fondateur d'IOSG : L'Ethereum n'a pas besoin d'une nouvelle foi technologique, il a besoin d'un compromis à la Musk

Auteur : Jocy, Fondateur d'IOSG L'opinion centrale : Ethereum n'a pas besoin d'une nouvelle foi technologique, mais d'un compromis à la manière d'Elon Musk. L’annonce récente d’ETHLabs, financé par des entités majeures détentrices d’ETH comme BitMine et Lubin, révèle une perte de confiance du marché envers la gouvernance « petite et décentralisée » de l’Ethereum Foundation (EF). Ce n’est pas Vitalik Buterin qui initie ce changement, mais l’écosystème lui-même, signalant un besoin de réorientation. La différence clé entre Musk et Vitalik réside dans leur approche. Musk comprend d’abord les réalités commerciales et s’adapte, tandis que Vitalik part de principes techniques purs en espérant que les applications émergent d’elles-mêmes. Cette dernière méthode a fonctionné par le passé (ICO, DeFi, NFT), mais aujourd’hui, la concurrence est féroce et le temps presse. Ethereum manque cruellement d’une application phare, de type Starlink, et d’une orientation commerciale claire. Cela nécessite un engagement pratique dans le monde réel, pas simplement une feuille de route technique. Le vrai défi n’est pas stratégique, mais organisationnel, comme le souligne la fuite des talents de l’EF. Le nouveau modèle de gouvernance, avec des nœuds indépendants comme ETHLabs, tente de décentraliser la prise de décision. Cependant, distribuer les responsabilités est plus facile que de maintenir une cohésion et une direction communes. Cette cohésion ne peut venir que de la valeur partagée de l’ETH en tant qu’actif de référence, mais elle nécessite d’abord un récit réaliste et convaincant pour l’écosystème. Par ailleurs, l’indépendance déclarée de ces nouvelles structures reste à prouver dans la pratique, car les financeurs et les bénéficiaires sont souvent les mêmes acteurs. La confiance se construira sur des années de transparence. La menace ultime pour Ethereum n’est pas Solana, mais la migration de l’attention vers l’IA. La fenêtre pour réagir est étroite (12 à 18 mois). Seul un engagement concret, tourné vers des applications réelles et capable d’attirer les meilleurs talents, peut contrer cette tendance. En conclusion, l’idéal de Vitalik doit désormais s’ancrer dans la réalité par un engagement pratique et urgent. Le temps est l’adversaire le plus impitoyable.

marsbitIl y a 56 mins

Le fondateur d'IOSG : L'Ethereum n'a pas besoin d'une nouvelle foi technologique, il a besoin d'un compromis à la Musk

marsbitIl y a 56 mins

Jingdong et Mira Murati, ancienne CTO d'Open AI, misent sur la même piste de l'IA

Imaginez un scénario où un système d’IA perçoit et réagit en temps réel aux événements du monde physique sans attendre de demande explicite. C’est la promesse du modèle JoyAI-VL-Interaction, récemment rendu open source par JD.com. Il s’agit du premier modèle d’interaction visio-linguistique en temps réel entièrement open source, capable d’analyser un flux vidéo continu pour décider quand intervenir, quand rester silencieux ou quand déléguer une tâche complexe à un autre modèle. Contrairement aux assistants classiques fonctionnant en "tour par tour" (question-réponse), cette approche permet à l’IA d’être proactive dans des situations où l’utilisateur n’a pas le temps ou la capacité de formuler une requête : aide aux personnes âgées, assistance aux malvoyants, commentaire sportif automatique, surveillance industrielle ou robotique. JD.com n’est pas seul à explorer cette voie : Mira Murati, ancienne CTO d’OpenAI, et son laboratoire Thinking Machines Lab promeuvent une vision similaire des "modèles d’interaction". La particularité de JD.com est de placer la vision (plutôt que la voix) au cœur de la prise de décision, et de s’appuyer sur ses vastes données issues de scénarios réels (logistique, vente au détail, santé) pour entraîner le modèle. Le modèle, léger (8B paramètres) et conçu pour être déployé sur du matériel accessible (comme une carte graphique RTX 3090), est accompagné de son système d’inférence, de jeux de données et d’une documentation technique complets. JD.com ouvre ainsi la voie à une adoption large par les développeurs, visant à faire de l’IA proactive un élément central de l’intégration du numérique dans le monde physique.

marsbitIl y a 1 h

Jingdong et Mira Murati, ancienne CTO d'Open AI, misent sur la même piste de l'IA

marsbitIl y a 1 h

Analyse de rapport : Le secteur des semi-conducteurs a bondi de 155 %, Bernstein estime que NVDA et AVGO sont "absurdement bon marché"

Résumé : Le cabinet Bernstein a publié son analyse trimestrielle du secteur des semi-conducteurs. Le point central est que l'IA est désormais le principal moteur de croissance, portant l'indice SOX à une hausse de 155% sur un an. La hausse est jugée fondamentalement saine. Bernstein souligne une divergence forte au sein du secteur. Malgré des valorisations globalement élevées pour le secteur (P/E de 34,1x), l'analyste estime que les leaders clés de la chaîne d'approvisionnement en IA, NVIDIA (NVDA) et Broadcom (AVGO), sont "absurdement bon marché". Cela s'explique par leurs perspectives de croissance à long terme (p.ex. Blackwell pour NVDA) et leurs positions dominantes. Les deux sociétés sont notées « Surperformance ». Le cabinet a amélioré sa recommandation sur AMD à "Surperformance", citant des opportunités à la fois dans l'IA/GPU et dans les CPU. En revanche, il reste prudent sur Qualcomm (QCOM, "Égalité avec le marché"), en raison des pressions sur le marché des smartphones. Les équipementiers semi-conducteurs restent favorisés. Pour les semi-conducteurs analogiques, la valorisation est jugée élevée malgré la reprise. Bernstein met en garde contre deux risques principaux : un niveau de participation historiquement élevé des investisseurs dans le secteur et une montée des niveaux d'inventaire qui pourrait peser sur les prix si la demande faiblissait. L'analyse conclut qu'en dépit de la solide demande d'IA, la sélectivité est désormais cruciale.

marsbitIl y a 1 h

Analyse de rapport : Le secteur des semi-conducteurs a bondi de 155 %, Bernstein estime que NVDA et AVGO sont "absurdement bon marché"

marsbitIl y a 1 h

Trading

Spot
Futures
活动图片