Note de la rédaction : Cet entretien offre une fenêtre d'observation sur le cycle de la puissance de calcul en IA : la demande ne s'est pas refroidie après la dernière ruée vers les GPU, elle est au contraire stimulée par les agents, l'inférence et les applications IA en entreprise.
Cet article interviewe Brannin McBee, cofondateur et responsable du développement de CoreWeave, ainsi que Nick Robbins, vice-président du développement de l'entreprise et des relations avec les investisseurs, pour discuter de l'état de la demande en IA et du marché du neocloud. Le message central des dirigeants de CoreWeave est direct – la demande en IA semble s'intensifier chaque jour de nouvelles manières, et le véritable goulot d'étranglement passe de la simple disponibilité des GPU à des questions d'infrastructure plus complexes : la disponibilité de baies de centres de données alimentées, les CPU, le stockage, les électriciens, la capacité d'exécution de la chaîne d'approvisionnement, et le prix que les clients sont prêts à payer pour cette nouvelle génération de puissance de calcul.
La particularité de CoreWeave réside dans sa position intermédiaire dans la chaîne des infrastructures d'IA : elle sert à la fois des clients de premier plan comme OpenAI, Anthropic, Meta, Google, Microsoft, Nvidia, mais perçoit aussi directement l'évolution de la demande des laboratoires de recherche, des entreprises et des hyperscalers. Ainsi, elle ne voit pas seulement une « pénurie de GPU », mais observe des changements structurels dans la nature même des charges de travail d'IA. Avec l'essor des agents IA et des modèles de raisonnement, la demande en puissance de calcul ne se concentre plus uniquement sur les GPU, l'importance des CPU et du stockage augmente également. La conception des nouvelles générations de centres de données doit prévoir de l'espace pour les CPU Vera, les serveurs Vera Rubin et plus de stockage.
Cela explique pourquoi la concurrence dans les infrastructures d'IA passe d'un simple approvisionnement en puces à une capacité de livraison et d'ingénierie plus complète. Celui qui peut obtenir plus rapidement des centres de données alimentés, déployer des serveurs, fluidifier la chaîne d'approvisionnement et optimiser le coût par token se rapproche davantage du cœur de ce cycle de dépenses d'IA. L'insistance répétée de CoreWeave sur le « client-driven » reflète en réalité un constat plus large : les fournisseurs de cloud IA ne font plus que vendre de la puissance de calcul ; ils reconstruisent, en s'appuyant sur les feuilles de route des clients les plus en pointe, l'usine d'IA de la génération suivante.
Pour les investisseurs et les observateurs du secteur, l'élément le plus notable de cet entretien n'est pas un chiffre isolé, mais la direction de l'évolution de la demande en infrastructures d'IA : les GPU restent importants, mais les goulots d'étranglement se multiplient ; Nvidia demeure central, mais les CPU, la HBM, le stockage et la capacité d'alimentation des centres de données deviennent de nouvelles variables ; la demande en IA continue de croître, mais le succès futur pourrait dépendre de la capacité à livrer de manière constante, stable et à grande échelle ces infrastructures complexes.
Voici l'article original :
CoreWeave est considéré comme un leader innovant du marché naissant du « neocloud » (nouveaux services cloud).
C'est le seul fournisseur de services cloud à avoir obtenu la note « Platinum » (Platine), la plus haute, de la part de l'institut de recherche en IA SemiAnalysis. Fondée en 2017, CoreWeave fournit une puissance de calcul GPU à grande échelle aux startups et aux grandes entreprises.
Key Context a récemment interviewé Brannin McBee, cofondateur et responsable du développement de CoreWeave, et Nick Robbins, vice-président du développement de l'entreprise et des relations avec les investisseurs, pour discuter de l'état de la demande en IA et du marché du neocloud.
Voici les points clés édités de cette conversation :
La demande en IA continue de s'intensifier
Tae : À partir de quand la vague de demande pour les agents IA a-t-elle vraiment explosé ?
Brannin : Nous en avons vu les prémices réels dès le quatrième trimestre de l'année dernière. À l'époque, nous discutions avec nos clients au niveau ingénierie des produits qu'ils prévoyaient de lancer au premier trimestre de cette année.
Cette perspective a toujours été cruciale dans notre analyse de la demande client. Nous avons une relation technique profondément interconnectée avec nos clients. C'est cette relation qui nous permet d'anticiper les tendances, plutôt que de réagir passivement une fois les changements intervenus.
Si l'on regarde du point de vue produit sur le marché de l'IA, je dirais que le premier trimestre a été un moment d'inflexion majeur pour l'inférence et la consommation d'IA, et cette accélération se poursuit encore aujourd'hui.
Tae : Quel est l'état actuel de la demande en IA ? Comparée à il y a quelques mois, y a-t-il le moindre signe de ralentissement ces dernières semaines ?
Nick : Elle semble s'intensifier chaque jour de nouvelles manières.
Tae : Parlez-nous de la tendance à la hausse de la demande en CPU par rapport aux GPU dans la vague des agents IA. Allez-vous déployer des rangées de baies de CPU Vera à côté de vos serveurs GPU Nvidia ?
Brannin : CoreWeave utilise des CPU depuis 2023. Nous avons toujours eu une offre cloud complète. Donc la question n'est pas de savoir si nous commençons juste à ajouter des CPU, mais plutôt de savoir ce dont les clients ont besoin ? Cette demande augmente-t-elle en termes relatifs ? La réponse est oui, très clairement.
Avec l'essor réel des capacités d'agents et d'inférence dans les modèles, la demande de stockage augmente également par rapport aux générations précédentes. Je pense que cette tendance va se poursuivre.
Nick : La réponse à votre question est oui. Vous verrez absolument de nombreux CPU Vera déployés à côté de nombreux serveurs Vera Rubin. L'année dernière, nous avons fondamentalement repensé notre conception de base des centres de données pour prévoir de l'espace pour plus de stockage et plus de CPU à déployer à côté des GPU.
Nous avons fait cela parce que nous occupons une position très unique dans l'ensemble de l'écosystème. Nous sommes le seul fournisseur de cloud IA indépendant qui sert tous les utilisateurs de technologies les plus avancées. Aucun autre fournisseur de cloud IA indépendant ne peut dire qu'Anthropic, OpenAI, Meta, Google, Microsoft, Nvidia, etc., sont tous ses clients.
Cela crée une boucle de rétroaction positive, ou un cercle vertueux, pour notre activité : nous comprenons où les clients emmènent la technologie, et nous planifions en conséquence.
Le goulot d'étranglement n'est plus seulement les GPU
Tae : À l'avenir, utiliserez-vous principalement les CPU Vera de Nvidia ?
Nick : Cela dépend de la charge de travail spécifique. Nous sommes guidés par la demande client. Nous nous attendons effectivement à être des adoptants précoces et importants des CPU Vera, nous l'avons déjà indiqué. Actuellement, notre parc est principalement composé d'AMD, mais cela pourrait évoluer avec le temps en fonction de la demande des clients. L'intérêt des clients pour les CPU Vera est très fort.
Brannin : C'est aussi un bon rappel qui nous permet de parler du fonctionnement de nos contrats. Comme vous le savez, plus de 98 % de nos revenus sont générés par des contrats. Nous ne spéculons pas sur les infrastructures souhaitées par les clients. Les clients nous disent très explicitement de quelles configurations ils ont besoin. Tout est guidé par le client. Ce sont les clients qui définissent ce que nous construisons.
Tae : Parlez-nous du paysage concurrentiel. Face à des neoclouds comme SpaceX, Nebius, Oracle, et aux hyperscalers comme Azure, AWS, Google, comment vous êtes-vous introduits sur le marché et comment y participez-vous ?
Brannin : En termes de différenciation, je préfère le voir sous l'angle de la validation par des tiers. Neuf des dix principaux laboratoires d'IA mondiaux (hors Chine) utilisent notre plateforme. SemiAnalysis nous classe systématiquement au plus haut niveau en termes de performances. Je ne pense pas que nous obtenions cette allocation de GPU grâce à une amitié personnelle avec Jensen.
Cela montre que les fournisseurs ont une grande confiance dans notre capacité d'exécution et d'ingénierie, et qu'ils pensent que nous pouvons incarner au mieux les capacités de leurs produits à l'échelle mondiale.
Nick : Nous parvenons à gagner des clients hyperscalers parce que nous sommes très bons en exécution. Nous pouvons monter ces systèmes extrêmement vite, et ils fonctionnent très bien. Nous parvenons à gagner des clients laboratoires de recherche parce que nous fournissons la version technologique la plus performante et la meilleure efficacité par token.
Nous parvenons à gagner des clients en entreprise parce que l'infrastructure fonctionne vraiment bien, et nous avons construit une couche d'orchestration de classe mondiale, reconnue par exemple par le classement Platinum.
Mais ce qui devient de plus en plus important, c'est que parmi les fournisseurs de cloud IA, nous avons développé la couche de maturité la plus avancée, couvrant les outils d'inférence et de développement, pour aider les entreprises à mettre réellement l'IA en production.
Cela signifie que nous développons et livrons des produits qui aident finalement les entreprises à la maturité technologique relativement plus faible à transformer des données en modèles, puis en agents qui peuvent être exécutés en interne, et nous pouvons également vendre en croisé les services cloud de CoreWeave dans ce processus.
Tae : Quel est le goulot d'étranglement actuel ? Les baies de centres de données alimentées ? Les GPU ? Ou les électriciens ?
Brannin : Ce sont les « powered shells », les baies de centres de données alimentées. Plus précisément, les composants à l'intérieur de ces baies. Vous avez tout à fait raison de mentionner les électriciens. C'est un domaine complexe.
Mais ce qui est important, c'est que nous avons déjà 49 sites de ce type opérationnels. Nous ne misons pas tout sur un ou deux sites. Nous l'avons fait 49 fois.
C'est un dossier d'exécution très solide.
Cela signifie aussi que nous avons accumulé beaucoup de savoir-faire sur la manière de gérer les problèmes de chaîne d'approvisionnement, de savoir quels fournisseurs sont adaptés ou non pour collaborer dans cette chaîne.
Tae : Pouvez-vous nous en dire plus sur le coût et la pénurie de mémoire HBM ? Comment y faites-vous face ? Les clients doivent-ils supporter la hausse des coûts ?
Nick : La réponse est oui. Notre modèle commercial est conçu pour verrouiller le prix que nous facturons aux clients pour les GPU – et plus largement pour les serveurs, qui incluent évidemment le coût du HBM – au moment où nous passons les commandes d'achat de GPU et déterminons combien nous allons payer.
C'est ainsi que nous nous isolons des fluctuations quotidiennes des prix.
Si le coût de nos composants augmente pour la prochaine transaction, nous répercutons cette augmentation sur le prix que nous estimons pouvoir facturer au client, protégeant ainsi notre marge bénéficiaire. Nous sommes bien protégés en matière de transmission de ces coûts aux clients. C'est quelque chose que nous surveillons de très près.
Actuellement, l'obtention des composants n'est pas le plus grand goulot d'étranglement. Le plus grand goulot d'étranglement est la baie alimentée. Mais à l'avenir, la réponse pourrait varier.
Tae : Comment anticipez-vous le déploiement et la montée en puissance de Vera Rubin ? À quoi ressemblera la seconde moitié de cette année ?
Nick : Nous sommes manifestement la première entreprise au monde à avoir lancé et entièrement validé un rack VR, c'est-à-dire Vera Rubin. Nous avions fait de même l'année dernière avec les GB200 et GB300. Je m'attends à ce que VR commence à apparaître plus tard cette année.
Je m'attends à ce qu'une montée en charge vraiment massive et très solide se poursuive tout au long de 2027. Le rythme sera similaire à celui de GB : GB a commencé à apparaître en 2025, mais la montée en charge vraiment massive s'est déroulée tout au long de 2026. C'est-à-dire que pas mal de déploiements avaient déjà eu lieu fin 2025, mais 2026 est vraiment l'année du déploiement massif de GB.
Je m'attends à ce que, dans les 12 à 18 prochains mois, VR suive un rythme très similaire.






