Alibaba Cloud peut-il se réinventer ?

marsbitPublié le 2026-05-20Dernière mise à jour le 2026-05-20

Résumé

Ces cinq derniers mois, les revenus MaaS d'Alibaba Cloud ont été multipliés par 15, reflétant une transformation profonde. Lors d'un sommet, le géant du cloud a annoncé avoir achevé la mise à niveau de sa pile complète "puce - cloud - modèle - inférence" vers une architecture Agent, avec le lancement d'un nouveau portail IA "QianWen Cloud", de serveurs utilisant sa puce AI auto-développée Zhenwu M890 et de son dernier modèle phare Qwen3.7-Max. L'objectif est de passer d'un système conçu pour "l'humain utilisant le cloud" à un écosystème où "l'Agent consomme des Tokens". La puce, notamment la nouvelle Zhenwu M890, est vue comme le point de départ d'une bataille sur le coût marginal du Token. Parallèlement, la plateforme cloud elle-même est réécrite pour répondre aux besoins des Agents : interfaces standardisées, environnement d'exécution dédié (sandbox) et nouvelle logique d'orchestration des tâches. Concernant les modèles, l'accent est mis sur leur capacité à "faire" plutôt qu'à simplement "bien parler". Qwen3.7-Max a démontré une capacité d'exécution autonome de longue durée. La plateforme d'inférence "Bailian" a été améliorée pour soutenir ces charges et intègre également des modèles tiers. Cette refonte totale, techniquement et organisationnellement complexe, vise à saisir une opportunité perçue comme dix à cent fois plus grande que les précédentes. Alibaba Cloud reconstruit sa structure de revenus, ses relations clients et son système commercial autour du paradigme de ...

Au cours des cinq derniers mois, les revenus MaaS d'Alibaba Cloud ont été multipliés par 15. Ce n'est qu'un aspect de la refonte d'Alibaba Cloud. Lors de son sommet, Alibaba Cloud a annoncé avoir achevé la modernisation en « agent » de sa pile complète « puce - cloud - modèle - inférence », et a simultanément lancé un nouveau site web de produits AI "Qianwen Cloud", des serveurs à nœud ultra haute densité équipés de sa puce AI auto-développée Zhenwu M890, ainsi que son dernier modèle phare, Qwen3.7-Max.

Pour reprendre les mots de Liu Weiguang, vice-président principal d'Alibaba Cloud : "Nous sommes en train de construire la plus grande usine d'IA de Chine." La métaphore de l'usine évoque une logique de production complète : les puces sont la matière première, le cloud est l'atelier, les modèles sont les machines, la plateforme d'inférence est la chaîne de montage, et la marchandise finale est le Token.

L'essence de cette refonte est de transformer le système entier, construit au cours des 17 dernières années autour de "l'utilisation du cloud par l'homme", en un nouveau système conçu pour la "consommation de Tokens par les Agents".

Pourquoi jouer la carte de la puce maintenant ?

Alibaba Cloud a rarement mis en avant ses puces en public par le passé. Lors de ce sommet, non seulement la nouvelle puce AI d'entraînement et d'inférence Zhenwu M890 a été présentée, mais une feuille de route pour les deux prochaines années a été exceptionnellement dévoilée, avec les deux générations de produits Zhenwu V900 et Zhenwu J900 à venir.

Le Zhenwu M890 est doté de 144 Go de mémoire, d'une bande passante d'interconnexion inter-puces de 800 Go/s, et ses performances sont trois fois supérieures à celles de la génération précédente, le Zhenwu 810E. Associé à la puce d'interconnexion ICN Switch développée en interne, 128 puces AI peuvent former une seule machine, avec une latence P2P inférieure à 150 nanosecondes.

Mais au-delà des spécifications, l'information clé est celle de l'échelle : la série Zhenwu a déjà expédié 560 000 puces cumulées, et a pénétré plus de 400 clients dans plus de 20 secteurs, notamment les télécoms, FAW, et la Banque de Développement de Pudong.

Liu Weiguang utilise à plusieurs reprises Google comme analogie. L'intégration profonde entre le TPU de Google et Gemini a permis à Google d'obtenir le meilleur rapport coût-performance dans son propre framework. Alibaba Cloud souhaite bien sûr emprunter le même chemin. Il résume la logique concurrentielle en une phrase : "Si l'avenir se joue sur le fait de générer plus de Tokens de haute qualité que les concurrents sur chaque puce, alors nous gagnerons."

Avec en plus le CPU Yitian, la carte réseau intelligente Panmai, le contrôleur de stockage Zhenyue, la carte des puces de T-Head s'est étendue d'un point unique à une couverture complète du calcul, du réseau et du stockage. Lorsque la demande d'inférence explose de façon exponentielle, ce n'est qu'en gardant le contrôle des puces qu'on peut maîtriser le coût marginal de chaque Token.

Le raisonnement n'est pas compliqué. Les entreprises de modèles peuvent rivaliser sur les paramètres, mais les fournisseurs de cloud finiront par comparer qui produit des Tokens moins chers, plus stables et plus rapides. La puce est le point de départ de cette guerre des coûts.

Le cloud lui-même doit aussi être réécrit

Les puces résolvent le problème de "l'exécution", mais les besoins d'un Agent en matière de cloud vont bien au-delà de la puissance de calcul.

La logique d'interaction des produits cloud traditionnels est conçue pour les humains : ouvrir la console, regarder les menus, configurer les paramètres, cliquer sur les boutons. Tout cela est totalement inutilisable pour un Agent. Un Agent ne regarde pas de pages web, ne clique pas sur des boutons. Il a besoin d'une description structurée des capacités, de protocoles d'appel standardisés et de retours prévisibles.

Li Feifei, CTO d'Alibaba Cloud, utilise une comparaison pour illustrer le problème : la charge de travail du cloud traditionnel est stable, une instance ECS peut tourner pendant des mois, voire des années ; mais la charge de travail d'un Agent est caractérisée par une "élasticité erratique, un cycle de vie court, une montée en puissance instantanée puis une disparition". Une fois qu'un Agent a exécuté sa tâche, le bac à sable est détruit. La prochaine demande peut arriver dans quelques millisecondes, ou seulement quelques heures plus tard.

Pour répondre à cela, Alibaba Cloud a fait trois choses.

Premièrement, transformer les produits cloud en "Skills", en MCP et en CLI. En clair, il s'agit d'encapsuler chaque produit cloud dans une interface standardisée qu'un Agent peut appeler directement, comme s'il appelait une fonction.

Deuxièmement, construire un environnement d'exécution dédié pour les Agents : bac à sable léger, collaboration multi-agents, mémoire inter-tâches, voie de circulation des données.

Troisièmement, reconstruire la logique d'ordonnancement, passant de "l'ordonnancement des ressources" à "l'ordonnancement des tâches", car lorsque des masses d'Agents fonctionnent simultanément en concurrence, les méthodes traditionnelles d'orchestration des ressources ne tiennent pas.

Liu Weiguang indique que certaines applications AI, une fois déployées, ouvrent automatiquement des ressources cloud en arrière-plan (machines virtuelles, instances de bases de données, environnements bac à sable) sans aucune intervention humaine. Le volume de ressources ouvertes automatiquement en une journée pour un client équivaut à deux semaines d'opérations manuelles.

"Cela revient à dire que les Agents utilisent eux-mêmes le cloud." Liu Weiguang donne une relation de conversion issue d'un calcul interne : la consommation de Tokens peut être convertie proportionnellement en utilisation GPU, et chaque augmentation de la capacité GPU entraîne à peu près une augmentation équivalente de la capacité CPU. Autrement dit, la croissance des revenus liés aux Tokens ne ronge pas les revenus cloud traditionnels, mais les tire vers le haut, à condition que la plateforme cloud soit capable de supporter la charge de travail des Agents.

Par conséquent, Alibaba Cloud ne se contente pas d'ajouter une couche d'IA au système existant, mais réécrit entièrement les modes d'interaction, la logique d'ordonnancement, le modèle de facturation et la forme des produits.

Le modèle n'est pas fait pour discuter

La troisième couche de la refonte complète est le modèle. Qwen3.7-Max a atteint la première place nationale dans le classement général de l'Arena Global Blind Test, dépassant Kimi-K2.6, DeepSeek-v4-pro et GLM-5.1. L'accent de cette version est la redéfinition par Alibaba de l'orientation des capacités des modèles.

Zhou Jingren, responsable du modèle Tongyi d'Alibaba, déclare : "Par le passé, nous cherchions un modèle qui 'parle bien'. Maintenant, nous exigeons un modèle qui 'fasse des choses'."

Prenant l'exemple des pratiques d'Alibaba Cloud sur les puces, sur la puce Zhenwu M890 qu'il n'avait jamais rencontrée pendant l'entraînement, Qwen3.7-Max, uniquement avec une description de tâche, a travaillé de manière autonome pendant 35 heures, écrivant et optimisant de zéro un noyau de calcul AI de niveau production. Les performances finales ont été améliorées d'un facteur 10 par rapport à la version officielle, sans intervention humaine ni guidance intermédiaire tout au long du processus.

Cela illustre la capacité centrale du modèle dans un scénario Agent : l'exécution autonome de longue durée, prenant une tâche, la décomposant, la planifiant, écrivant le code, le déboguant, travaillant continuellement pendant 35 heures sans s'arrêter.

Pour supporter ce niveau de demande d'inférence, la plateforme Bailian a également été mise à niveau : ordonnancement en pool partagé pour améliorer l'utilisation du GPU, cache de contexte pour éliminer les calculs répétés, ordonnancement élastique du débit pour faire face aux pics de concurrence.

Sur l'écosystème, Bailian maintient une ouverture d'accès, proposant en plus de la matrice de modèles Qianwen, des modèles tiers tels que GLM-5.1 de Zhipu AI, M2.7 de MiniMax, et Kimi K2.6 de Moonshot AI.

Liu Weiguang mentionne : "Dans l'usage réel, les clients n'utilisent pas qu'un seul modèle, mais une combinaison de plusieurs modèles. Nous fournissons les combinaisons, les clients trouvent sur la plateforme celle qui leur convient le mieux." Sur scène lors du sommet, les dirigeants de six entreprises de modèles leaders en Chine se sont rassemblés, créant une ambiance évoquant une "alliance AI nationale".

Au cours des trois derniers mois, le modèle phare Qianwen a été mis à jour de manière continue avec trois versions : 3.5, 3.6, et 3.7. Ce rythme de publication envoie un signal : la course aux capacités des modèles est loin d'être terminée, et Alibaba compte utiliser l'intégration verticale puces auto-développées + modèles auto-développés pour établir un avantage à long terme.

Le véritable enjeu de cette refonte

En y regardant de plus près, la logique sous-jacente de cette refonte complète d'Alibaba Cloud est simple et pure : lorsque la croissance des revenus de l'IA dépasse largement celle des activités cloud traditionnelles, lorsque les Tokens ont le potentiel de remplacer les ECS en tant que plus grande gamme de produits, lorsque les Agents commencent à ouvrir automatiquement des ressources cloud sans que les humains aient besoin de se connecter à la console, alors l'ensemble du système technique conçu pour l'homme atteint un point où il doit absolument être modifié.

Mais la difficulté au niveau de l'exécution est une autre affaire. Liu Weiguang lui-même admet que la transformation est "facile à dire, mais très difficile à faire". Auparavant, les équipes commerciales traitaient avec les services informatiques des clients. Maintenant, pour faire du MaaS, elles doivent dialoguer avec les services opérationnels, voire avec les PDG.

"Votre capacité de dialogue, votre expérience, exigent un tout autre niveau." Alibaba Cloud a déjà mis en place des commerciaux MaaS dédiés pour ses grands clients, séparés des commerciaux IaaS traditionnels, avec des évaluations distinctes et des opérations indépendantes.

Les indicateurs de performance changent également. On ne regarde plus seulement le volume d'appels, mais les "Tokens de haute qualité", ceux qui résolvent des problèmes concrets, pas ceux de bavardages. Trois indicateurs clés : la croissance quotidienne du nombre de clients payants, le nombre de systèmes métiers centraux intégrant des modèles, et l'efficacité avec laquelle les Agents accomplissent de manière autonome des tâches en boucle fermée.

Ces ajustements organisationnels et de mécanismes révèlent souvent plus que les annonces techniques le jugement réel d'une entreprise. Alibaba Cloud veut reconstruire sa structure de revenus, ses relations clients et son système commercial. Liu Weiguang déclare : "Avant, quand nous faisions du cloud, le budget informatique du client était calculable : tant de serveurs sur site, un prix approximatif pour les migrer, on pouvait voir le sujet. Mais avec le MaaS, la réponse à ce sujet, vous ne la connaissez pas. Une fois à l'intérieur, cela peut dépasser votre imagination."

Le sujet n'est plus visible, la réponse est incertaine, mais Alibaba Cloud a décidé de démonter et de réécrire l'ensemble du système, car la seule certitude est que l'IA représente une opportunité dix, voire cent fois plus grande que toutes les précédentes.

C'est probablement l'information la plus notable de ce sommet : pas tant quelle puce offre plus de puissance, ou quel modèle est classé où, mais le fait que le plus grand fournisseur de cloud de Chine adopte une posture aussi radicale, proche de celle d'une start-up, pour parier sur un avenir qu'il est convaincu de voir arriver. (Auteur de cet article | Zhang Shuai, Éditeur | Yang Lin)

Questions liées

QPourquoi Alibaba Cloud a-t-il soudainement mis l'accent sur ses puces lors de ce sommet, après en avoir peu parlé publiquement auparavant ?

AParce que la demande d'inférence augmente de façon exponentielle. Pour contrôler le coût marginal de chaque Token et gagner la guerre des coûts à long terme, il est essentiel de maîtriser la technologie des puces. Alibaba Cloud souhaite suivre la voie de Google, où la puce TPU et le modèle Gemini sont étroitement liés, afin d'obtenir le meilleur rapport prix/performance dans son propre framework.

QQuels sont les trois changements majeurs apportés par Alibaba Cloud à sa plateforme cloud pour l'adapter aux besoins des Agents IA ?

A1. Transformer les produits cloud en "Skills", MCP et CLI, les encapsulant dans des interfaces standardisées que les Agents peuvent appeler directement. 2. Construire un environnement d'exécution dédié aux Agents : sandbox légers, collaboration multi-Agents, mémoire inter-tâches, canaux de circulation des données. 3. Reconstruire la logique d'orchestration, passant de l'"orchestration des ressources" à l'"orchestration des tâches" pour supporter la concurrence massive d'Agents.

QComment la définition des capacités du modèle Qwen3.7-Max a-t-elle changé, et quel exemple concret le démontre ?

AL'accent est passé de la recherche d'un modèle qui "parle bien" à un modèle qui "peut accomplir des tâches". Un exemple concret : sur la nouvelle puce Zhenwu M890, qu'il n'avait jamais rencontrée pendant l'entraînement, Qwen3.7-Max a travaillé de manière autonome pendant 35 heures en suivant uniquement une description de tâche. Il a écrit et optimisé un noyau de calcul IA de niveau production, améliorant les performances d'un facteur 10 par rapport à la version officielle, sans intervention humaine.

QQuels sont les nouveaux indicateurs clés de performance (KPI) pour l'équipe commerciale de MaaS chez Alibaba Cloud, remplaçant les anciennes mesures ?

ALes nouveaux KPI ne se concentrent plus uniquement sur le volume d'appels, mais sur les "Tokens de haute qualité" - ceux qui résolvent des problèmes pratiques. Les trois indicateurs principaux sont : la croissance quotidienne du nombre de clients payants, le nombre de systèmes métiers centraux intégrant des modèles, et l'efficacité avec laquelle les Agents accomplissent de manière autonome des tâches en boucle fermée.

QQuelle est la logique fondamentale derrière la reconstruction complète de la pile technologique par Alibaba Cloud, et quel est le véritable enjeu ?

ALa logique fondamentale est que l'ancien système conçu pour "l'utilisation du cloud par l'homme" doit être transformé en un nouveau système pour la "consommation de Tokens par les Agents". Le véritable enjeu est de parier sur un avenir que l'entreprise est convaincue de voir arriver : l'IA représentant une opportunité dix à cent fois plus grande que par le passé. Cela nécessite de reconstruire non seulement la technologie, mais aussi la structure des revenus, les relations clients et le système commercial.

Lectures associées

24/7, le raz-de-marée des produits dérivés qui ne s'arrête jamais : la cryptomonnaie pousse la finance traditionnelle à « changer de fuseau horaire »

Les marchés cryptos ont toujours fonctionné en continu, 24h/24 et 7j/7. Cette réalité oblige désormais la finance traditionnelle à s’adapter, comme en témoigne l’annonce du CME Group de proposer des produits dérivés cryptos réglementés en trading quasi-permanent à partir de fin mai. Cette mesure ne répond pas seulement à une demande institutionnelle croissante – les volumes de dérivés cryptos dépassent déjà largement ceux du spot – mais soulève des défis structurels profonds pour la finance établie. Le cœur du problème réside dans la compatibilité entre l’exécution continue des transactions et les infrastructures traditionnelles de règlement, de compensation, de gestion des risques et de conformité, conçues pour des jours ouvrables. Si les transactions peuvent avoir lieu à tout moment, leur traitement réglementaire reste, pour l’instant, calé sur le calendrier traditionnel. De plus, la transparence inhérente des blockchains publiques, tout en offrant une auditabilité bénéfique, expose en temps réel des flux financiers sensibles des entreprises, créant un nouveau risque informationnel. L’adoption institutionnelle à grande échelle dépendra donc de la capacité à construire des systèmes qui intègrent à la fois la continuité du marché cryptos et les contrôles institutionnels, notamment en matière de confidentialité et de responsabilité. La finance traditionnelle n’adopte pas simplement les cryptomonnaies ; elle est contrainte d’adopter progressivement leur rythme de fonctionnement, faisant des dérivés cryptos un laboratoire pour l’avenir des marchés financiers globaux.

marsbitIl y a 29 mins

24/7, le raz-de-marée des produits dérivés qui ne s'arrête jamais : la cryptomonnaie pousse la finance traditionnelle à « changer de fuseau horaire »

marsbitIl y a 29 mins

La réussite de l'examen de Yushu, Hangzhou tire le gros lot

Aujourd'hui, Unitree Robotics a officiellement franchi l'étape de l'examen du conseil d'administration pour son introduction en bourse sur le marché STAR de la Bourse de Shanghai, visant à lever 4,202 milliards de yuans pour le développement de modèles de robots intelligents et de robots physiques. Cette étape marque son accession au statut de "première action de robot humanoïde". Le parcours de Wang Xingxing, fondateur d'Unitree, n'a pas été facile. En 2016, il a fondé l'entreprise à Hangzhou avec peu de soutien initial, le secteur des robots étant perçu comme un "jouet" par de nombreux investisseurs. À son point le plus critique, la trésorerie de l'entreprise est tombée à seulement quelques centaines de milliers de yuans. Le tournant est venu en 2018 lorsque les capitaux d'État de Hangzhou sont intervenus, fournissant une garantie de crédit et un prêt de 20 millions de yuans en seulement 10 jours. Ce soutien vital a permis à Unitree de stabiliser ses opérations, de passer du prototypage à la production de masse et de lancer le premier robot quadrupède grand public hautement dynamique au monde. Par la suite, les fonds souverains de Hangzhou, via leurs fonds principaux, ont continué à accompagner Unitree lors de quatre tours de table de financement (B2, B3, C, C+), attirant également des géants industriels comme China Mobile, Tencent, Alibaba et Geely. Unitree est désormais un leader mondial dans le domaine des robots quadrupèdes et humanoïdes. Avant son introduction en bourse, son chiffre d'affaires pour 2025 a atteint 1,699 milliard de yuans, avec un bénéfice net ajusté de près de 591 millions de yuans. Elle a vendu plus de 33 000 robots quadrupèdes et occupe la première place mondiale pour les livraisons de robots humanoïdes en 2025. L'histoire d'Unitree illustre la stratégie de "capital patient" de Hangzhou, conçue pour soutenir les entreprises de technologies de pointe dès leurs débuts. La ville a mis en place un cluster de fonds industriels de 500 milliards de yuans ("3+N") et un "Fonds Jeune Pousse" (Runmiao) avec une durée de 20 ans pour financer les projets en phase amont. Outre Unitree, ce système soutient d'autres membres des "Six Dragons de Hangzhou" comme CloudWalk, BrainCo et DeepSeek, couvrant des domaines tels que l'IA, les robots et l'interface cerveau-ordinateur. Hangzhou attire également massivement les jeunes talents, avec plus de 430 000 diplômés de moins de 35 ans venus en 2025. Avec 48 licornes et 413 futures licornes, Hangzhou se transforme progressivement d'une ville historique en une "ville de l'innovation scientifique et technologique", forgeant un écosystème complet où davantage de success stories à la Unitree sont attendues.

marsbitIl y a 52 mins

La réussite de l'examen de Yushu, Hangzhou tire le gros lot

marsbitIl y a 52 mins

Les marchés actions américains sont-ils plus dangereux à mesure qu'ils grimpent ? Goldman Sachs : le mécanisme de protection contre les baisses est presque hors service

Le marché boursier américain affiche une hausse soutenue, mais les stratégistes de Goldman Sachs, dont Brian Garrett, tirent la sonnette d'alarme. Ils constatent une disparition quasi totale de la peur d'un repli sur le marché des options, signalée par l'effondrement du « skew » (asymétrie) de volatilité du S&P 500 à son plus bas depuis 18 mois. Le marché évalue désormais une probabilité identique d'environ 8% pour une hausse ou une baisse de 10%, ce qui rend le mécanisme traditionnel de protection contre les baisses quasi inopérant. L'indice de panique GS est également à un plus bas de deux ans. Cette situation intervient alors que la hausse du marché est étroite et concentrée : les 10 plus grosses capitalisations pèsent 40% de l'indice, et la performance est largement portée par les valeurs liées à l'IA, créant un écart avec le reste du marché. Garrett relève des similarités troublantes avec la période 1998-1999. Face à ce risque, Goldman Sachs recommande des stratégies de couverture à bas coût, comme l'achat d'options de vente (puts) sur le S&P 500 ou d'options d'achat (calls) sur la volatilité (VIX). La banque suggère également de se positionner sur une rotation du marché vers des valeurs plus larges via l'ETF RSP, et de surveiller la volatilité des ETF Bitcoin, actuellement sous-évaluée. Les flux des hedge funds montrent des achats nets soutenus, avec une rotation vers le secteur financier au détriment de l'industriel. Par ailleurs, la taille du marché des ETF à levier et inversés sur actions individuelles a doublé en deux mois, dépassant 60 milliards de dollars, un segment devenu significatif.

marsbitIl y a 1 h

Les marchés actions américains sont-ils plus dangereux à mesure qu'ils grimpent ? Goldman Sachs : le mécanisme de protection contre les baisses est presque hors service

marsbitIl y a 1 h

Trading

Spot
Futures
活动图片