Alibaba Cloud peut-il se réinventer ?

marsbitPublié le 2026-05-20Dernière mise à jour le 2026-05-20

Résumé

Ces cinq derniers mois, les revenus MaaS d'Alibaba Cloud ont été multipliés par 15, reflétant une transformation profonde. Lors d'un sommet, le géant du cloud a annoncé avoir achevé la mise à niveau de sa pile complète "puce - cloud - modèle - inférence" vers une architecture Agent, avec le lancement d'un nouveau portail IA "QianWen Cloud", de serveurs utilisant sa puce AI auto-développée Zhenwu M890 et de son dernier modèle phare Qwen3.7-Max. L'objectif est de passer d'un système conçu pour "l'humain utilisant le cloud" à un écosystème où "l'Agent consomme des Tokens". La puce, notamment la nouvelle Zhenwu M890, est vue comme le point de départ d'une bataille sur le coût marginal du Token. Parallèlement, la plateforme cloud elle-même est réécrite pour répondre aux besoins des Agents : interfaces standardisées, environnement d'exécution dédié (sandbox) et nouvelle logique d'orchestration des tâches. Concernant les modèles, l'accent est mis sur leur capacité à "faire" plutôt qu'à simplement "bien parler". Qwen3.7-Max a démontré une capacité d'exécution autonome de longue durée. La plateforme d'inférence "Bailian" a été améliorée pour soutenir ces charges et intègre également des modèles tiers. Cette refonte totale, techniquement et organisationnellement complexe, vise à saisir une opportunité perçue comme dix à cent fois plus grande que les précédentes. Alibaba Cloud reconstruit sa structure de revenus, ses relations clients et son système commercial autour du paradigme de ...

Au cours des cinq derniers mois, les revenus MaaS d'Alibaba Cloud ont été multipliés par 15. Ce n'est qu'un aspect de la refonte d'Alibaba Cloud. Lors de son sommet, Alibaba Cloud a annoncé avoir achevé la modernisation en « agent » de sa pile complète « puce - cloud - modèle - inférence », et a simultanément lancé un nouveau site web de produits AI "Qianwen Cloud", des serveurs à nœud ultra haute densité équipés de sa puce AI auto-développée Zhenwu M890, ainsi que son dernier modèle phare, Qwen3.7-Max.

Pour reprendre les mots de Liu Weiguang, vice-président principal d'Alibaba Cloud : "Nous sommes en train de construire la plus grande usine d'IA de Chine." La métaphore de l'usine évoque une logique de production complète : les puces sont la matière première, le cloud est l'atelier, les modèles sont les machines, la plateforme d'inférence est la chaîne de montage, et la marchandise finale est le Token.

L'essence de cette refonte est de transformer le système entier, construit au cours des 17 dernières années autour de "l'utilisation du cloud par l'homme", en un nouveau système conçu pour la "consommation de Tokens par les Agents".

Pourquoi jouer la carte de la puce maintenant ?

Alibaba Cloud a rarement mis en avant ses puces en public par le passé. Lors de ce sommet, non seulement la nouvelle puce AI d'entraînement et d'inférence Zhenwu M890 a été présentée, mais une feuille de route pour les deux prochaines années a été exceptionnellement dévoilée, avec les deux générations de produits Zhenwu V900 et Zhenwu J900 à venir.

Le Zhenwu M890 est doté de 144 Go de mémoire, d'une bande passante d'interconnexion inter-puces de 800 Go/s, et ses performances sont trois fois supérieures à celles de la génération précédente, le Zhenwu 810E. Associé à la puce d'interconnexion ICN Switch développée en interne, 128 puces AI peuvent former une seule machine, avec une latence P2P inférieure à 150 nanosecondes.

Mais au-delà des spécifications, l'information clé est celle de l'échelle : la série Zhenwu a déjà expédié 560 000 puces cumulées, et a pénétré plus de 400 clients dans plus de 20 secteurs, notamment les télécoms, FAW, et la Banque de Développement de Pudong.

Liu Weiguang utilise à plusieurs reprises Google comme analogie. L'intégration profonde entre le TPU de Google et Gemini a permis à Google d'obtenir le meilleur rapport coût-performance dans son propre framework. Alibaba Cloud souhaite bien sûr emprunter le même chemin. Il résume la logique concurrentielle en une phrase : "Si l'avenir se joue sur le fait de générer plus de Tokens de haute qualité que les concurrents sur chaque puce, alors nous gagnerons."

Avec en plus le CPU Yitian, la carte réseau intelligente Panmai, le contrôleur de stockage Zhenyue, la carte des puces de T-Head s'est étendue d'un point unique à une couverture complète du calcul, du réseau et du stockage. Lorsque la demande d'inférence explose de façon exponentielle, ce n'est qu'en gardant le contrôle des puces qu'on peut maîtriser le coût marginal de chaque Token.

Le raisonnement n'est pas compliqué. Les entreprises de modèles peuvent rivaliser sur les paramètres, mais les fournisseurs de cloud finiront par comparer qui produit des Tokens moins chers, plus stables et plus rapides. La puce est le point de départ de cette guerre des coûts.

Le cloud lui-même doit aussi être réécrit

Les puces résolvent le problème de "l'exécution", mais les besoins d'un Agent en matière de cloud vont bien au-delà de la puissance de calcul.

La logique d'interaction des produits cloud traditionnels est conçue pour les humains : ouvrir la console, regarder les menus, configurer les paramètres, cliquer sur les boutons. Tout cela est totalement inutilisable pour un Agent. Un Agent ne regarde pas de pages web, ne clique pas sur des boutons. Il a besoin d'une description structurée des capacités, de protocoles d'appel standardisés et de retours prévisibles.

Li Feifei, CTO d'Alibaba Cloud, utilise une comparaison pour illustrer le problème : la charge de travail du cloud traditionnel est stable, une instance ECS peut tourner pendant des mois, voire des années ; mais la charge de travail d'un Agent est caractérisée par une "élasticité erratique, un cycle de vie court, une montée en puissance instantanée puis une disparition". Une fois qu'un Agent a exécuté sa tâche, le bac à sable est détruit. La prochaine demande peut arriver dans quelques millisecondes, ou seulement quelques heures plus tard.

Pour répondre à cela, Alibaba Cloud a fait trois choses.

Premièrement, transformer les produits cloud en "Skills", en MCP et en CLI. En clair, il s'agit d'encapsuler chaque produit cloud dans une interface standardisée qu'un Agent peut appeler directement, comme s'il appelait une fonction.

Deuxièmement, construire un environnement d'exécution dédié pour les Agents : bac à sable léger, collaboration multi-agents, mémoire inter-tâches, voie de circulation des données.

Troisièmement, reconstruire la logique d'ordonnancement, passant de "l'ordonnancement des ressources" à "l'ordonnancement des tâches", car lorsque des masses d'Agents fonctionnent simultanément en concurrence, les méthodes traditionnelles d'orchestration des ressources ne tiennent pas.

Liu Weiguang indique que certaines applications AI, une fois déployées, ouvrent automatiquement des ressources cloud en arrière-plan (machines virtuelles, instances de bases de données, environnements bac à sable) sans aucune intervention humaine. Le volume de ressources ouvertes automatiquement en une journée pour un client équivaut à deux semaines d'opérations manuelles.

"Cela revient à dire que les Agents utilisent eux-mêmes le cloud." Liu Weiguang donne une relation de conversion issue d'un calcul interne : la consommation de Tokens peut être convertie proportionnellement en utilisation GPU, et chaque augmentation de la capacité GPU entraîne à peu près une augmentation équivalente de la capacité CPU. Autrement dit, la croissance des revenus liés aux Tokens ne ronge pas les revenus cloud traditionnels, mais les tire vers le haut, à condition que la plateforme cloud soit capable de supporter la charge de travail des Agents.

Par conséquent, Alibaba Cloud ne se contente pas d'ajouter une couche d'IA au système existant, mais réécrit entièrement les modes d'interaction, la logique d'ordonnancement, le modèle de facturation et la forme des produits.

Le modèle n'est pas fait pour discuter

La troisième couche de la refonte complète est le modèle. Qwen3.7-Max a atteint la première place nationale dans le classement général de l'Arena Global Blind Test, dépassant Kimi-K2.6, DeepSeek-v4-pro et GLM-5.1. L'accent de cette version est la redéfinition par Alibaba de l'orientation des capacités des modèles.

Zhou Jingren, responsable du modèle Tongyi d'Alibaba, déclare : "Par le passé, nous cherchions un modèle qui 'parle bien'. Maintenant, nous exigeons un modèle qui 'fasse des choses'."

Prenant l'exemple des pratiques d'Alibaba Cloud sur les puces, sur la puce Zhenwu M890 qu'il n'avait jamais rencontrée pendant l'entraînement, Qwen3.7-Max, uniquement avec une description de tâche, a travaillé de manière autonome pendant 35 heures, écrivant et optimisant de zéro un noyau de calcul AI de niveau production. Les performances finales ont été améliorées d'un facteur 10 par rapport à la version officielle, sans intervention humaine ni guidance intermédiaire tout au long du processus.

Cela illustre la capacité centrale du modèle dans un scénario Agent : l'exécution autonome de longue durée, prenant une tâche, la décomposant, la planifiant, écrivant le code, le déboguant, travaillant continuellement pendant 35 heures sans s'arrêter.

Pour supporter ce niveau de demande d'inférence, la plateforme Bailian a également été mise à niveau : ordonnancement en pool partagé pour améliorer l'utilisation du GPU, cache de contexte pour éliminer les calculs répétés, ordonnancement élastique du débit pour faire face aux pics de concurrence.

Sur l'écosystème, Bailian maintient une ouverture d'accès, proposant en plus de la matrice de modèles Qianwen, des modèles tiers tels que GLM-5.1 de Zhipu AI, M2.7 de MiniMax, et Kimi K2.6 de Moonshot AI.

Liu Weiguang mentionne : "Dans l'usage réel, les clients n'utilisent pas qu'un seul modèle, mais une combinaison de plusieurs modèles. Nous fournissons les combinaisons, les clients trouvent sur la plateforme celle qui leur convient le mieux." Sur scène lors du sommet, les dirigeants de six entreprises de modèles leaders en Chine se sont rassemblés, créant une ambiance évoquant une "alliance AI nationale".

Au cours des trois derniers mois, le modèle phare Qianwen a été mis à jour de manière continue avec trois versions : 3.5, 3.6, et 3.7. Ce rythme de publication envoie un signal : la course aux capacités des modèles est loin d'être terminée, et Alibaba compte utiliser l'intégration verticale puces auto-développées + modèles auto-développés pour établir un avantage à long terme.

Le véritable enjeu de cette refonte

En y regardant de plus près, la logique sous-jacente de cette refonte complète d'Alibaba Cloud est simple et pure : lorsque la croissance des revenus de l'IA dépasse largement celle des activités cloud traditionnelles, lorsque les Tokens ont le potentiel de remplacer les ECS en tant que plus grande gamme de produits, lorsque les Agents commencent à ouvrir automatiquement des ressources cloud sans que les humains aient besoin de se connecter à la console, alors l'ensemble du système technique conçu pour l'homme atteint un point où il doit absolument être modifié.

Mais la difficulté au niveau de l'exécution est une autre affaire. Liu Weiguang lui-même admet que la transformation est "facile à dire, mais très difficile à faire". Auparavant, les équipes commerciales traitaient avec les services informatiques des clients. Maintenant, pour faire du MaaS, elles doivent dialoguer avec les services opérationnels, voire avec les PDG.

"Votre capacité de dialogue, votre expérience, exigent un tout autre niveau." Alibaba Cloud a déjà mis en place des commerciaux MaaS dédiés pour ses grands clients, séparés des commerciaux IaaS traditionnels, avec des évaluations distinctes et des opérations indépendantes.

Les indicateurs de performance changent également. On ne regarde plus seulement le volume d'appels, mais les "Tokens de haute qualité", ceux qui résolvent des problèmes concrets, pas ceux de bavardages. Trois indicateurs clés : la croissance quotidienne du nombre de clients payants, le nombre de systèmes métiers centraux intégrant des modèles, et l'efficacité avec laquelle les Agents accomplissent de manière autonome des tâches en boucle fermée.

Ces ajustements organisationnels et de mécanismes révèlent souvent plus que les annonces techniques le jugement réel d'une entreprise. Alibaba Cloud veut reconstruire sa structure de revenus, ses relations clients et son système commercial. Liu Weiguang déclare : "Avant, quand nous faisions du cloud, le budget informatique du client était calculable : tant de serveurs sur site, un prix approximatif pour les migrer, on pouvait voir le sujet. Mais avec le MaaS, la réponse à ce sujet, vous ne la connaissez pas. Une fois à l'intérieur, cela peut dépasser votre imagination."

Le sujet n'est plus visible, la réponse est incertaine, mais Alibaba Cloud a décidé de démonter et de réécrire l'ensemble du système, car la seule certitude est que l'IA représente une opportunité dix, voire cent fois plus grande que toutes les précédentes.

C'est probablement l'information la plus notable de ce sommet : pas tant quelle puce offre plus de puissance, ou quel modèle est classé où, mais le fait que le plus grand fournisseur de cloud de Chine adopte une posture aussi radicale, proche de celle d'une start-up, pour parier sur un avenir qu'il est convaincu de voir arriver. (Auteur de cet article | Zhang Shuai, Éditeur | Yang Lin)

Questions liées

QPourquoi Alibaba Cloud a-t-il soudainement mis l'accent sur ses puces lors de ce sommet, après en avoir peu parlé publiquement auparavant ?

AParce que la demande d'inférence augmente de façon exponentielle. Pour contrôler le coût marginal de chaque Token et gagner la guerre des coûts à long terme, il est essentiel de maîtriser la technologie des puces. Alibaba Cloud souhaite suivre la voie de Google, où la puce TPU et le modèle Gemini sont étroitement liés, afin d'obtenir le meilleur rapport prix/performance dans son propre framework.

QQuels sont les trois changements majeurs apportés par Alibaba Cloud à sa plateforme cloud pour l'adapter aux besoins des Agents IA ?

A1. Transformer les produits cloud en "Skills", MCP et CLI, les encapsulant dans des interfaces standardisées que les Agents peuvent appeler directement. 2. Construire un environnement d'exécution dédié aux Agents : sandbox légers, collaboration multi-Agents, mémoire inter-tâches, canaux de circulation des données. 3. Reconstruire la logique d'orchestration, passant de l'"orchestration des ressources" à l'"orchestration des tâches" pour supporter la concurrence massive d'Agents.

QComment la définition des capacités du modèle Qwen3.7-Max a-t-elle changé, et quel exemple concret le démontre ?

AL'accent est passé de la recherche d'un modèle qui "parle bien" à un modèle qui "peut accomplir des tâches". Un exemple concret : sur la nouvelle puce Zhenwu M890, qu'il n'avait jamais rencontrée pendant l'entraînement, Qwen3.7-Max a travaillé de manière autonome pendant 35 heures en suivant uniquement une description de tâche. Il a écrit et optimisé un noyau de calcul IA de niveau production, améliorant les performances d'un facteur 10 par rapport à la version officielle, sans intervention humaine.

QQuels sont les nouveaux indicateurs clés de performance (KPI) pour l'équipe commerciale de MaaS chez Alibaba Cloud, remplaçant les anciennes mesures ?

ALes nouveaux KPI ne se concentrent plus uniquement sur le volume d'appels, mais sur les "Tokens de haute qualité" - ceux qui résolvent des problèmes pratiques. Les trois indicateurs principaux sont : la croissance quotidienne du nombre de clients payants, le nombre de systèmes métiers centraux intégrant des modèles, et l'efficacité avec laquelle les Agents accomplissent de manière autonome des tâches en boucle fermée.

QQuelle est la logique fondamentale derrière la reconstruction complète de la pile technologique par Alibaba Cloud, et quel est le véritable enjeu ?

ALa logique fondamentale est que l'ancien système conçu pour "l'utilisation du cloud par l'homme" doit être transformé en un nouveau système pour la "consommation de Tokens par les Agents". Le véritable enjeu est de parier sur un avenir que l'entreprise est convaincue de voir arriver : l'IA représentant une opportunité dix à cent fois plus grande que par le passé. Cela nécessite de reconstruire non seulement la technologie, mais aussi la structure des revenus, les relations clients et le système commercial.

Lectures associées

Matinée | Michael Saylor diffuse les informations du Bitcoin Tracker ; Aave publie l'enquête post-incident de l'attaque du pont Kelp rsETH ; Gravity Bridge suspend son service après avoir été attaqué

**Résumé en français :** Ces dernières 24 heures dans l'écosystème crypto ont été marquées par des développements réglementaires, des incidents de sécurité et des analyses de marché. **Réglementation et Adoption Institutionnelle :** * La société numérique **Laser Digital** a obtenu une approbation préliminaire pour créer une banque fiduciaire régulée au niveau fédéral aux États-Unis. * Le **Vietnam** envisage de permettre aux PME d'utiliser des actifs numériques comme garantie pour les prêts bancaires. * Le président de la SFC de **Hong Kong** a annoncé une forte croissance du volume des transactions sur les plateformes d'actifs virtuels agréées. **Sécurité et Incidents :** * Le pont inter-chaînes **Gravity Bridge** (Cosmos) a été attaqué et a suspendu ses services. * **Aave** a publié l'enquête post-incident sur l'attaque du pont Kelp rsETH, soulignant que la vulnérabilité provenait de l'infrastructure tierce du pont (LayerZero) et non du protocole Aave lui-même. Les mesures de protection ont été activées et les fonctions affectées sont largement restaurées. * Aux **États-Unis**, la SEC a intenté un procès contre l'auteur présumé d'une escroquerie crypto de 12,3 millions de dollars promettant des rendements élevés via un faux robot de trading IA. **Actualités du Marché et Analyses :** * **Michael Saylor** a de nouveau publié des informations sur le Bitcoin Tracker, laissant présager une nouvelle annonce d'acquisition par MicroStrategy la semaine prochaine. * Un gouverneur de la **Fed** a commenté que l'adoption massive des stablecoins pourrait amplifier la portée de la politique monétaire américaine. * Santiment note un ratio long/court record sur Bitcoin, pouvant signaler un correctif à court terme, et un sentiment "FUD" sur Ethereum qui pourrait être un signal haussier contraire. * En **Chine**, un homme a été condamné à 10 ans de prison pour le vol de 107 BTC via l'appropriation de la phrase de récupération d'un portefeuille. **Tendances Meme :** Les jetons les plus populaires sur les réseaux ETH, Solana et Base au cours des dernières 24 heures sont également listés, avec HEX, SHIB, TROLL et toby en tête de leurs catégories respectives.

链捕手Il y a 17 mins

Matinée | Michael Saylor diffuse les informations du Bitcoin Tracker ; Aave publie l'enquête post-incident de l'attaque du pont Kelp rsETH ; Gravity Bridge suspend son service après avoir été attaqué

链捕手Il y a 17 mins

Alibaba « met en rayon », ByteDance « s’entraîne »

Durant la dernière semaine de mai, deux événements consécutifs dans l'industrie de l'IA ont révélé les stratégies divergentes des géants chinois Alibaba et ByteDance. Alibaba adopte une approche d'application immédiate et de monétisation. Son modèle Qwen est intégré à Taobao pour des fonctionnalités comme l'essayage virtuel et la comparaison de prix, visant à transformer l'expérience d'achat. L'entreprise se positionne comme l'infrastructure ("eau, électricité, gaz") et la "caisse enregistreuse" de l'ère IA, avec ses services cloud alimentant de nombreux modèles locaux. Cette stratégie, soutenue par des réorganisations internes et l'initiative "AI Credit", génère déjà des revenus, comme en témoigne la croissance de 40% des revenus cloud externes. Cependant, elle suppose que les capacités des modèles de base n'évolueront pas assez vite pour rendre ses applications obsolètes. ByteDance, via son département Seed, privilégie la recherche fondamentale à long terme. Son objectif est "d'explorer les limites de l'intelligence". Son modèle de génération vidéo Seedance 2.0, salué comme le plus performant au monde, et des publications académiques ambitieuses sur les "modèles du monde" illustrent cette voie. La société, qui n'est pas cotée en bourse, peut se permettre d'engager des dépenses d'investissement massives (jusqu'à 470 milliards de yuans en 2026 selon des rapports) et d'accorder à ses chercheurs le temps de publier sans pression commerciale immédiate. Mais cette approche "laboratoire Nobel" commence à être questionnée par des signes de commercialisation sur des produits comme Doubao. L'article suggère que cette divergence stratégique tient moins à une philosophie qu'à un statut : Alibaba, société cotée, est soumis à la pression des marchés pour montrer des retours rapides, tandis que ByteDance, privée, peut investir sur le très long terme. Le jour où ByteDance envisagera une introduction en bourse, la pérennité de sa stratégie de recherche pure sera véritablement mise à l'épreuve.

marsbitIl y a 1 h

Alibaba « met en rayon », ByteDance « s’entraîne »

marsbitIl y a 1 h

Trois ans plus tard : Retour sur mon jugement de 2023 concernant ChatGPT

Trois ans après ses prédictions sur ChatGPT en mars 2023, Wang Jianshuo revient sur ses vingt affirmations initiales, évaluées en mai 2026 par des agents IA. Sur les vingt points, la majorité des tendances de fond étaient correctes : l'essor du RAG comme architecture dominante pour l'injection de connaissances, le rôle central de l'interface utilisateur en langage naturel (LUI), l'émergence de protocoles pour un "réseau d'agents", et le rattrapage technologique rapide des modèles chinois. Des erreurs notables portent sur des chiffres précis, comme les 100 billions de paramètres supposés de GPT-4 (en réalité environ 1,8 billion) ou une estimation trop basse des coûts de formation des grands modèles. Certaines prévisions se sont révélées trop absolues ("l'IA ne fera jamais de mathématiques pures") ou ont négligé les disparités (aucune vague de chômage massif, mais un impact sévère sur les jeunes diplômés). L'analyse révèle que les intuitions sur les mécanismes et les directions se sont avérées bien plus fiables que les prédictions numériques ou temporelles, souvent trop optimistes à court terme. La prudence dans les formulations et la reconnaissance des incertitudes se sont montrées précieuses avec le recul. Ce bilan offre des leçons pour les futurs pronostics : privilégier les tendances aux chiffres, anticiper les effets distributifs et accepter que certaines questions demandent plus de trois ans pour être tranchées.

marsbitIl y a 9 h

Trois ans plus tard : Retour sur mon jugement de 2023 concernant ChatGPT

marsbitIl y a 9 h

Trading

Spot
Futures
活动图片