En los últimos cinco meses, los ingresos de MaaS de Alibaba Cloud han crecido 15 veces. Este es solo un aspecto de la reestructuración de Alibaba Cloud. En la cumbre, Alibaba Cloud anunció que ha completado la actualización de toda la pila "chip-nube-modelo-inferencia" a nivel de Agente. Simultáneamente, lanzó el nuevo sitio web oficial de IA "Qianwen Cloud", servidores de supernodos equipados con el chip de IA de diseño propio Zhenwu M890, y el modelo insignia más reciente, Qwen3.7-Max.
Como dijo Liu Weiguang, vicepresidente sénior de Alibaba Cloud: "Estamos construyendo la fábrica de IA más grande de China". La metáfora de la fábrica implica una lógica de producción completa: el chip es la materia prima, la nube es el taller, el modelo es la máquina, la plataforma de inferencia es la línea de producción, y la mercancía final producida son los Tokens.
Y la esencia de esta reestructuración es transformar todo el sistema construido durante los últimos 17 años en torno al "uso de la nube por personas" en un nuevo sistema centrado en el "consumo de Tokens por parte de Agentes".
La carta de los chips, ¿por qué jugarla ahora?
Alibaba Cloud rara vez ha enfatizado públicamente los chips en el pasado. En esta cumbre, no solo presentó la nueva generación del chip de IA unificado para entrenamiento e inferencia Zhenwu M890, sino que también reveló, sin precedentes, la hoja de ruta de chips para los próximos dos años, avanzando gradualmente con las dos generaciones de productos Zhenwu V900 y Zhenwu J900.
El Zhenwu M890 cuenta con 144 GB de memoria de video, un ancho de banda de interconexión entre chips de 800 GB/s, y un rendimiento tres veces superior al de su predecesor, el Zhenwu 810E. En combinación con el chip de interconexión ICN Switch de diseño propio, 128 chips de IA pueden formar una sola máquina, con una latencia P2P inferior a 150 nanosegundos.
Pero más allá de los parámetros, la información clave es la escala: la serie Zhenwu ha acumulado un volumen de envío de 560,000 unidades, habiéndose introducido ya en más de 400 clientes de más de 20 industrias, como telecomunicaciones, FAW, y Shanghai Pudong Development Bank.
Liu Weiguang comparó repetidamente con Google. La integración profunda entre el TPU de Google y Gemini ha permitido a Google lograr la mejor relación costo-rendimiento dentro de su propio marco. Alibaba Cloud, por supuesto, quiere seguir el mismo camino. Resumió la lógica competitiva en una frase: "Si en el futuro la competencia se basa en que cada chip pueda generar más Tokens de alta calidad que los de la competencia, entonces habremos ganado".
Sumado a la CPU Yitian, la tarjeta de red inteligente Panmai, y el chip controlador de almacenamiento Zhenyue, el panorama de chips de T-Head (Pingtouge) se ha extendido desde puntos individuales hasta cubrir completamente la potencia de cálculo, la red y el almacenamiento. Cuando la demanda de inferencia se expande exponencialmente, solo teniendo los chips en sus propias manos se puede controlar el coste marginal de cada Token.
La lógica no es compleja. Las compañías de modelos pueden competir en parámetros, pero los proveedores de nube finalmente compiten por quién ofrece Tokens más baratos, más estables y más rápidos. El chip es el punto de partida de esta guerra de costos.
La nube en sí también debe ser reescrita
Los chips resuelven el problema de "poder ejecutarlo", pero las necesidades de los Agentes respecto a la nube van mucho más allá del poder de cálculo.
La lógica de interacción de los productos de nube tradicionales está diseñada para humanos: abrir la consola, mirar los menús, configurar parámetros, hacer clic en botones. Este conjunto de cosas es completamente inutilizable para un Agente. Un Agente no ve páginas web ni hace clic en botones; necesita descripciones de capacidades estructuradas, protocolos de llamada estandarizados y retroalimentación predecible.
Li Feifei, CTO de Alibaba Cloud, usó un conjunto de contrastes para ilustrar el problema: la carga de trabajo de la nube tradicional es estable, una instancia de ECS puede ejecutarse durante meses o incluso años; pero la carga de trabajo de un Agente es "elástica sin patrón, de ciclo de vida corto, con picos instantáneos que llegan y se van". Cuando un Agente completa una tarea, su entorno de sandbox se destruye; la siguiente solicitud puede llegar en unos milisegundos o varias horas después.
Para ello, Alibaba Cloud ha hecho tres cosas.
Primero, hacer que los productos de nube sean "Skillizados", "MCPizados" y "CLIizados". En pocas palabras, encapsular cada producto de nube en una interfaz estandarizada que un Agente pueda invocar directamente, como invocar una función.
Segundo, construir un entorno de ejecución exclusivo para Agentes: sandbox ligero, colaboración multi-agente, memoria entre tareas y canales de flujo de datos.
Tercero, reconstruir la lógica de planificación, pasando de la "planificación de recursos" a la "planificación de tareas", porque cuando una gran cantidad de Agentes concurren simultáneamente, los métodos tradicionales de orquestación de recursos no pueden soportarlo.
Liu Weiguang señaló que algunas aplicaciones de IA, después de ser implementadas, automáticamente activan recursos en la nube en segundo plano: máquinas virtuales, instancias de bases de datos, entornos sandbox, todo el proceso sin intervención humana. La cantidad de recursos que un cliente activa automáticamente en un día equivale a lo que antes tomaba dos semanas de operación manual.
"Esto equivale a decir que los Agentes están usando la nube por sí mismos." Liu Weiguang proporcionó una relación de conversión calculada internamente: el consumo de Tokens se puede convertir proporcionalmente en el uso de GPU, y cada aumento en una GPU impulsa aproximadamente un aumento equivalente en CPU. Es decir, el crecimiento de los ingresos por Tokens no está erosionando los ingresos tradicionales de la nube, sino impulsándolos, siempre que la plataforma en la nube pueda manejar la carga de trabajo de los Agentes.
Por lo tanto, Alibaba Cloud no está añadiendo una capa de capacidad de IA al sistema existente, sino que está reescribiéndolo por completo, desde la forma de interacción y la lógica de planificación hasta el modelo de facturación y la forma de los productos.
El modelo no es para chatear
La tercera capa de la reestructuración completa de la pila es el modelo. Qwen3.7-Max ocupó el primer lugar nacional en la clasificación global de pruebas ciegas de Arena, superando a Kimi-K2.6, DeepSeek-v4-pro y GLM-5.1. El enfoque de esta presentación es la redefinición de la dirección de las capacidades del modelo por parte de Alibaba.
Zhou Jingren, responsable del modelo de lenguaje grande Tongyi de Alibaba, declaró: "En el pasado buscábamos que el modelo 'hablara bien'; ahora exigimos que el modelo 'pueda hacerlo'."
Tomando como referencia la práctica de Alibaba Cloud con chips, en el chip Zhenwu M890, con el que nunca tuvo contacto durante el entrenamiento, Qwen3.7-Max, basándose únicamente en una descripción de la tarea, trabajó de forma autónoma desde cero durante 35 horas, completando de manera independiente la escritura y optimización de un núcleo de computación de IA de nivel productivo. El rendimiento final fue 10 veces superior al de la versión oficial. Todo el proceso se llevó a cabo sin intervención humana ni orientación intermedia.
Esto demuestra la capacidad central del modelo en escenarios de Agentes: ejecución autónoma de largo alcance, recibiendo una tarea, descomponiéndola, planificándola, escribiendo código y depurándolo por sí mismo, trabajando de manera continua durante 35 horas sin parar.
Para soportar este nivel de demanda de inferencia, la plataforma Bailian también se actualizó correspondientemente: planificación unificada de pools para mejorar la utilización de GPU, caché de contexto para eliminar cálculos repetidos, y planificación elástica de rendimiento para enfrentar picos de concurrencia.
En cuanto al ecosistema, Bailian mantiene una integración abierta. Además de la matriz de modelos Qianwen, también incorporó modelos de terceros como Zhipu GLM-5.1, MiniMax M2.7 y MoonShot AI Kimi K2.6.
Liu Weiguang mencionó: "Los clientes en la práctica no usan solo un modelo, sino una combinación de varios. Nosotros proporcionamos las combinaciones, y los clientes encuentran la más adecuada para ellos en la plataforma". En el escenario de la cumbre, los altos ejecutivos de seis compañías líderes de modelos nacionales aparecieron juntos, creando una escena que evocaba una "alianza de IA nacional".
En los últimos tres meses, el modelo insignia Qianwen ha iterado de forma continua las versiones 3.5, 3.6 y 3.7. Este ritmo de lanzamiento en sí mismo transmite una señal: la competencia en capacidades de modelos está lejos de terminar, y Alibaba planea establecer una ventaja a largo plazo mediante la integración vertical de chips de diseño propio y modelos de diseño propio.
La verdadera apuesta de esta reestructuración
Mirando hacia atrás, la lógica subyacente de esta reestructuración completa de la pila por parte de Alibaba Cloud es simple y pura. Cuando el crecimiento de los ingresos por IA supera con creces el de los negocios tradicionales de nube, cuando los Tokens podrían reemplazar a las ECS como la mayor línea de productos, cuando los Agentes comienzan a activar automáticamente recursos en la nube sin necesidad de que un humano inicie sesión en la consola, todo el sistema tecnológico diseñado para personas llega a un punto en el que debe ser cambiado.
Pero la dificultad a nivel de ejecución es otra cosa. El propio Liu Weiguang admite que la transformación "es fácil de decir, pero muy difícil de hacer". En el pasado, el equipo de ventas trataba con los departamentos de TI de los clientes; ahora, para hacer MaaS, hay que dialogar con los departamentos de negocio o incluso con el CEO.
"Tu capacidad de diálogo y tu experiencia son requisitos de un nivel completamente diferente". Alibaba Cloud ya ha establecido vendedores especializados en MaaS para grandes clientes, separándolos de los vendedores tradicionales de IaaS, con evaluaciones y operaciones independientes.
Los indicadores de evaluación también están cambiando. Ya no solo se mira el volumen de llamadas, sino los "Tokens de alta calidad", aquellos que resuelven problemas reales, no los que charlan sin sustancia. Tres indicadores centrales: el crecimiento diario del número de clientes de pago, la cantidad de sistemas centrales de negocio que integran modelos, y la eficiencia con la que los Agentes completan de forma autónoma el ciclo de una tarea.
Estos ajustes a nivel organizativo y de mecanismos a menudo muestran el juicio real de una empresa mejor que los lanzamientos tecnológicos. Alibaba Cloud quiere reconstruir la estructura de ingresos, las relaciones con los clientes y el sistema de ventas. Liu Weiguang declaró: "Antes, cuando hacíamos nube, el presupuesto de TI del cliente era calculable, cuántos servidores había localmente, aproximadamente cuánto costaría migrarlos a la nube, podías ver el problema. Pero con MaaS, la respuesta a este problema la desconoces; una vez dentro, puede superar tus expectativas".
El problema ya no es visible, la respuesta tampoco es segura, pero Alibaba Cloud ha decidido desarmar y reescribir todo el sistema, porque lo único cierto es que la IA es una oportunidad diez o incluso cien veces mayor que cualquier otra anterior.
Esta es probablemente la información más destacable de esta cumbre: no cuánta potencia de cálculo tiene un chip en particular o en qué lugar se clasifica un modelo, sino que el mayor proveedor de nube de China está apostando, con una actitud radical cercana a la de una empresa emergente, por un futuro que está convencido que llegará. (Autor del artículo | Zhang Shuai, Editor | Yang Lin)








