A finales de 2025, el informe anual de uso publicado por OpenRouter, la mayor plataforma de agregación de modelos de IA del mundo, mostró que el 47% de sus usuarios procedían de Estados Unidos, mientras que los desarrolladores chinos representaban el 6%. Además, el inglés constituía el 83% del contenido invocado en la plataforma, mientras que el chino no llegaba al 5%.
Sin embargo, en la semana del 3 de abril de 2026, seis de los diez modelos más invocados en la plataforma eran de China. En orden descendente de volumen de invocaciones: Xiaomi MiMo-V2-Pro, Step 3.5 Flash de Step星辰 (Estrella del Salto), MiniMax M2.7, DeepSeek V3.2, GLM 5 Turbo de Zhipu y MiniMax M2.5. Entre ellos, Xiaomi MiMo-V2-Pro ocupó el primer lugar en la plataforma con 4,82 billones de tokens.
De hecho, desde la semana del 9 al 15 de febrero de 2026, cuando el volumen de invocaciones de modelos chinos superó por primera vez al de Estados Unidos, el liderazgo de los modelos chinos se ha mantenido durante casi dos meses.
La plataforma OpenRouter agrega más de 400 modelos de IA, cubriendo más de 60 proveedores, y sus datos de volumen de invocaciones son considerados una ventana para observar las preferencias de los desarrolladores globales en la selección de modelos. Los desarrolladores pueden cambiar entre diferentes modelos en cualquier momento utilizando la misma API Key (una clave utilizada para autenticar identidad y invocar servicios).
Chris Clark, cofundador y COO de OpenRouter, declaró públicamente en febrero de 2026 que los modelos de código abierto chinos tenían una representación "desproporcionadamente alta" en los flujos de trabajo de Agent (agente inteligente) ejecutados por empresas estadounidenses. Simultáneamente, las discusiones en la comunidad de desarrolladores sobre la distribución de tareas entre modelos y la optimización de costos también han aumentado.
Algunas perspectivas comparan este fenómeno con la industria manufacturera china de hace 30 años: en ese entonces, China se integró en la cadena de suministro global de electrónica aprovechando su ventaja de costos en el ensamblaje, dando lugar a empresas de ensamblaje como Foxconn y Luxshare Precision; hoy, los grandes modelos chinos también están ingresando al eslabón de ejecución de la cadena de suministro global de IA con ventajas de precio. Otra perspectiva ve a los grandes modelos chinos como el "Foxconn de la era de la IA".
¿Qué papel juegan los grandes modelos chinos en la cadena de suministro de IA? ¿Cuál es el valor real de este papel?
Ventaja de precio
Un periodista de Economic Observer, tras revisar los precios oficiales de las API de varios fabricantes hasta finales de marzo de 2026, descubrió que existe una gran brecha de precios entre los principales modelos grandes de China y Estados Unidos.
Tomando como ejemplo el precio de entrada (input), entre los modelos chinos, DeepSeek V3.2 cuesta 0,28 dólares por millón de tokens, MiniMax M2.5 cuesta 0,3 dólares, y Kimi K2.5 de Moonshot AI cuesta 0,42 dólares. Entre los modelos estadounidenses, Anthropic Claude Opus 4.6 cuesta 5 dólares, y OpenAI GPT-5.4 cuesta 2,50 dólares. El precio de entrada de los modelos principales estadounidenses es aproximadamente de 10 a 20 veces mayor que el de los modelos chinos.
La diferencia en el precio de salida (output) es aún más notable. Para los modelos chinos, DeepSeek V3.2 cuesta 0,42 dólares por millón de tokens, MiniMax M2.5 cuesta 1,1 dólares, y Kimi K2.5 cuesta 2,2 dólares. Para los modelos estadounidenses, OpenAI GPT-5.4 cuesta 15 dólares, y Claude Opus 4.6 cuesta 25 dólares. La brecha de precios de salida entre los modelos principales chinos y estadounidenses es de aproximadamente 7 a 60 veces.
Esta diferencia de precio siempre ha estado presente, pero anteriormente no provocó una migración masiva de usuarios por una razón simple: la principal场景 (escenario) de uso de la IA para la mayoría de las personas era el chat, donde el consumo de tokens es bajo y la diferencia de precio tiene un impacto mínimo.
Sin embargo, a principios de 2026, la aparición de una "langosta" (lobster) cambió todo esto. La herramienta de código abierto OpenClaw (llamada "Langosta" por la comunidad de desarrolladores) se popularizó rápidamente alrededor de febrero de 2026, llegando pronto al primer puesto en el ranking de aplicaciones de OpenRouter, consumiendo más de 600 billones de tokens en una sola semana. "Langosta" es una aplicación de agente inteligente; a diferencia del modo de chat de "pregunta y respuesta" del pasado, permite a la IA ejecutar de forma autónoma en la computadora tareas como programación, pruebas, gestión de archivos, etc., sin necesidad de intervención humana paso a paso.
En este modo de trabajo, el consumo de tokens no está en el mismo orden de magnitud que en los escenarios de chat.
Por ejemplo, una tarea de programación podría requerir docenas de ciclos de "escribir código - ejecutar - error - modificar - ejecutar nuevamente", donde cada ciclo es una invocación completa del modelo. Para que el agente recuerde las operaciones anteriores, cada invocación también necesita incluir el historial de la conversación (contexto).
Algunos desarrolladores han indicado en plataformas sociales que el contexto de una sesión activa de OpenClaw puede fácilmente expandirse a más de 230.000 tokens. Si se utiliza la API de Claude durante todo el proceso, el costo mensual podría estar entre 800 y 1500 dólares. Otros usuarios mencionaron que una tarea automatizada mal configurada les costó 200 dólares en un solo día.
Aplicaciones de agente como OpenClaw han impulsado el volumen total de consumo de tokens en la plataforma. Por ejemplo, en la semana del 3 al 9 de marzo de 2025, el volumen de invocaciones semanal total de los diez principales modelos en OpenRouter fue de 1,24 billones de tokens. Para la semana del 16 al 22 de febrero de 2026, solo el volumen de invocaciones semanal de los diez principales modelos superó los 8,7 billones de tokens, un aumento de casi 7 veces. La proporción de tareas de programación en el consumo total de tokens de la plataforma también aumentó del 11% a principios de 2025 a más del 50% a finales de 2025.
Cuando el consumo de tokens por tarea individual aumenta de miles a cientos de miles, la diferencia de precio entre los modelos chinos y estadounidenses se convierte de un costo insignificante en una diferencia significativa de cientos o incluso miles de dólares al mes.
Alrededor del 19 de febrero de 2026, la empresa estadounidense de grandes modelos Anthropic actualizó sus términos de servicio, prohibiendo a los usuarios conectar sus credenciales de cuenta de suscripción de Claude a herramientas de terceros como OpenClaw, exigiendo el pago por uso a través de la API. Posteriormente, Google impuso restricciones similares. Para las aplicaciones de agente que necesitan invocar la API con frecuencia todos los días, el factor del precio en la selección del modelo se convirtió en un problema ineludible, empujando a los desarrolladores hacia la pista de pago por uso.
En el escenario central de programación para agentes, las capacidades de los modelos chinos y estadounidenses ya son bastante cercanas.
SWE-Bench Verified es una evaluación pública de capacidad de programación mantenida por un equipo de investigación de la Universidad de Princeton, que consiste en que los modelos de IA corrijan problemas reales de código en GitHub (la mayor plataforma de alojamiento de código abierto del mundo). Según los datos del ranking público de esta evaluación, el modelo chino MiniMax M2.5, publicado el 13 de febrero de 2026, obtuvo un 80,2%, y el modelo estadounidense Claude Opus 4.6, publicado el 5 de febrero, obtuvo un 80,8%, con una diferencia de solo 0,6 puntos porcentuales.
Con capacidades similares y precios muy diferentes, la elección de los desarrolladores se reflejó rápidamente en los datos.
En la semana del 9 al 15 de febrero de 2026, el volumen de invocaciones de tokens de modelos chinos alcanzó los 4,12 billones, superando por primera vez los 2,94 billones de los modelos estadounidenses. La semana siguiente, el volumen de invocaciones de modelos chinos aumentó a 5,16 billones, un crecimiento del 127% en tres semanas. En el mismo período, el volumen de invocaciones de modelos estadounidenses cayó a 2,7 billones.
¿Por qué los grandes modelos chinos pueden ser mucho más baratos que los estadounidenses?
Pan Helin, miembro del Comité de Expertos en Economía de Comunicaciones e Información del Ministerio de Industria y Tecnología de la Información, explicó al Economic Observer que las razones principales son dos: primero, la infraestructura de computación de China tiene una gran escala y una alta tasa de reutilización, lo que ofrece precios más bajos; segundo, los clústeres de computación chinos incluyen una gran cantidad de capacidad de computación autoconstruida, cuyo costo de adquisición es menor que en el extranjero.
Además, la ruta tecnológica también afecta los costos. Profesionales del sector informaron que los principales grandes modelos chinos adoptan普遍mente la arquitectura MoE (Mixture of Experts o Modelo de Expertos Mixtos). En términos simples, aunque un modelo MoE tiene un gran número total de parámetros, cada vez que se ejecuta solo activa una pequeña parte de ellos para procesar la tarea, en lugar de todos los parámetros, lo que reduce significativamente la cantidad de cálculo required por cada inferencia.
Diferentes caminos
Martin Casado, socio de la firma de capital de riesgo de Silicon Valley a16z, declaró a finales de 2025 que alrededor del 80% de las startups de IA que utilizan stacks tecnológicos de código abierto usan modelos chinos. Posteriormente aclaró en una plataforma social que esto no significaba que el 80% de las startups de IA estadounidenses usaran modelos chinos, sino que entre aquellas que eligen la ruta de tecnología de código abierto (que representan aproximadamente del 20% al 30% de todas las startups de IA estadounidenses), alrededor del 80% utilizaba modelos chinos.
El periodista notó que en GitHub han aparecido varias herramientas de código abierto que ayudan a los desarrolladores a optimizar costos entre diferentes modelos. Su idea general es clasificar las tareas por dificultad, asignando las tareas simples a modelos chinos gratuitos o de bajo costo, y reservando los modelos estadounidenses caros para las tareas complejas.
Uno de estos proyectos, llamado ClawRouter, proporciona en su documentación datos comparativos que muestran que al adoptar este enfoque combinado, el costo promedio se redujo de 25 dólares por millón de tokens a aproximadamente 2 dólares. ClaudeCode, un producto de Anthropic, también adopta un diseño similar por capas en su documentación oficial, utilizando por defecto el modelo más barato para tareas cotidianas.
La premisa para que este模式 (modo) funcione es que la capacidad de los modelos chinos sea suficiente para las tareas de ejecución. En programación, los datos de SWE-Bench mencionados anteriormente ya lo demuestran. Pero, más allá de la programación, ¿cuál es la brecha general de capacidad entre los grandes modelos chinos y estadounidenses?
LMSYS Chatbot Arena es actualmente una de las plataformas de evaluación de modelos de IA más reconocidas a nivel mundial. Su método consiste en que usuarios reales prueben dos modelos simultáneamente sin saber sus nombres y luego voten por el mejor, equivalentemente una cata a ciegas entre IAs.
En su ranking综合 (general) hasta el 25 de marzo de 2026, los primeros cinco puestos correspondían a modelos de empresas estadounidenses. El modelo chino mejor posicionado, DeepSeek V3.2 Speciale, ocupó el sexto lugar. En la categoría Hard Prompts (Indicios de alta dificultad,专门用于测试模型处理复杂推理和多步逻辑任务的能力 - utilizados específicamente para probar la capacidad de los modelos para manejar razonamiento complejo y tareas lógicas de múltiples pasos), la brecha entre los modelos chinos y estadounidenses es más evidente, y el primer escalón sigue estando compuesto principalmente por modelos estadounidenses.
Capacidad de programación cercana, razonamiento complejo aún con cierta brecha: esta es la manifestación de las capacidades diferenciadas entre los grandes modelos chinos y estadounidenses en la actualidad, y también la base sobre la que se sustenta el enfoque de "invocación por capas".
Sin embargo, a diferencia de las empresas de ensamblaje enclaustradas en bajos márgenes de beneficio hace 30 años, los fabricantes de grandes modelos chinos no han seguido bajando los precios de forma continua.
De hecho, desde 2024, la industria de grandes modelos chinos experimentó una guerra de precios: en mayo de 2024, el modelo Doubao de Volcano Engine, subsidiaria de ByteDance, desató una "guerra de precios" con un precio de 0,0008 yuanes por mil tokens, a lo que siguieron Alibaba Cloud y Baidu Intelligent Cloud. Durante el año siguiente, la industria experimentó una caída de más del 90% en el precio de los tokens, y el margen bruto de la capacidad de inferencia de algunos fabricantes fue negativo en algún momento.
La estrategia de los fabricantes en ese momento era aceptar pérdidas para ganar escala y cultivar el hábito de invocación de los usuarios. Sin embargo, después de que OpenClaw se popularizara en febrero de 2026, la velocidad de crecimiento del consumo de tokens superó con creces las expectativas y la oferta de capacidad de computación se tensó.
Zhipu fue el primero en reaccionar: el 12 de febrero de 2026, al lanzar el nuevo modelo GLM-5, aumentó el precio de su API, y el 16 de marzo, al lanzar GLM-5-Turbo, lo volvió a aumentar, con un incremento acumulado del 83% en dos rondas.
Zhang Peng, CEO de Zhipu, declaró en la conferencia de resultados anuales de 2025 que en el primer trimestre de 2026 el precio de invocación de la API aumentó un 83%, mientras que el volumen de invocaciones creció un 400%. Según el informe anual, los ingresos totales de Zhipu en 2025 fueron de 724,3 millones de yuanes, un aumento interanual del 132%, y los ingresos recurrentes anuales de su plataforma MaaS (Modelo como Servicio) fueron de aproximadamente 1700 millones de yuanes, con un crecimiento de 60 veces en 12 meses.
Zhipu no fue el único en optar por subir los precios. El 13 de marzo de 2026, Tencent Cloud ajustó los precios de su serie de grandes modelos Hunyuan, con aumentos superiores al 460% en algunos modelos. El 18 de marzo, Alibaba Cloud y Baidu Intelligent Cloud publicaron anuncios de ajuste de precios el mismo día, con aumentos entre el 5% y el 34% en productos relacionados con la capacidad de computación de IA, entrando en vigor los nuevos precios el 18 de abril.
Li Bin, vicepresidente senior de Sugon, declaró en una entrevista con Economic Observer que los indicadores de evaluación de los sistemas de computación están cambiando: antes, el estándar para medir un sistema era ver cuánta capacidad de computación tenía, ahora es ver cuán económicamente puede producir tokens.
El cambio de una reducción colectiva de precios a un aumento colectivo tomó menos de dos años.
En marzo de 2026, Liu Liehong, director de la Administración Nacional de Datos de China, anunció en el Foro de Desarrollo de China un dato: la invocación diaria de tokens en China había superado los 140 billones, con un crecimiento de más de 1000 veces en comparación con hace dos años.
En la conferencia GTC del mismo mes, Jensen Huang, fundador de NVIDIA, declaró que el token será la materia prima más核心 (core) del mundo digital futuro.
En opinión de Pan Helin, la competitividad de los grandes modelos chinos es muy fuerte, no están completando, sino liderando, especialmente en el lado de las aplicaciones de IA. Sin embargo, también señaló que China todavía tiene margen de mejora en innovación original: las arquitecturas centrales en el sistema actual de IA, desde las redes neuronales artificiales hasta el mecanismo de atención, fueron propuestas primero en el extranjero y luego iteradas en China. El siguiente paso para los grandes modelos chinos necesita ser, mientras continúan impulsando el lado de la aplicación, desplegar una innovación original en algoritmos básicos.
La industria de ensamblaje de electrónica de consumo hace 30 años tenía una característica: el margen de beneficio del eslabón de ensamblaje estaba firmemente presionado por las marcas upstream (aguas arriba), y muchas de las principales empresas de ensamblaje至今 (hasta hoy) no han superado un margen bruto del 10%. La ventaja de costos trajo pedidos, pero no trajo poder de fijación de precios.
Actualmente, la situación de los grandes modelos chinos parece tener某些 (algunas) similitudes con la industria de ensamblaje de electrónica de consumo de entonces, pero似乎 (parece) ser bastante diferente en cuanto al poder de fijación de precios. Por ejemplo, después de que Zhipu aumentara sus precios un 83%, el volumen de invocaciones creció un 400%. Alibaba Cloud, Baidu Intelligent Cloud y Tencent Cloud aumentaron colectivamente los precios de la capacidad de computación de IA y los servicios de modelos en marzo de 2026, y la demanda no se contrajo; el volumen de invocaciones continuó creciendo.
En la evaluación de programación SWE-Bench, la brecha entre los principales modelos chinos y estadounidenses se ha reducido a menos de 1 punto porcentual. La brecha en el razonamiento complejo aún persiste, pero también se está cerrando rápidamente.
Esta vez, el camino de desarrollo de los fabricantes de grandes modelos chinos似乎 (parece) ser diferente.
Este artículo proviene del WeChat público "经济观察报" (Economic Observer), autor: Zheng Chenye







