Escrito por: Zhao Ying
Fuente: Wall Street Insights
La comercialización de las aplicaciones de IA se está extendiendo desde la venta de software y membresías hasta la venta de capacidad de uso de tokens. Aquí, los tokens son las unidades mínimas de información que procesan los grandes modelos, y también son la base para la facturación, liquidación y consumo de las API de los modelos. A medida que aumenta el volumen de llamadas, los tokens en sí comienzan a ser tratados como un "inventario" que se adquiere, enruta, divide y revende.
Chen Liangdong, analista de Huayuan Securities, resumió en un informe temático reciente sobre el sector de medios que el cambio central es: "La operación de tokens está formando un nuevo mercado de capa intermedia, es decir, se está explorando un modelo de distribución de tokens que conecta a los proveedores de modelos grandes aguas arriba con los desarrolladores, empresas e individuos aguas abajo, siendo en esencia una infraestructura de liquidez para la red global de distribución al por mayor y al por menor de tokens."
El contexto de este negocio no es complejo: por un lado, el volumen de llamadas de tokens en China está aumentando rápidamente, pasando de 100 mil millones diarios a principios de 2024 a 100 billones a finales de 2025, superando los 140 billones en marzo de 2026. Por otro lado, los grandes modelos nacionales chinos han mejorado significativamente, ubicándose en algunos rankings y volúmenes de llamadas dentro de la primera línea global. La demanda aumenta, los modelos proliferan, y los factores que realmente dificultan las transacciones se convierten en el pago, la red, las interfaces, el cumplimiento normativo, los canales y la implementación en escenarios.
Pero la distribución de tokens no puede entenderse simplemente como "revender cuotas de API". La capa más delgada de ganancias proviene del margen de reventa, mientras que partes más sustanciales provienen de la aceleración de inferencia, interfaces unificadas, ingeniería de prompts para empresas, orquestación de agentes, selección de modelos e integración con sistemas de negocio. Precisamente porque el umbral de entrada no es muy alto, los riesgos de este mercado son también directos: la intensificación de la competencia, el financiamiento anticipado y las deudas incobrables, y los cambios en las políticas de los proveedores de modelos aguas arriba pueden comprimir las ganancias de la capa intermedia.
Los tokens comienzan a tener "mayoristas" y "minoristas"
La cadena básica de distribución de tokens incluye tres tipos de roles.
Aguas arriba están los proveedores de modelos, incluidas las series Seedance de ByteDance, Qwen de Alibaba, GLM de Zhipu AI, Kimi de Moonshot AI, DeepSeek, entre otros. Son la fuente de suministro de tokens.
En el medio están las plataformas de agencia, responsables de adquirir recursos de modelos aguas arriba y redistribuirlos a los usuarios finales. Su trabajo no es solo revender cuotas, sino también convertir los protocolos de interfaz de diferentes modelos a un formato de API unificado, permitiendo que aguas abajo se puedan llamar múltiples modelos con una sola clave API.
Aguas abajo están quienes realmente consumen los tokens, incluidos usuarios individuales, desarrolladores, clientes empresariales y, potencialmente, otros distribuidores de nivel inferior.
El valor de esta capa intermedia se concentra en varios aspectos: conexión directa dentro de China para reducir la barrera de red; un solo conjunto de código adaptable a múltiples modelos; soporte para pagos personales y corporativos; posible acceso a costos más bajos mediante compras al por mayor; agregación de diferentes modelos como GPT, Claude, DeepSeek, Kimi, etc., en una sola plataforma, reduciendo el costo para los desarrolladores de integrar repetidamente.
Por lo tanto, la distribución de tokens parece ser de activos ligeros, ya que no requiere entrenar modelos propios ni grandes clústeres de servidores. Los activos centrales se convierten en el sistema de enrutamiento y programación de API, los recursos de modelos aguas arriba, los canales de clientes y la capacidad de servicio.
El aumento explosivo del volumen de llamadas es el combustible más directo para este negocio
Para que el modelo operativo de tokens sea viable, primero debe haber un volumen de consumo suficientemente grande.
El volumen diario promedio de llamadas de tokens en China aumentó más de mil veces en dos años, pasando de 100 mil millones a más de 140 billones. La expansión del volumen de llamadas proviene de la implementación de varios agentes verticales, así como de la integración de IA generativa por parte de las empresas en más procesos comerciales.
Los datos de IDC ofrecen un camino más agresivo: se prevé que el número de agentes inteligentes activos en empresas chinas supere los 350 millones para 2031, con una tasa de crecimiento anual compuesto superior al 135%; a medida que aumentan la densidad y complejidad de las tareas de los agentes inteligentes, se espera que el aumento anual promedio en el consumo de tokens por parte de los agentes supere las 30 veces.
Ya se puede observar este cambio en los agentes de ejecución. El consumo semanal de tokens de OpenClaw en la plataforma OpenRouter aumentó de 0.81T entre el 2 de febrero y el 16 de marzo de 2026 a 4.97T, y su participación aumentó del 8.31% al 24.36%.
Una vez que los tokens se convierten en un producto de consumo a gran escala, la adquisición, fijación de precios, enrutamiento y liquidación en torno a ellos se estratifican naturalmente. Los proveedores de modelos pueden no atender directamente a cada cliente, y los clientes finales pueden no estar dispuestos a integrarse individualmente con cada modelo, creando así espacio para la capa intermedia.
La relación calidad-precio de los modelos nacionales abre la puerta a la exportación de tokens
La mejora en las capacidades de los grandes modelos nacionales chinos es una variable clave para que la distribución de tokens pase de ser nacional a transfronteriza.
Los datos de SuperCLUE muestran que modelos nacionales como Doubao de ByteDance y la serie DeepSeek ya han superado los 70 puntos en su puntuación integral, reduciendo la brecha con modelos líderes globales como GPT-5.4 y Gemini; modelos como Tongyi Qianwen, Kimi y Zhipu GLM también han formado una jerarquía relativamente clara.
Según los datos de OpenRouter, en la semana hasta el 10 de mayo de 2026, la versión gratuita de vista previa de Tencent Hy3 ocupó el primer lugar en volumen de llamadas; entre los cinco, diez y veinte primeros puestos, había respectivamente 2, 6 y 9 grandes modelos nacionales chinos.
Un cambio más significativo ocurrió en el primer trimestre de 2026. Del 9 al 15 de febrero, el volumen semanal de llamadas de modelos chinos en OpenRouter alcanzó los 4.12 billones de tokens, superando por primera vez los 2.94 billones de tokens de los modelos estadounidenses en el mismo período. Del 16 al 22 de febrero, el volumen semanal de llamadas de modelos chinos aumentó aún más a 5.16 billones de tokens; entre los cinco principales modelos por volumen de llamadas en la plataforma, cuatro eran de fabricantes chinos: MiniMax M2.5, Kimi K2.5, Zhipu GLM-5 y DeepSeek V3.2, que juntos contribuyeron al 85.7% del volumen total de llamadas del Top 5.
La ventaja de precios también es notable. El precio de entrada de MiniMax M2.5 y GLM 5 es de $0.3 USD por millón de tokens, mientras que el de Claude Opus 4.6 es de $5 USD; en cuanto al precio de salida, MiniMax M2.5 es de $1.1 USD, GLM 5 es de $2.55 USD y Claude Opus 4.6 es de $25 USD. La diferencia en la relación calidad-precio de los modelos nacionales se ampliará continuamente en escenarios de alto consumo de tokens, como agentes de IA y desarrollo de código.
El desequilibrio global de recursos de IA convierte a las plataformas de enrutamiento en "estaciones de transferencia"
La distribución de tokens no solo resuelve problemas de precios, sino también de desajuste de recursos.
Los grandes modelos líderes en el extranjero enfrentan restricciones de acceso geográfico, reglas de cumplimiento y barreras de pago, lo que les impide llegar directamente a ciertos usuarios, incluidos los desarrolladores de la China continental. Los grandes modelos nacionales de calidad que se dirigen al extranjero también encuentran desafíos en adaptación local, establecimiento de canales y adquisición de usuarios.
Este desequilibrio genera demanda de flujo transfronterizo, agregación de enrutamiento y distribución estratificada.
OpenRouter ya es un ejemplo típico. Su plataforma procesó un volumen de tokens que pasó de 5 a 7 billones semanales en 2025 a más de 20 billones semanales en abril de 2026; sus ingresos anualizados para 2026 superaron los 50 millones de dólares, aproximadamente cinco veces más que los más de 10 millones de dólares anualizados reportados en octubre de 2025.
También existen plataformas similares en China. Silicon Cloud es una plataforma de servicios en la nube integral para grandes modelos, que proporciona aceleración de inferencia eficiente basada en su propio motor de inferencia y al mismo tiempo ofrece servicios de modelos grandes de nivel empresarial. Hasta diciembre de 2025, la plataforma tenía más de 9 millones de usuarios registrados, más de 10,000 usuarios empresariales y más de 150 modelos implementados.
Incluso el capital relacionado con la política estadounidense ha entrado en este sector. El 5 de mayo de 2026, WLFI, una empresa de criptomonedas con vínculos estrechos con Trump y su familia, junto con WorldClaw, lanzaron WorldRouter, integrando más de 300 modelos como Claude, GPT y Gemini, con liquidación en USD1 y precios aproximadamente un 30% más bajos que las tarifas oficiales públicas.
El verdadero beneficio no está necesariamente en el "margen de reventa"
La distribución de tokens tiene tres formas de generar ganancias.
La primera es el margen de reventa. La plataforma adquiere cuotas de API al por mayor de los proveedores de modelos aguas arriba y las revende con un margen a los clientes aguas abajo. El recargo aproximado del 5.5% que aplica OpenRouter sobre el costo del proveedor es representativo de este modelo.
La segunda es la prima técnica. La plataforma reduce el costo operativo por token a través de su propio motor de aceleración de inferencia, obteniendo margen bruto a través de la diferencia de eficiencia computacional incluso cuando el precio de venta es cercano o inferior al precio oficial. Las tecnologías SiliconLLM y OneDiff de Silicon Cloud aumentan la velocidad de inferencia de los modelos de lenguaje 10 veces y la eficiencia de generación de imágenes a partir de texto 3 veces, reduciendo el costo de llamadas API de grandes modelos a una décima parte del de la industria.
La tercera son los servicios de valor agregado empresarial. El costo de implementar IA para las empresas no está solo en el precio unitario del token, sino también en la ingeniería de prompts, la selección de múltiples modelos, la integración con sistemas de negocio, la orquestación de flujos de trabajo, la programación y operación, y el desarrollo de habilidades de IA del personal. A medida que bajan los precios básicos de los tokens, estos costos ocultos pueden convertirse más fácilmente en puntos de pago.
La plataforma empresarial MaaS (Modelo como Servicio) de Silicon Cloud va en esta dirección: ofrece a los usuarios empresariales tres capas de capacidad: ajuste y optimización de modelos, implementación e inferencia, y soporte para el desarrollo de aplicaciones, cubriendo procesamiento de datos, ajuste fino de modelos, ingeniería de prompts y RAG, entregando finalmente en forma de API estandarizada a industrias como energía, finanzas y gobierno.
Marketing, dramas cortos, juegos y comercio electrónico son escenarios que consumen tokens más fácilmente
Para que la distribución de tokens sea rentable, finalmente debe aplicarse a escenarios reales.
Las aplicaciones de IA generativa están ingresando a industrias como la salud, el transporte en general y la fabricación industrial, y también están comenzando a participar en procesos centrales como el apoyo a la toma de decisiones empresariales y la gestión estratégica. Sin embargo, muchas empresas tienen una base débil para la transformación inteligente, una acumulación insuficiente de activos de datos y una inversión limitada en capacidad computacional, por lo que no es fácil implementar directamente capacidades de IA.
En comparación, las agencias de marketing y publicidad ya tienen clientes y escenarios en áreas como dramas cortos, cómics, juegos y comercio electrónico, donde la demanda de consumo de tokens es más directa y sostenida. Para este tipo de empresas, la oportunidad no es solo revender capacidades de modelos, sino integrar tokens en los flujos de trabajo de sus clientes, como generación de contenido, publicidad, producción de materiales y video.
Las líneas de inversión también se desarrollan a lo largo de dos ejes principales:
Un tipo son las empresas con capacidades de modelos de alta calidad, incluyendo Alibaba, Tencent Holdings, Kuaishou, Kunlun Tech, Zhipu AI, MiniMax, etc.
El otro tipo son empresas con escenarios de alto consumo de tokens y fuentes de clientes de calidad, especialmente aquellas con recursos de clientes en el extranjero y escenarios de marketing, dispuestas a invertir activamente en marketing con IA y video con IA, incluyendo Yidian Tianxia, BlueFocus, etc.
Los riesgos también son duros: bajo umbral de entrada, necesidad de financiación anticipada y dependencia de lo que decidan aguas arriba
El modelo comercial de distribución de tokens es liviano, pero su foso de protección no es naturalmente profundo.
La competencia entre pares es el primer riesgo. El umbral tecnológico del negocio de distribución es bajo, y una vez que los principales agentes ingresen con ventajas de capital, clientes y canales, pueden replicar rápidamente el modelo, comprimiendo los márgenes de ganancia.
El financiamiento anticipado y las deudas incobrables son el segundo riesgo. Los distribuidores a menudo utilizan liquidaciones mensuales o trimestrales con los clientes aguas abajo, pero necesitan financiar por adelantado al comprar cuotas de API aguas arriba. Cuanto mayor sea la escala de consumo de tokens, mayor será la presión de financiamiento; si los clientes retrasan los pagos, el riesgo de deudas incobrables se amplifica simultáneamente.
Los cambios en las políticas de los proveedores de modelos aguas arriba son el tercer riesgo. Los proveedores de grandes modelos controlan los precios de las API y las reglas de acceso, y pueden ajustar los precios o restringir las políticas de acceso de terceros. Para la capa intermedia, este es el factor más difícil de controlar.









