Autor: Frank Fu, IOSG
El vacío que planteó David Cahn en 2023 nunca se llenó en el lado del entrenamiento. Se llenó en el lado del razonamiento, y el mercado solo ha empezado a tenerlo en cuenta en el precio en las últimas semanas. Cuando Nvidia reorganizó su reporte financiero en torno a "tokens de servicio", y cuando Cerebras salió a bolsa con una suscripción en exceso de 20 veces, la guerra por el cuello de botella había terminado. La verdadera pregunta se convirtió en la siguiente: cuando el razonamiento se convierte en un recurso escaso, ¿en qué capa de la pila de cómputo se asentará el valor?
I. Seguir a la GPU: del problema de los 200.000 millones de dólares al problema de los 600.000 millones de dólares
En 2023, David Cahn de Sequoia planteó la cuestión que pendía sobre toda la construcción de la IA: el "problema de los 200.000 millones de dólares". Por cada dólar gastado en comprar una GPU, se gastaba aproximadamente otro dólar en alimentarla en el centro de datos. Por lo tanto, el CapEx anual en GPUs significaba que esos chips finalmente tenían que generar unos 200.000 millones de dólares en ingresos para recuperar ese capital. Incluso asumiendo ingresos por IA muy generosos, encontró un vacío de más de 125.000 millones de dólares entre la "inversión" y "lo que realmente pagan los clientes finales". La preocupación era sencilla: las GPUs se estaban construyendo en exceso, por delante de la demanda real.
Un año después, el vacío no se había reducido, sino que se había ampliado. En su continuación de 2024, Cahn lo redefinió como el "problema de los 600.000 millones de dólares", a medida que el CapEx de los hiperescaladores se inflaba. La lógica bajista convergió en una forma familiar: la sobreconstrucción conduce a un exceso de oferta, y el exceso quema capital.
Ambos artículos se preguntaban realmente lo mismo: ¿quién llenará ese vacío? La respuesta nunca apareció en el libro de cuentas del lado del "entrenamiento". Apareció en el lado de la inferencia, y el mercado solo ha empezado a tenerlo en cuenta en el precio en estas últimas semanas.
II. La OPI de Cerebras y la presión de la inferencia
Cerebras salió a bolsa el jueves. Esta OPI obtuvo una suscripción en exceso de 20 veces, con un precio casi el doble del precio final incrementado el miércoles. La demanda no provenía de una apuesta por el "siguiente asesino de Nvidia", sino de algo más simple: el mercado comenzó a darse cuenta de que el verdadero cuello de botella en la IA es la inferencia, no el entrenamiento.
El punto fuerte de Cerebras es una arquitectura de chips que hace que la inferencia sea extremadamente rápida. No el entrenamiento, es la inferencia. Ese es precisamente el punto que emociona a Wall Street. El mercado de inferencia es recurrente, se expande con el uso. Cada vez que Claude responde una pregunta, cada vez que un agente ejecuta una tarea, consume potencia de cálculo. El entrenamiento ocurre solo una vez, la inferencia nunca se detiene.
J.P. Morgan estima que el tamaño del mercado de inferencia es de 10 a 50 veces mayor que el del entrenamiento. Cuando las máquinas comienzan a ejecutar tareas asignadas por otras máquinas, es decir, la expansión agencial (agentic), la demanda de inferencia deja de expandirse con el número de usuarios, sino con la potencia de cálculo misma.
III. Nvidia redibuja el mapa: la inferencia se convierte en titular
Si Cerebras fue el despertar del mercado, el último informe de resultados de Nvidia fue la confirmación desde la cima de la cadena de suministro. En la última conferencia de resultados, Jensen Huang dejó clara esa frase tácita: la demanda de IA está creciendo de forma parabólica. La razón es simple: la IA agencial (agentic AI) ha llegado. La IA convencional ha pasado de la inferencia única a la inferencia lógica y luego a la fase de agentes que utilizan sus propias herramientas y organizan tareas. Huang dijo: "Los Tokens ahora son rentables". En la era de la IA, la potencia de cálculo es ingresos y beneficios.
Esto remodela toda la industria. El entrenamiento es un costo único de construir un modelo, la inferencia es el costo recurrente de ejecutarlo, y el cuello de botella actual está en la inferencia, no en el entrenamiento.
Nvidia ha incorporado este juicio en su propia presentación de resultados. Ahora reporta en dos plataformas, no en una: Data Center (Centro de datos) y Edge Computing (Computación en el borde). El Centro de datos (aproximadamente 75 mil millones de dólares en el trimestre, +92% interanual) se desglosa aún más en Hyperscale (aproximadamente 38 mil millones de dólares, +12% trimestral) y ACIE, es decir, AI Cloud, Industrial y Enterprise (aproximadamente 37 mil millones de dólares, +31% trimestral). Una línea completamente nueva es Edge Computing: 6.4 mil millones de dólares, +29% interanual, cubriendo los endpoints donde realmente se ejecuta la IA agencial y la IA física, como PC, estaciones de trabajo, estaciones base AI-RAN, robots y automóviles.
El borde sigue representando menos del 8% de los ingresos totales, pero Nvidia ya lo ha elevado a una "segunda plataforma" al nivel del centro de datos. Esta señal es: la inferencia se está dividiendo en dos frentes, cloud inference (inferencia en la nube) en el centro de datos, y endpoint inference (inferencia en el punto final) en el borde, donde la IA debe ver, moverse y actuar en el mundo físico. La hoja de ruta sigue la misma lógica: Vera Rubin, que comenzará a enviarse en el tercer trimestre, tiene un rendimiento de inferencia de hasta 35 veces superior al de Blackwell; Huang también dio un nuevo TAM de 200 mil millones de dólares para Vera CPU, diseñado para cargas agenciales. Se espera que todas las empresas de modelos de vanguardia se cambien por completo a él desde el primer día.
Cuando la empresa más valiosa del planeta reorganiza su divulgación financiera en torno a "tokens de servicio", la disputa por el cuello de botella ha terminado. El resto de este artículo discute quién captura el valor cuando la inferencia (en lugar del entrenamiento) se convierte en un recurso escaso.
Primero, una aclaración de alcance. En estos dos frentes, este artículo discute cloud inference, es decir, las GPUs de centros de datos alquiladas que brindan servicios de API token externamente. Endpoint inference se ejecuta en chips locales dentro del propio dispositivo (Jetson, RTX, Drive, AI-RAN de Nvidia), sin pasar por la pila de alquiler y agregación de GPU subyacente. Aquí, considérelo como un viento de cola que amplifica toda la economía de inferencia y corrobora el argumento del cuello de botella, no como el mercado donde están Hyperbolic y Venice, que están completamente en la línea de la nube.
IV. La presión ya ha llegado
Anthropic es el canario en la mina. El uso superó con creces la capacidad preconfigurada, las quejas sobre Claude siendo "lobotomizado" inundaron Internet, incluyendo respuestas limitadas, razonamiento más lento, ventanas de contexto comprimidas. La solución fue pura potencia de cálculo: en mayo de 2026, Anthropic tomó el control de todo el centro de datos Colossus 1 de SpaceX, 220,000+ GPUs Nvidia, 300+ megavatios, y lo dedicó específicamente a la inferencia, no al entrenamiento.
Esta parte de la capacidad desbloqueó una serie de cambios en los límites, cada uno una señal. El 6 de mayo, Anthropic duplicó el límite de cinco horas de Claude Code, eliminó la limitación en horas pico y aumentó drásticamente los límites de tasa de la API de Opus. El 13 de mayo, aumentó el límite semanal de Claude Code otro 50% (hasta el 13 de julio). Luego, a partir del 15 de junio, hizo lo contrario a "ser generoso": separó el uso agencial y programático (Agent SDK, modo headless claude -p, pipeline de CI) de la suscripción plana y lo puso en un grupo de créditos medido de forma independiente (20 a 200 dólares mensuales, facturados según el precio de la API). Este último paso concentra toda la tesis en una sola acción: los agentes consumen inferencia a una velocidad que supera con creces el diseño de suscripción plana, por lo que deben tener un precio acorde a su "costo recurrente" real.
El entrenamiento es un gasto de capital único. La inferencia es un costo operativo recurrente que se acumula con interés compuesto con cada nuevo usuario, con cada nuevo agente.
V. Esta pila: seis capas, un cuello de botella
Cada aplicación de IA se asienta en una cadena de suministro que comienza en la fundición de obleas de TSMC y termina en el endpoint de la API:
La mayoría de las empresas solo poseen una de estas capas. Nvidia posee el silicio, CoreWeave posee el metal desnudo (bare metal), Together AI posee la optimización de inferencia, OpenRouter posee el enrutamiento de API de modelos.
Solo hay una excepción.
VI. Hyperbolic: la única empresa que abarca tres capas
Hyperbolic lanzó su mercado de GPUs bajo demanda en junio de 2025. En los primeros meses, su número de desarrolladores superó los 200.000, y sus usuarios incluían laboratorios de IA de vanguardia, motores de búsqueda y grandes plataformas de consumo.
Lo interesante es su arquitectura.
Hyperbolic no posee ni una sola GPU. Cada tarjeta proviene de neoclouds y centros de datos, incluidos CoreWeave, Lambda Labs, Nebius y operadores más pequeños con capacidad inactiva. Esto suena como una debilidad, pero en realidad es un foso defensivo.
Al situarse entre los proveedores y los consumidores de GPUs, Hyperbolic puede ver datos en tiempo real que otros no ven. Sabe quién está comprando qué GPU, a qué precio y en qué momento. Ve el exceso de oferta antes de que se haga público, ve el aumento de la demanda antes de que impacte en el mercado.
Hoy, el foso defensivo es en sí mismo esta agregación multi-nube. Hyperbolic une la capacidad fragmentada de docenas de nubes y centros de datos independientes en un grupo unificado y estandarizado, permitiendo a los desarrolladores alquilar la GPU más barata disponible en cualquier lugar, sin negociar con cada operador ni gestionar una pila de cuentas. Cuantas más nubes integre, más profunda será la liquidez y más ricos los datos de precios. Más adelante, el equipo está explorando cómo usar estos datos para modelar curvas de precios de GPUs y, finalmente, desplegar capital propio para suavizar la oferta y la demanda, actuando como creador de mercado para el cómputo físico; pero este objetivo sigue siendo temprano. Lo que realmente genera interés compuesto en el presente es la capa de agregación.
Esta es la rueda de la fortuna:
-
Integra más nubes → Más oferta agregada
-
Más oferta → Mercado más profundo y datos de precios en tiempo real
-
Mejores datos → Enrutamiento más inteligente ahora, modelos de precios a largo plazo
-
Mejor liquidez y precios → Más desarrolladores → Más nubes quieren integrarse
Ninguna otra empresa está intentando esto. Hyperbolic es la única empresa que abarca simultáneamente la capa de alquiler de GPUs, la capa de implementación y la capa de API de modelos.
VII. El espejo de Venice
Venice es la manifestación más clara de la economía de inferencia en la capa de aplicación, y un contraste útil con la posición de Hyperbolic. Es una aplicación de inferencia con prioridad en la privacidad: una API compatible con OpenAI, más suscripciones para consumidores (Free / Pro / Pro+ / Max), que enruta solicitudes a unos 75 modelos, aproximadamente dos tercios de los cuales son de código abierto o autoalojados (Llama, Mistral, Qwen, DeepSeek), y el resto son transmisiones anónimas a modelos de vanguardia cerrados. La clave es que Venice no posee una capacidad de cálculo significativa propia. La alquila a socios de GPU no revelados y proveedores de computación confidencial (NEAR AI Cloud, Phala), y paga a laboratorios de vanguardia por la transmisión, por lo que su verdadero costo de ingresos es la potencia de cálculo de inferencia, no el alojamiento SaaS.
Lo que Venice realmente vende es privacidad. La "privatización" aquí no es convertir el cómputo público en propiedad privada, sino envolver la inferencia commodity con una garantía: sin retención de datos, sin usarlos para entrenamiento, solicitudes anonimizadas, parte de la carga se ejecuta en TEE, de modo que ni siquiera el operador puede ver el texto plano. El cómputo subyacente es commodity, el precio extra se vende por este empaque de privacidad. Además, esta garantía es escalonada, no homogénea: para modelos de código abierto que se ejecutan en GPUs bajo su control o en TEE, se puede lograr una computación confidencial casi de extremo a extremo; pero para transmisiones anónimas a modelos cerrados como Claude o GPT, la privacidad solo elimina la identidad, el laboratorio de vanguardia aún procesa tu prompt original. Por lo tanto, la privacidad más fuerte solo cubre la parte de código abierto; la parte de modelos de vanguardia es "anónima" y no "verdaderamente confidencial". El margen bruto de Venice = Precio de suscripción − Costo de inferencia pagado aguas abajo, y la parte que puede cobrar por encima del precio bruto de la API se sustenta casi por completo en esta prima de privacidad, que también es la razón de su bajo margen y su dependencia de los precios de transmisión de vanguardia.
El diseño de tokens empaqueta esta demanda de inferencia. Venice funciona con dos tokens: VVV (staking y acceso a la plataforma) y DIEM, este último es un crédito de inferencia, cada DIEM equivale aproximadamente a 1 dólar de cómputo por día. Las suscripciones de pago desencadenan recompras y quemas programadas de VVV (aproximadamente 2 / 5 / 10 dólares para Pro / Pro+ / Max respectivamente), y la emisión disminuye según un calendario fijo: 6M → 5M → 4M VVV mensuales, y se redujo a 3M el 1 de julio. Las recompras son reales, pero son discrecionales y aún modestas: se quemaron aproximadamente 103,000 dólares en abril y mayo, y en junio se acercan lentamente a los 110,000 dólares, muy por debajo de la línea de 200,000 dólares mensuales.
Los fundamentos son más saludables que los titulares. La cifra de "70 millones de dólares de ARR" que circula públicamente es casi con certeza el resultado de confundir renovaciones de suscripción con adquisición neta de nuevos clientes; el rango defendible y observable está más cerca de 6 a 15 millones de dólares de ARR. Debajo de esto, la tracción es real: aproximadamente 136,000 direcciones con tokens, aproximadamente 9.9 millones de visitas al sitio web mensuales (aproximadamente 330,000 diarias), nuevas suscripciones Pro rondando la línea de aproximadamente 1,400 por día. Este es un negocio real, pero un negocio de bajo margen, cuya economía está sujeta a la potencia de cálculo que compra.
Esta es precisamente la razón por la que Hyperbolic está una capa por encima. Si Venice es una estación de servicio, Hyperbolic es la refinería. Venice compra potencia de cálculo de la misma oferta limitada de la que todos dependen; Hyperbolic agrega y estandariza esa oferta fragmentada, y luego la vende a Venice y a todos los jugadores como él. A medida que crece la demanda de inferencia, el valor no solo se acumula en las aplicaciones que consumen cómputo, sino aún más en la capa que agrega y enruta ese cómputo, y captura el costo de ingresos que pagan esas aplicaciones.
VIII. Por qué esto importa ahora
Nvidia reorganizó sus finanzas en torno a "tokens de servicio". La OPI de Cerebras demostró que el mercado ya entiende que la inferencia es el cuello de botella. Anthropic corre por capacidad, demostrando que es un problema real. La IA agencial y física amplificará la demanda en varios órdenes de magnitud, a través de las líneas de la nube y del borde.
Y también cierra el círculo del "problema de los 600.000 millones de dólares" desde el otro lado. La lógica bajista de Cahn, es decir, sobreconstrucción y luego exceso, probablemente se verifique. Pero el exceso es precisamente el entorno óptimo para un agregador sin activos: cuando los precios de las GPUs caen y la oferta se fragmenta en docenas de nubes, el jugador que no posee ningún hardware y enruta cada carga de trabajo a la tarjeta disponible más barata capturará el diferencial de precio, mientras que los operadores que poseen GPUs en constante depreciación asumen las pérdidas. Hyperbolic está apostando por el exceso, no en su contra.
La empresa que finalmente prevalezca no será la que tenga más GPUs, sino la que pueda decirte qué GPUs están disponibles dónde y a qué precio, y enrute cada carga de trabajo al lugar donde pueda ejecutarse al menor costo.
Hyperbolic está construyendo esa empresa. Sin poseer GPUs, solo software, con una profundidad de tres capas, pero construida para ser la capa de agregación del cómputo definitivo de inferencia.







