Autor: qinbafrank
En febrero, en el artículo "¿Qué significa esta guerra de gasto de capital?", hablamos sobre cómo los eslabones clave de la cadena de suministro de potencia computacional aún pueden capturar el mayor valor: chips, ensamblaje y prueba, almacenamiento, módulos ópticos, etc. Aquellos cuya capacidad no pueda expandirse rápidamente, o que tengan barreras de entrada muy altas, disfrutarán del dividendo del enorme gasto de capital.
Todavía hay mucho margen para la optimización de la eficiencia: La destilación, cuantización, MoE, chips especializados, refrigeración líquida, fusión nuclear (a largo plazo) en el lado de la inferencia podrían reducir el consumo de energía y el costo por unidad de potencia computacional entre 10 y 100 veces. Hay que buscar oportunidades en estos eslabones.
Recientemente, varios bancos de inversión como Morgan Stanley, J.P. Morgan, Bank of America, Goldman Sachs, UBS, Citi, Bernstein y HSBC han publicado informes actualizados sobre IA/semiconductores/energía/almacenamiento. El cuello de botella en el hardware de IA ya se ha expandido desde la única dimensión de "suministro de GPU" hasta la tensión colectiva en cinco dimensiones: energía, chips, almacenamiento, equipos y materiales.
El nivel de demanda de IA ha superado todos los intervalos de predicción en la planificación energética tradicional, la capacidad de los equipos semiconductores, los modelos de precios del almacenamiento y las hipótesis de instalación de robots.
La investigación temática global de Morgan Stanley señala que el consumo semanal global de tokens de modelos de lenguaje grandes se disparó de 6,4 billones a 22,7 billones en 3 meses, un aumento de 2,5 veces. El déficit energético de los centros de datos en EE.UU. para 2025-28 es de 55 GW. El primer informe de Morgan Stanley sobre bonos de proyectos de computación de alto rendimiento en centros de datos indica directamente una "brecha de financiación de 122 GW pendiente para los próximos 5 años". La planificación energética a 5 años en EE.UU. se disparó de 101 GW a 230 GW, con un 44% de los nuevos proyectos esperando más de 4 años para la conexión a la red. En el último informe de Bank of America sobre el precio objetivo de Alphabet, el gasto de capital para 2026 se revisó directamente al alza a 181.500 millones de dólares, duplicándose interanual, con un flujo de caja libre cayendo un 62%. Estos tres conjuntos de datos no son el resultado del mismo marco, sino las perspectivas independientes de tres instituciones diferentes en distintos enfoques de investigación.
La evolución de los cuellos de botella en la cadena de suministro de semiconductores (especialmente en el área de potencia computacional de IA) avanza claramente en este orden: "Computación (GPU) → Almacenamiento (HBM, etc.) → Interconexión Óptica → Energía/Refrigeración Líquida". Este es el consenso de la industria para 2025-2026. A medida que los clústeres de entrenamiento/inferencia de IA pasan de un solo rack (docenas de GPU) a hiperescala (miles a decenas de miles de GPU), cada vez que se resuelve el cuello de botella de un eslabón, la siguiente limitación física/de suministro se expone inmediatamente, formando restricciones complementarias "estilo Leontief" (si falta uno, no se puede entregar).
Es necesario entender por qué ocurre esta evolución, la situación actual y las razones físicas/de ingeniería subyacentes:
1. Cuello de botella de la primera fase: Computación con GPU (dominante 2022-2024). Limitación principal:
La propia capacidad de obleas de las GPU de alta gama (como NVIDIA Hopper H100 → Blackwell B200 → Rubin) + el ensamblaje avanzado.
Por qué es un cuello de botella: Los modelos de IA grandes necesitan una enorme computación en paralelo. Los procesos lógicos de TSMC de 4nm/3nm/2nm + la capacidad de ensamblaje CoWoS (2.5D/3D) fueron en su momento el mayor punto de estrangulamiento. Incluso si hay suficientes obleas en el proceso frontal, la capacidad posterior para ensamblar/apilar el chip lógico con HBM no podía seguir el ritmo, y la GPU completa no podía salir.
Situación de alivio: TSMC expandió CoWoS agresivamente (duplicando capacidad 2024-2025), NVIDIA Blackwell se está entregando a gran escala. Pero esto solo desbloquea el eslabón de "computación", exponiendo inmediatamente nuevos problemas.
2. Cuello de botella de la segunda fase: Almacenamiento (HBM - Memoria de Ancho de Banda Alto, se volvió el más crítico en 2024-2025)
Limitación principal: Capacidad de producción de HBM3/HBM3e/HBM4.
Por qué tomó el relevo como cuello de botella: La potencia computacional de las GPU aumentó, pero el crecimiento explosivo de los parámetros del modelo (billones e incluso decenas de billones de parámetros) convirtió el movimiento de datos (ancho de banda de memoria) en el "muro de la memoria". HBM puede transmitir varios TB de datos por segundo, más de 20 veces más rápido que la memoria DDR convencional. Como HBM está adyacente al chip lógico, los datos no tienen que viajar lejos, ahorrando así energía.
Una GPU B200 necesita 192 GB+ de HBM3e. Un solo rack (NVL72) ya tiene 30-40 TB de HBM total, y la demanda de ancho de banda supera con creces la de la DRAM tradicional.
Situación de la cadena de suministro: Solo SK Hynix, Samsung y Micron pueden producir HBM a escala. El proceso es complejo (TSV + apilamiento). Para 2025 ya estaba todo vendido, y para 2026 sigue habiendo escasez, con precios disparados un 246% interanual. Incluso si el chip de GPU está listo, sin HBM no se puede ensamblar y entregar, causando retrasos en el despliegue de todo el clúster de IA.
Resultado: El almacenamiento pasó de ser una "mercancía" a un eslabón estratégico de estrangulamiento. Su participación en el gasto de capital puede alcanzar el 30%.
3. Cuello de botella de la tercera fase: Interconexión Óptica (en transición 2025-2026)
Limitación principal: Límites físicos de los cables de cobre (NVLink/NVSwitch) en ancho de banda, distancia, consumo de energía y peso.
Por qué el cambio a óptica es inevitable: Dentro de un solo rack (72 GPUs) aún se puede usar cobre, pero al expandirse a múltiples racks, e incluso a interconectar miles de GPUs, la atenuación del cobre es severa (con un ancho de banda de 1,8 TB/s, la distancia efectiva es < 1 metro), el peso es explosivo (un rack NVL72 tiene más de 5,000 cables de cobre, con un peso total de 1,36 toneladas) y el consumo de energía es alto (reemplazar cobre con módulos ópticos desmontables consumiría 20,000 vatios adicionales). La integridad de la señal, la latencia y la refrigeración no pueden soportar clústeres más grandes.
Solución: Cambiar a interconexión óptica (CPO - Óptica de Co-ensamblaje + tecnología de fotónica de silicio). Integrar el motor óptico directamente junto a la GPU/ASIC, usando fibra óptica para la expansión (Scale-Out), logrando mayor densidad de ancho de banda, menor consumo de energía por bit y mayor distancia.
NVIDIA apostó fuerte en la GTC 2026, ya ha invertido en empresas de óptica, y la demanda de módulos ópticos de 800G/1.6T está creciendo explosivamente. Lumentum, Broadcom, Coherent, Ayar Labs, etc., se están convirtiendo en los nuevos ganadores.
Progreso actual: El cobre ha llegado a su límite. La interconexión óptica está pasando de ser "opcional" a "obligatoria", rompiendo el techo de rendimiento de los centros de datos de IA.
4. Cuello de botella de la cuarta fase (el más avanzado actualmente): Energía + Refrigeración Líquida (se convierte en la restricción física final a partir de 2026). Limitación principal: Muro de potencia + muro térmico + conexión a la red eléctrica.
Por qué es el cuello de botella definitivo: Cada GPU pasó de 300W → 700-1200W. Un solo rack pasó de 10-20 kW (era de las CPU) a 120-200 kW+ o más. El límite físico de la refrigeración por aire tradicional es solo de 20-50 kW. El ruido, el flujo de aire y el consumo de energía son inaceptables.
Lado energético: Los centros de datos necesitan suministro de energía a nivel de GW. La cola para conexión a la red puede ser de años. Los tiempos de entrega de equipos como transformadores o transformadores de estado sólido se alargan a 100 semanas. El CEO de Microsoft dijo directamente: "tenemos GPUs pero no tenemos electricidad para enchufarlas".
Lado de refrigeración líquida: Es necesario cambiar a refrigeración líquida Direct-to-Chip (directa al chip) o por inmersión, combinada con microfluídica, placas frías, etc. TSMC ya ha demostrado refrigeración líquida basada en silicio en su plataforma CoWoS, soportando >2.6 kW TDP. Fabricantes de gestión térmica/refrigeración líquida como Vertiv (VRT) se están convirtiendo en el nuevo núcleo de la infraestructura.
Efecto dominó: Se requiere un PUE (Eficacia en el Uso de la Energía) < 1.2. La recuperación de calor residual, la conexión a la red de energía nuclear/nuevas energías se convierten en nuevos temas. Incluso si se resuelven todos los eslabones anteriores, sin electricidad y refrigeración, los racks no pueden ponerse en funcionamiento.
La lógica esencial de la transferencia de cuellos de botella en la cadena de suministro de potencia computacional de IA. La potencia computacional de IA no es un problema de "punto único", sino una función de producción sistémica estilo Leontief: GPU, HBM, interconexión, energía y refrigeración deben coincidir según el eslabón más débil (el mínimo común denominador). Los hiperescalares (Google, Microsoft, Meta, etc.), cada vez que resuelven uno, inmediatamente dirigen el capital y la innovación hacia el siguiente eslabón.
Actualmente (2026) estamos en el período de transición de "implementación acelerada de la interconexión óptica + comercialización a gran escala de energía/refrigeración líquida". En el futuro pueden aparecer nuevos cuellos de botella (como láseres, materiales de fibra óptica o transformadores de red), pero esta cadena "computación → almacenamiento → óptica → energía/refrigeración" ya es una ruta reconocida por la industria.
Esto también explica por qué la lógica de inversión está pasando de NVIDIA/TSMC a los tres gigantes de HBM (SK Hynix, etc.), fabricantes de óptica (Lumentum, Coherent) e infraestructura de refrigeración líquida/energía (Vertiv, empresas de suministro eléctrico relacionadas).
Cada transferencia de cuello de botella está remodelando la distribución de valor en toda la cadena de suministro de semiconductores + centros de datos.









