¿Dónde está atascada la cadena industrial de la Infraestructura de IA?

marsbitPublicado a 2026-04-21Actualizado a 2026-04-21

Resumen

La industria de infraestructura de IA (AI Infra) enfrenta múltiples cuellos de botella sistémicos en su cadena de suministro, desde equipos clave de fabricación de chips hasta materiales especializados y salas limpias. El desarrollo de la potencia computacional de IA se ve limitado por cuatro grandes obstáculos: el "muro de memoria" (escasez de HBM y DRAM), el "muro de ancho de banda" (limitaciones en la transmisión de datos), el "muro de computación" (restricciones en la fabricación de chips avanzados, especialmente por la escasez de equipos EUV) y el "muro energético" (demanda eléctrica de los centros de datos). Además, la expansión de la producción se ve frenada por la escasez de equipos de prueba, sustratos de IC (con precios en alza y plazos de entrega prolongados), materiales especializados (como fibra de vidrio Low-CTE) y la alta demanda de salas limpias de alta gama. En cuanto a la conectividad, se observa una competencia entre el cobre (para distancias cortas) y la fibra óptica (para largas distancias), con avances en tecnologías como CPO y fibra de núcleo hueco. La fabricación de chips avanzados sigue siendo el principal cuello de botella, pero otros eslabones de la cadena también presentan desafíos críticos para el despliegue escalable de la IA.

Con la llegada consecutiva de aplicaciones de IA revolucionarias como DeepSeek y Seedance 2.0, la demanda global de potencia de cálculo está creciendo a un ritmo que supera con creces las expectativas. Sin embargo, detrás de la carrera armamentística de la potencia de cálculo, la cadena industrial de infraestructura de IA (AI Infra) está enfrentando una obstrucción sistémica sin precedentes. Desde los equipos centrales de fabricación de chips hasta un simple cable de cobre en un centro de datos, desde materiales especiales hasta salas limpias, casi cada eslabón clave ha encendido una "luz roja".

Los cuatro "muros" del desarrollo de la potencia de cálculo

El desarrollo de la potencia de cálculo de IA no es simplemente una mejora unidimensional del rendimiento de los chips, sino un complejo proyecto de ingeniería que involucra computación, almacenamiento, transmisión y energía.

(一) Muro de almacenamiento: El primer grillete de la era de la inferencia de IA

Actualmente, el enfoque de la industria de IA está pasando del entrenamiento de grandes modelos a la inferencia, y se espera que para 2026 la demanda global de inferencia de IA supere a la de entrenamiento. La explosión de la demanda en el lado de la inferencia de IA impulsa directamente la necesidad de memoria de alto ancho de banda (HBM) y DRAM de alta capacidad.

Aunque los principales fabricantes de chips de memoria están planeando expandir su capacidad, desde la inversión hasta que las líneas de producción entren realmente en funcionamiento, se necesitan al menos dos años, lo que determina que la escasez sea difícil de aliviar a corto plazo. La nueva capacidad se liberará principalmente a partir de 2027 y más allá, por lo que en 2026 la industria presentará un desajuste estructural con una demanda de rápido crecimiento y una oferta que se libera con retraso.

(二) Muro de ancho de banda: "Obstrucción capilar" del flujo de datos

La velocidad de mejora de la potencia de cálculo supera con creces la velocidad de transmisión de datos. Esta contradicción ha llevado a un grave problema del "muro de ancho de banda": el flujo de datos dentro del chip, entre chips, dentro del armario y entre centros de datos se ha convertido en un cuello de botella para el rendimiento de todo el sistema de computación.

El cuello de botella actual es multinivel: dentro del chip, la latencia y el consumo de energía de las interconexiones entre transistores siguen aumentando; entre chips, las interconexiones tradicionales en placas PCB ya no pueden satisfacer la demanda de alto ancho de banda y baja latencia entre los chips de IA; dentro del armario, el ancho de banda de interconexión entre servidores se ha convertido en una limitación para el Scale Up (escalado vertical); entre centros de datos, el ancho de banda y la latencia de la transmisión de larga distancia limitan la eficiencia del Scale Out (escalado horizontal) y la asignación de potencia de cálculo entre regiones.

Según estimaciones, en los clústeres actuales de entrenamiento de IA, el consumo de energía del movimiento de datos ya supera al de la computación en sí. Cómo desbloquear los "capilares" del flujo de datos y reducir la latencia y el consumo de energía de la transmisión es un problema que debe resolverse para el desarrollo de AI Infra.

(三) Muro de computación: La fabricación de chips de gama alta es la limitación fundamental

La iteración del rendimiento de los chips de IA depende en gran medida de los procesos de fabricación avanzados, y la capacidad de estos procesos avanzados está completamente sujeta a los equipos de fabricación de gama alta de la cadena de suministro, especialmente las máquinas de litografía EUV (luz ultravioleta extrema).

Actualmente, solo ASML puede producir máquinas de litografía EUV, cuya capacidad es extremadamente limitada y está sujeta a estrictos controles de exportación. Esto ha llevado directamente a una grave escasez de capacidad para procesos avanzados por debajo de 7 nm, incapaces de satisfacer la demanda explosiva de chips de IA. Nvidia, como líder mundial en chips de IA, ve que la entrega de sus chips de gama alta como el H100 y H200 está limitada por la capacidad de los procesos avanzados de TSMC, con ciclos de entrega de varios meses e incluso más de un año.

Lo más grave es que la fabricación de chips es una cadena industrial altamente globalizada, y la ruptura de cualquier eslabón afecta a toda la capacidad. Desde materias primas como resinas fotosensibles, materiales diana, gases especiales electrónicos, hasta equipos clave como máquinas de grabado y de deposición, existen diversos grados de monopolio y limitaciones de suministro. Esto hace que la capacidad de fabricación de chips de gama alta sea el cuello de botella más difícil de superar en la cadena industrial de AI Infra.

(四) Muro de energía: Un desafío a corto plazo relativamente manejable

En comparación con los tres anteriores, el muro de energía es un cuello de botella relativamente fácil de resolver. Los centros de datos de IA son grandes consumidores de energía; el consumo anual de electricidad de un parque de centros de datos超大型 (ultra grande) puede incluso superar el de una ciudad mediana con cientos de miles de habitantes. Actualmente, el consumo total de electricidad de los centros de datos globales representa del 2% al 3% del consumo total mundial y sigue aumentando. Pero el problema de la energía es esencialmente un problema de infraestructura, que puede resolverse mediante fuentes de energía diversificadas como turbinas de gas, pilas de combustible, fotovoltaica, etc.

A largo plazo, con el desarrollo de las tecnologías de energía renovable y la mejora de la infraestructura energética, el suministro de electricidad no será el mayor cuello de botella a medio y largo plazo para el desarrollo de la potencia de cálculo de IA. Pero en áreas locales, debido al retraso en la construcción de la red eléctrica, la presión de suministro a corto plazo aún existe y podría limitar la velocidad de construcción de centros de datos.

El "asesino silencioso" de la expansión de capacidad: Escasez generalizada de equipos y materiales

La velocidad de expansión de la capacidad de fabricación de chips de IA es mucho menor de lo esperado, y la limitación central no son los chips en sí, sino la escasez generalizada en los eslabones de equipos y materiales aguas arriba.

(一) La demanda de equipos de prueba crece rápidamente

La actualización tecnológica de los chips de IA aumenta los requisitos de precisión y eficiencia de los equipos de prueba. En comparación con los chips lógicos ordinarios, la cantidad de puertos de señal de las GPU de IA se dispara, consumiendo más recursos de canales de señal de los probadores; al mismo tiempo, el número de transistores aumenta enormemente, lo que conlleva un aumento sustancial de la escala de vectores de prueba y el tiempo de prueba por chip. Más críticamente, en el campo de la electrónica de consumo tradicional, solo una proporción de los chips se somete a prueba, pero para los chips de inteligencia artificial, es necesario probar el 100% de los chips, y通常需要经过多个阶段 (generalmente requiere múltiples etapas) para garantizar que todo el conjunto de chips funcione correctamente. Impulsado por la fuerte demanda de potencia de cálculo de IA, combinado con la explosión del mercado de memorias, los equipos de prueba de semiconductores (ATE) se han convertido casi en la categoría de mayor crecimiento de shipments en todo el sector de equipos de semiconductores.

El proveedor más grande mundial de equipos de prueba de chips, Advantest, también indicó que espera alcanzar un récord histórico en el año fiscal que finaliza en marzo de 2026, con ingresos previstos para crecer un 37% y un beneficio neto que se más que duplicará respecto al año anterior.

(二) Sustratos IC / Sustratos de encapsulado: El eslabón "cuello de botella" más caro que el chip mismo

Sorprendentemente, el mayor punto de dolor en la cadena de suministro de fabricantes de chips líderes como Nvidia no son los chips en sí, sino los sustratos IC (sustratos de encapsulado). El sustrato IC es un componente clave que conecta el chip con la placa PCB, actuando como conexión eléctrica y soporte físico. Los chips de IA exigen requisitos extremadamente altos para los sustratos IC: necesitan un área mayor, una densidad de cableado más alta, mejor rendimiento de disipación de calor y menor pérdida de señal. Esto también significa que su valor必然要比普通PCB高得多 (necesariamente debe ser mucho mayor que el de una PCB ordinaria). Según estimaciones, el coste del sustrato IC representa alrededor del 50% del coste total del encapsulado, y en encapsulados avanzados flip-chip, esta proporción甚至可以高达70%—80% (incluso puede alcanzar el 70%-80%). Según la resina utilizada, los sustratos IC se dividen principalmente en sustratos BT y sustratos ABF. Los sustratos BT se aplican principalmente en varios chips de memoria; mientras que el ABF se concentra más en chips lógicos, como CPU, GPU, FPGA, ASIC, etc.

Según estadísticas incompletas, desde 2025, los precios de los sustratos IC han acumulado un aumento de más del 30%. El aumento de precio se debe principalmente a dos razones: primero, la transmisión de costes de las materias primas aguas arriba; telas de vidrio de alta gama, láminas de cobre y otras materias primas centrales han experimentado una escasez continua de suministro desde 2025, con una brecha de capacidad en constante expansión. En segundo lugar, la explosión de la demanda de encapsulado avanzado 2.5D/3D; las GPU y otros chips de gama alta普遍采用 (adoptan普遍mente) arquitecturas de apilamiento multichip, y el aumento significativo en el número de capas y el área del chip impulsa directamente la demanda de área del sustrato.

A diferencia de las PCB ordinarias, los sustratos IC tienen altas barreras tecnológicas y una gran complejidad de proceso. La capacidad global de sustratos IC de gama alta se concentra principalmente en unas pocas empresas taiwanesas como Unimicron Technology y Nan Ya PCB, con ciclos de expansión de capacidad de 18 a 24 meses. Esto significa que la situación de escasez de sustratos IC será difícil de aliviar fundamentalmente en los próximos dos años.

(三) Materiales especiales clave: El "glutamato monosódico industrial" extremadamente escaso

Algunos materiales especiales que parecen insignificantes se están convirtiendo en el "punto flaco fatal" de la cadena industrial de IA. Fibras de vidrio Low-CTE (bajo coeficiente de expansión térmica), láminas de cobre especiales, brocas de taladro de alta gama y otros materiales, aunque se usan en pequeñas cantidades, son el "glutamato monosódico industrial" indispensable para fabricar sustratos IC y placas PCB de alta gama.

Los altos requisitos de consumo de energía y rendimiento de los chips de IA hacen que los sustratos y las placas PCB deban usar materiales con un coeficiente de expansión térmica extremadamente bajo para evitar deformaciones en entornos de trabajo de alta temperatura. Al mismo tiempo, debido al endurecimiento del material de relleno, la vida útil de las brocas de taladro utilizadas en el proceso de fabricación se reduce drasticamente a 1/5 - 1/7 de la original, lo que provoca un crecimiento explosivo de la demanda de brocas.

Estos materiales especiales tienen barreras tecnológicas extremadamente altas, la capacidad global está altamente concentrada y es difícil expandirla. Una interrupción del suministro afectaría directamente el funcionamiento normal de toda la cadena industrial de IA.

(四) Salas limpias de alta gama: Un eslabón de alta barrera pasado por alto

En el proceso de expansión de capacidad de la cadena industrial de IA, las salas limpias de alta gama son otro eslabón de alta barrera严重被忽视 (seriamente pasado por alto). Los chips de procesos avanzados y el encapsulado avanzado exigen requisitos extremadamente altos para el entorno de producción; una simple partícula de polvo en el aire puede hacer que toda una oblea de silicio sea desechada.

La construcción de salas limpias de alta gama no solo requiere enormes inversiones de capital, sino también un alto nivel tecnológico. Desde el sistema de purificación de aire hasta las instalaciones antiestáticas, desde el control de temperatura y humedad hasta el aislamiento de vibraciones, cada eslabón tiene estándares estrictos. Actualmente, el mercado global de salas limpias de alta gama está主导ado principalmente por (dominado principalmente por) fabricantes extranjeros, cuyo margen neto puede superar el 20%, muy por encima de los homólogos nacionales.

Con la expansión de la capacidad de fabricación de chips de IA a nivel global, la demanda de salas limpias de alta gama sigue siendo fuerte, convirtiéndose en un eslabón de alta rentabilidad con una fuerte certidumbre en la cadena industrial.

La "disputa de rutas" de la tecnología de conexión: El regreso del cobre y la fusión óptico-eléctrica

Más allá de los cuellos de botella de la potencia de cálculo y la expansión de capacidad, la tecnología de conexión dentro de los centros de datos también está experimentando una profunda transformación. La disputa entre las rutas tecnológicas del cobre y la fibra óptica, y la actualización tecnológica de las PCB/sustratos, están remodelando el panorama de conexión de AI Infra.

(一) Competencia y sustitución contextual entre cobre y fibra óptica

Durante mucho tiempo, los módulos ópticos se consideraron la dirección futura para la interconexión de alta velocidad en centros de datos. Pero con la explosión de la demanda de potencia de cálculo de IA, la tecnología del cobre está experimentando un "regreso", formando el cobre y la fibra óptica una relación de complementariedad y sustitución en diferentes escenarios.

Distancia corta (≤7 metros): El cable de cobre (AEC, cable de cobre activo), con su ventaja de bajo coste, alta fiabilidad y baja latencia, está reemplazando全面 (completamente) a los módulos ópticos basados en láser. En escenarios de interconexión de corta distancia dentro del servidor y dentro del armario, la relación coste-beneficio del cable de cobre es muy evidente.

Distancia media (~30 metros): El cable de fibra óptica Micro LED se convierte en una solución de compromiso. Combina las ventajas del cable de cobre y los módulos ópticos, con una fiabilidad superior a los módulos ópticos láser y un coste inferior al de los módulos ópticos tradicionales, siendo adecuado para la interconexión de media distancia entre armarios.

Distancia larga (entre centros de datos): Los módulos ópticos extraíbles tradicionales y la fibra óptica siguen siendo主流 (mainstream). La tecnología CPO (Co-Embalaje Óptico) se considera la dirección de desarrollo futura, ya que integra el motor óptico y el chip en el mismo encapsulado, pudiendo mejorar大幅 (significativamente) el ancho de banda y reducir el consumo de energía, pero aún enfrenta desafíos como alto coste y baja fiabilidad, por lo que su comercialización a gran escala aún requiere tiempo.

Vale la pena destacar que la escala de compra de fibra óptica y los requisitos de especificaciones de rendimiento para los centros de datos de IA ya形成量级差距 (forman una brecha de magnitud) con las redes de telecomunicaciones tradicionales. Para satisfacer la demanda de interconexión de baja latencia y alto ancho de banda de los clústeres de GPU, la demanda de fibras especiales como la G.657.A2 sigue aumentando, y soluciones más avanzadas como la fibra de núcleo hueco ya han entrado en la fase de despliegue real. La fibra de núcleo hueco reemplaza el núcleo de vidrio tradicional con aire, optimizando significativamente el rendimiento de transmisión: la pérdida de transmisión puede reducirse de los常规0.14dB/km (habituales 0.14 dB/km) a menos de 0.1 dB/km, la latencia de transmisión se reduce de 5 μs/km a 3.46 μs/km, y同时可以耐受 (al mismo tiempo puede soportar) una mayor potencia óptica.

Actualmente, el número de fabricantes participantes en el mercado de fibra de núcleo hueco se expande rápidamente, pero los precios se mantienen relativamente estables, con un precio unitario de aproximadamente 30,000-40,000 yuanes por kilómetro, muy por encima del de la fibra óptica ordinaria.

(二) Presión de actualización tecnológica de PCB/Sustratos

Para satisfacer la demanda de alto ancho de banda de los chips de IA, la tecnología de PCB y sustratos también se está actualizando constantemente. Actualmente, las PCB/sustratos se están orientando hacia estructuras n+m, sustratos de vidrio y el工艺半加成法 (proceso mSAP, modified Semi-Additive Process).

La estructura n+m aumenta la capacidad de ancho de banda del sustrato al aumentar el número de capas y la densidad de cableado; el sustrato de vidrio tiene un coeficiente de expansión térmica más bajo y un mejor rendimiento de alta frecuencia, siendo una dirección de desarrollo importante para sustratos de alta gama en el futuro; el proceso mSAP permite un cableado de circuitos más fino, satisfaciendo la demanda de interconexión de alta densidad.

Estas actualizaciones tecnológicas plantean nuevos requisitos para los equipos, materiales y procesos de fabricación aguas arriba, y también traen nuevas oportunidades y desafíos industriales.

Resumen

La cadena industrial de AI Infra enfrenta restricciones entrelazadas multidimensionales. Desde los muros de almacenamiento, ancho de banda, computación y energía a nivel de potencia de cálculo, hasta la escasez de equipos de prueba, sustratos IC, materiales especiales y salas limpias a nivel de expansión de capacidad, y hasta la disputa de rutas tecnológicas a nivel de conexión, cada eslabón afecta el despliegue escalable de la potencia de cálculo de IA.

La capacidad de fabricación de chips de gama alta es la limitación más fundamental, ya que determina el límite superior de rendimiento y la escala de capacidad de los chips de IA. Mientras que los equipos de prueba, los sustratos IC de alta gama, los materiales especiales clave, etc., son los eslabones con mayor certidumbre y las矛盾供需最突出的环节 (contradicciones entre oferta y demanda más prominentes) en la cadena industrial actual. A largo plazo, el desarrollo de AI Infra presentará dos grandes tendencias: primero, la evolución tecnológica del regreso del cobre y la fusión óptico-eléctrica, donde diferentes rutas tecnológicas coexistirán en sus respectivos escenarios de ventaja; segundo, la reestructuración de la cadena industrial global y la aceleración de la localización, donde las empresas nacionales有望实现突破 (tienen la esperanza de lograr avances) en algunos campos segmentados.

Este artículo proviene del WeChat público "Visión de la Industria de Semiconductores" (ID: ICViews), autor: Peng Cheng

Preguntas relacionadas

Q¿Cuáles son las cuatro principales 'barreras' que enfrenta el desarrollo de la infraestructura de IA según el artículo?

ALas cuatro barreras son: 1) Muro de almacenamiento (Storage Wall), 2) Muro de ancho de banda (Bandwidth Wall), 3) Muro de computación (Computing Wall) y 4) Muro de energía (Power Wall).

Q¿Qué componente se ha convertido en el mayor cuello de botella en la cadena de suministro para fabricantes de chips como NVIDIA, según el artículo?

AEl sustrato de IC (también llamado sustrato de encapsulado) se ha convertido en el mayor punto de dolor en la cadena de suministro, incluso más que los propios chips, debido a su alta complejidad, coste y largo ciclo de expansión de capacidad.

Q¿Por qué el equipo de prueba (ATE) es una de las categorías de equipos semiconductores de más rápido crecimiento?

APorque los chips de IA requieren pruebas 100% completas y en múltiples etapas, a diferencia de los chips de consumo tradicionales. Esto, sumado al aumento de puertos de señal y transistores, impulsa la demanda de equipos de prueba de mayor precisión y eficiencia.

Q¿Qué tecnología de conexión está experimentando un 'resurgimiento' (comeback) en los centros de datos de IA para distancias cortas y ¿por qué?

AEl cable de cobre (AEC - Active Electrical Cable) está experimentando un resurgimiento para distancias cortas (≤7 metros) debido a su menor coste, alta fiabilidad y baja latencia en comparación con los módulos ópticos basados en láser.

QAdemás de los equipos de fabricación de chips, ¿qué otro tipo de infraestructura especializada presenta una alta barrera de entrada y una fuerte demanda debido a la expansión de la IA?

ALas salas blancas (cleanrooms) de alta gama para la fabricación de chips y encapsulado avanzado. Requieren enormes inversiones y tecnología avanzada para controlar la limpieza del aire, la temperatura, la humedad y las vibraciones, con márgenes de beneficio muy altos.

Lecturas Relacionadas

Trading

Spot
Futuros
活动图片