El 1 de junio, NVIDIA lanzó la CPU Vera durante la feria GTC Taipei 2026, celebrada en paralelo a Computex en Taipei, presentando también su nueva plataforma de supercomputación de IA Vera Rubin, cuyos primeros clientes incluyen OpenAI y Anthropic.
Esta es la primera vez que NVIDIA lanza una línea de productos de CPU independiente. El crecimiento de NVIDIA en las últimas dos décadas se ha basado casi por completo en las GPU. En la presentación, el CEO de NVIDIA, Jensen Huang, declaró que en la era de los agentes de IA, la CPU se ha convertido en un cuello de botella clave para el rendimiento del centro de datos, y no se puede permitir que la CPU ralentice la producción de tokens (elementos léxicos) de la 'fábrica de IA'.
Previamente, en mayo, la CEO de AMD, Lisa Su, anunció en la llamada de resultados trimestrales que revisaba al alza su previsión sobre el tamaño del mercado de CPU para servidores, duplicándola de 60.000 millones de dólares a más de 120.000 millones de dólares, lo que corresponde a un aumento de la tasa de crecimiento anual compuesta (CAGR) del 18% al 35% para el período 2025-2030.
Según las estadísticas de IDC, el tamaño del mercado mundial de servidores alcanzó los 444.100 millones de dólares en 2025, con un crecimiento interanual del 80,4%, siendo los servidores de IA los principales contribuyentes a este incremento. En un reciente informe de investigación sobre la industria de semiconductores, UBS predice que el tamaño potencial del mercado de CPU para servidores crecerá desde aproximadamente 300.000 millones de dólares en 2025 hasta unos 1,7 billones de dólares en 2030, multiplicándose por casi 5 veces en 5 años.
Los datos de la firma de investigación de mercado Mercury Research muestran que en el primer trimestre de 2026, la cuota de ingresos de AMD en CPU para servidores alcanzó el 46,2%, mientras que la de Intel fue del 53,8%. Sin embargo, la cuota de unidades enviadas de AMD fue solo del 33,2%, mientras que Intel mantuvo el 66,8%. Esto significa que AMD genera mayores ingresos con menos chips, y la capacidad de generar primas de precio de los productos con alto número de núcleos se ha manifestado claramente en este trimestre.
Lin Meibing, analista jefe de Chipset ICTIME, declaró a Economic Observer que la CPU es la variable más inesperadamente positiva en el ciclo actual de IA. La IA está pasando del diálogo a los Agentes, y la demanda de CPU para la inferencia ya supera a la del entrenamiento.
La GPU está 'esperando' a la CPU
Intel y el Instituto de Tecnología de Georgia publicaron conjuntamente en noviembre de 2025 un artículo titulado 'Una perspectiva centrada en la CPU sobre la IA de agentes (A CPU-Centric Perspective on Agentic AI)'. En este artículo, el equipo de investigación realizó pruebas prácticas con cinco tipos de cargas de trabajo típicas de Agentes, mostrando que el tiempo de procesamiento de herramientas en el lado de la CPU representaba entre el 43,8% y el 90,6% de la latencia total.
Un analista de un banco de inversión que sigue de cerca el sector de semiconductores señaló que en la fase de entrenamiento de modelos grandes, la carga de trabajo de la CPU representa aproximadamente entre el 10% y el 30%, pudiendo alcanzar casi el 40% en ciertas cargas de trabajo, mientras que la mayor parte del cálculo lo realizan las GPU. Esto se debe a que el proceso de cálculo del entrenamiento de modelos grandes de IA es altamente estructurado, con miles de millones de parámetros realizando multiplicaciones de matrices repetidamente en enormes volúmenes de datos. La arquitectura paralela de las GPU está diseñada para este tipo de tareas, y la CPU se encarga de la carga de datos, la programación de comunicaciones y la copia de resultados, sin involucrarse en los cálculos matriciales centrales.
Pero en la fase de inferencia, esta proporción comienza a invertirse. La carga de trabajo de la CPU aumenta a más del 70%, siendo aún mayor en escenarios de Agentes. Esto se debe a que las tareas de Agente requieren razonamiento en múltiples pasos, llamadas a herramientas externas, ejecución de código, lectura/escritura de bases de datos, búsqueda web, y luego organizar los resultados intermedios para generar la salida final.
Los asistentes de programación, herramientas de análisis de datos y agentes de investigación automatizada pertenecen a esta categoría, y también son los escenarios de aplicación de modelos grandes que están creciendo más rápido actualmente. La característica común de estas tareas es que tienen un flujo de control intensivo, ramificaciones complejas y entradas/salidas frecuentes. La utilización de las GPU para este tipo de tareas seriadas y fragmentadas disminuye significativamente.
Varios expertos de la industria señalaron que en las tareas de Agente, la utilización general de las GPU suele ser inferior al 50%, mucho menor que el 70% al 85% de los servicios de inferencia tradicionales. En el modo Agente, el consumo de tokens para el despliegue de IA suele ser de 20 a 30 veces mayor que en un diálogo común, porque una única interacción del usuario a menudo implica docenas de llamadas a herramientas y razonamientos intermedios.
Según las previsiones de IDC, el número anual global de tareas ejecutadas por Agentes crecerá desde aproximadamente 44.000 millones en 2025 hasta más de 400 billones en 2030.
La dirección de Intel declaró en la llamada de resultados del primer trimestre de 2026 que en la era de los agentes de IA, el número de núcleos de CPU requeridos por gigavatio de potencia podría aumentar desde los aproximadamente 30 millones actuales hasta 120 millones. La firma de investigación de mercado Gartner también predice que para 2027, el 40% de los proyectos de Agentes se verán reducidos o cancelados debido a la sobrecarga de costes de infraestructura, de los cuales una parte considerable provendrá de los gastos continuos generados en el lado de la CPU por las llamadas a herramientas y la gestión de contexto.
Los Agentes generan grandes volúmenes de datos intermedios al procesar conversaciones largas y tareas complejas. El sistema de IA necesita recordar todo el contenido previo de la conversación y los resultados de las llamadas a herramientas durante el proceso de inferencia, lo que en terminología del sector se denomina KV Cache (caché clave-valor). Esta caché se expande continuamente con cada turno de conversación, pero la capacidad de almacenamiento incorporada en las GPU es muy limitada; la NVIDIA H100 tiene solo 80 GB, y la próxima generación B200 tendrá 192 GB. Los datos intermedios generados por una tarea compleja de Agente pueden superar fácilmente este límite.
Actualmente, la solución común en la industria es transferir estos datos intermedios desde la GPU al lado de la CPU. La CPU puede conectarse a memoria DDR5 externa, con una capacidad de varios terabytes por chip, uno o dos órdenes de magnitud mayor que el almacenamiento de las GPU.
El consorcio industrial CXL, formado por fabricantes de chips como Intel, AMD y ARM, lanzó en noviembre de 2025 el protocolo CXL 4.0 (Compute Express Link, un estándar abierto para interconexión de alta velocidad entre chips), que permite que múltiples CPUs compartan un mismo grupo de memoria de gran capacidad, reduciendo la sobrecarga del movimiento de datos entre chips.
De este modo, la CPU ya no solo se encarga de la programación de tareas, sino también del almacenamiento de datos y la gestión de memoria durante el proceso de inferencia de IA.
Además, la CPU en sí misma ha experimentado intensas actualizaciones tecnológicas en los últimos años. El número de núcleos de las CPU para servidores ha aumentado desde 28 núcleos en 2017 hasta 288 núcleos (Intel Clearwater Forest) y 256 núcleos (AMD Venice) en 2026, incrementando su densidad casi 10 veces.
Intel introdujo en 2023 el conjunto de instrucciones AMX (Advanced Matrix Extensions), dotando por primera vez a la CPU de unidades de cálculo matricial dedicadas. Según los datos de prueba de Intel, en escenarios de inferencia de aprendizaje profundo, los procesadores Xeon de cuarta generación con AMX ofrecen un rendimiento de IA hasta casi 10 veces superior al de la generación anterior. El subsistema de memoria también ha pasado de DDR4 a DDR5, duplicando tanto el ancho de banda como la capacidad por plataforma.
La mejora en el número de núcleos y los conjuntos de instrucciones también se corresponde con cambios en la proporción entre CPU y GPU. El CEO de Intel, Pat Gelsinger, declaró en la llamada de resultados del primer trimestre de 2026 que en escenarios de entrenamiento, la proporción típica es de 7 a 8 GPU por 1 CPU; en inferencia, converge a 3-4 GPU por 1 CPU; y en escenarios de Agente, se espera que converja aún más hacia 1:1.
El CFO de Intel, David Zinsner, añadió en la misma llamada que la proporción general de CPU a GPU en la industria ya ha pasado de 1:8 en el pasado a aproximadamente 1:4.
class="text-big-title" data-check-id="182038" label="大标题">La primera gran subida de precios en más de una décadaEste cambio en las proporciones ya se ha trasladado a los precios de los productos.
Jia Bin, responsable de mercado de un distribuidor de CPU en Shenzhen, comentó a este medio que a partir de febrero de 2026, Intel y AMD han ajustado al alza los precios de toda su gama de CPU para servidores, con aumentos generales del 10% al 15%. Las primas en el mercado spot para algunas CPU de gama alta para servidores de IA son aún mayores, y podría haber una nueva ronda de ajustes alcistas en la segunda mitad del año.
Jia Bin señaló que durante más de una década, las CPU para servidores básicamente han seguido la regla de 'más rendimiento sin subida de precio': el rendimiento mejoraba con los avances en los procesos de fabricación, pero el precio unitario se mantenía. El nivel de aumento de este año es poco común en la industria. La tasa de utilización de la capacidad de las principales líneas de producción de Intel ha pasado de menos del 80% al 100%, varios modelos están en situación de escasez, y el plazo de entrega es de 3 a 4 meses.
AMD también enfrenta tensión en la capacidad de producción. Jia Bin afirmó que 2026 es el primer año desde que entró en el sector en que ve que la capacidad de producción de CPU para servidores de Intel y AMD está prácticamente agotada por los pedidos. 'En el pasado, el suministro de CPU siempre fue suficiente; este año ocurre lo contrario'.
Jia Bin también notó que la demanda de CPU por parte de los clientes al adquirir servidores de IA se está dividiendo en dos categorías. Una es la CPU dentro del bastidor que colabora con los cálculos de la GPU, que busca el máximo número de núcleos (más de 128 núcleos), con un precio promedio superior a los 4.000 dólares, mientras que el precio promedio de las CPU para servidores tradicionales es de poco más de 2.000 dólares. La otra categoría son las CPU desplegadas de forma independiente fuera del bastidor, utilizadas para la ejecución de herramientas de Agente, la operación en sandbox y la orquestación de tareas. Estas no requieren un rendimiento extremo, con alrededor de 64 núcleos es suficiente, pero se necesitan en cantidades mucho mayores.
Jia Bin explicó que, idealmente, cada tarea de Agente utiliza una CPU de forma exclusiva. El despliegue independiente es más eficiente que la partición por virtualización. El precio promedio de las CPU fuera de bastidor es de unos 3.000 dólares. 'Cuanto mayor es el número de núcleos, mayor es el incremento porcentual en el precio unitario, no crece de forma proporcional. Por lo tanto, la práctica común actual de los clientes es utilizar productos de gama media fuera del bastidor para cubrir volumen, y productos flagship dentro del bastidor para garantizar el rendimiento'.
En un informe sobre la industria de semiconductores titulado 'El ascenso de los agentes (Rise of the Agents)' publicado el 11 de junio por Bank of America Securities, se revisó al alza la previsión del tamaño total potencial del mercado (TAM) de CPU para servidores para 2030, situándolo por encima de los 1,7 billones de dólares. Por primera vez, se desglosó este mercado en tres partes: CPU tradicionales para computación en la nube (aproximadamente 300.000 millones de dólares), CPU para nodos principales en clústeres de IA (aproximadamente 700.000 millones de dólares) y CPU para nodos independientes de agentes de IA (aproximadamente 700.000 millones de dólares). De estas, la tercera parte tenía un tamaño cercano a cero en 2025, siendo un mercado completamente nuevo que comienza a aparecer en 2026.
Morgan Stanley predijo en un informe del 4 de junio que la IA de agentes generará una nueva demanda de entre 32.500 y 60.000 millones de dólares para el mercado de CPU de servidores antes de 2030. Zhongtai Securities definió 2026 como 'el año inicial en que la CPU se beneficia de la expansión de la IA' en un informe profundo sobre CPU publicado el 7 de junio.
El citado informe de Bank of America Securities también presentó una comparación histórica de unidades enviadas: en 2022, el volumen de envíos de CPU para IA equivalía al 19% del volumen de aceleradores de IA (GPU, etc.); para 2025, esta proporción aumentó al 51%, y se prevé que alcance el 127% para 2030. Según esta predicción, la cantidad de CPUs en servidores de IA superará a la de GPUs en un plazo de 5 años.
La nueva demanda de CPU nacionales
La información publicada por NVIDIA durante Computex Taipei muestra que su recién lanzada CPU Vera se basa en la arquitectura ARM (un conjunto de instrucciones de CPU conocido por su bajo consumo y alta eficiencia energética, que junto con x86 son las dos arquitecturas principales). Se pueden desplegar 256 unidades por bastidor y utiliza refrigeración líquida.
En escenarios de sandbox para Agentes, el rendimiento de Vera es 1,8 veces superior al de los procesadores x86. En el nuevo clúster de supercomputación Vera Rubin de NVIDIA (la próxima plataforma de centro de datos de IA de NVIDIA), un POD (la unidad de cálculo completa mínima compuesta por múltiples bastidores) de 40 bastidores contiene 1152 GPU Rubin y hasta 1088 CPU Vera, con una proporción cercana a 1:1.
NVIDIA también mencionó que su CPU Grace, lanzada anteriormente, ha acumulado envíos de casi 2,5 millones de unidades, y se espera que los ingresos relacionados con CPU para 2026 se acerquen a los 20.000 millones de dólares.
Jia Bin cree que el cálculo de los 20.000 millones de dólares mencionados tiene un alcance amplio, que abarca los ingresos atribuibles a la CPU en múltiples formas de productos, y no es completamente equivalente a los ingresos por la venta de chips de CPU de forma independiente en el sentido tradicional. Pero incluso considerando las diferencias de alcance, para una empresa que no tenía un negocio independiente de CPU en 2024, este volumen ya es significativo.
Lin Meibing considera que la señal que envía NVIDIA al fabricar CPU es más importante que el producto en sí. En el pasado, los servidores de IA se centraban en la GPU, y la CPU era solo un complemento. Cuando la mayor empresa de GPU del mundo fabrica su propia CPU y fija como primeros clientes a OpenAI y Anthropic, la posición de mercado de la CPU ya es completamente diferente a la de hace dos años.
Según los resultados financieros del primer trimestre de 2026 de AMD, los ingresos de su negocio de centros de datos alcanzaron los 5.775 millones de dólares, superando por primera vez los 5.100 millones de dólares de Intel en el mismo período. Además, Lisa Su planteó en la llamada de resultados un objetivo a cinco años: alcanzar ingresos anuales en centros de datos de 100.000 millones de dólares.
El CEO de Intel, Pat Gelsinger, también ha expresado en múltiples ocasiones públicas su firme confianza en el papel central de la CPU en la era de la IA.
Esto también representa una oportunidad para las empresas de la cadena de suministro de CPU en China. Jia Bin indicó que los principales proveedores de servicios en la nube en China están incrementando sus compras de CPU para servidores este año. Por un lado, para equipar las nuevas GPU en los centros de datos de IA que están construyendo, y por otro, porque la proporción entre CPU y GPU ha pasado de 1:8 en el pasado a 1:4 o incluso mayor, por lo que un mismo centro de datos requiere más del doble de CPUs que el año pasado.
De hecho, en China ya se ha formado una cadena industrial relativamente completa en torno a las CPU para servidores.
Hygon Information Technology (688041.SH) es actualmente uno de los mayores fabricantes nacionales por volumen de envíos de CPU para servidores basadas en la arquitectura x86. Según sus informes financieros correspondientes, los ingresos de Hygon en 2025 fueron de 14.377 millones de yuanes, con un crecimiento interanual del 56,92%; en el primer trimestre de 2026, los ingresos fueron de 4.034 millones de yuanes, con una tasa de crecimiento interanual que aumentó aún más, hasta el 68,06%.
Según información pública, Huawei Kunpung sigue la ruta de desarrollo propio integral basada en ARM. Los modelos Kunpeng 920/950 están profundamente integrados con los chips de IA Ascend, sirviendo principalmente al ecosistema propio de Huawei y al mercado de innovación tecnológica de confianza (信创, Xinchuang).
En cuanto a chips de apoyo, Montage Technology (688008.SH) tiene como producto principal los chips de interfaz de memoria (chips que actúan como intermediarios de señal entre la CPU del servidor y los módulos de memoria). Según información pública, sus chips de interfaz de memoria ocuparon el primer lugar mundial en 2024 con una cuota de mercado del 36,8%. Su otra línea de productos, los chips PCIe Retimer (utilizados para la amplificación y reparación de señales en transmisiones de datos de alta velocidad), tuvo una cuota de mercado global del 10,9% en 2024, ocupando el segundo puesto.
En el segmento de ensamblaje, pruebas y fabricación (封测制造), según información pública, Tongfu Microelectronics (002156.SZ) es uno de los socios de ensamblaje y pruebas más importantes a nivel mundial para AMD.
Li Bin (nota: probablemente se refiere al mismo Jia Bin mencionado antes, podría ser un error tipográfico) comentó a este medio que el ecosistema de software de los chips nacionales está cerca de alcanzar un punto de inflexión. Puso un ejemplo: el día del lanzamiento de DeepSeek V4, varios fabricantes nacionales de chips completaron la adaptación el mismo día, mientras que el ciclo de adaptación para DeepSeek R1 anterior requería de 1 a 2 meses. La aceleración significativa en la velocidad de adaptación indica que las cadenas de herramientas de software y las capas de controladores de los chips nacionales están madurando rápidamente, lo que es beneficioso para toda la cadena industrial de CPUs y aceleradores nacionales.
En opinión de Lin Meibing, la lógica de beneficio para las CPU nacionales tiene dos niveles: uno es el crecimiento del sector impulsado por el aumento de la demanda global de CPU para servidores, y el otro es la sustitución de importaciones impulsada por las políticas de innovación tecnológica de confianza (信创).
Según los requisitos establecidos en documentos relevantes emitidos por la Comisión de Supervisión y Administración de Activos del Estado (SASAC) en 2022, las empresas centrales y estatales deben completar la transformación de sus sistemas de informatización con tecnología nacional antes de finales de 2027. Este medio también ha averiguado en el proceso de entrevistas que la tasa de localización (国产化率) de las CPU de gama alta para servidores en China sigue siendo relativamente baja, por lo que hay un amplio espacio para la sustitución. Quedan menos de 2 años para el plazo político establecido, la ventana de entrega para las CPU de innovación tecnológica de confianza se está cerrando, lo que supone una prueba concentrada de la madurez del producto y la capacidad de entrega de fabricantes nacionales de CPU como Hygon y Loongson Technology (688047.SH).
Lin Meibing considera que el ciclo actual de aumento de precios de las CPU es diferente al pasado, ya que el incremento proviene de una demanda completamente nueva de CPU por parte de los Agentes de IA, y no de la demanda de renovación impulsada por la mejora de los procesos de fabricación.
Ying Zhiwei (应志伟, nombre probablemente mencionado previamente en el texto original pero no traducido aquí por falta de contexto) tiene un juicio similar. Afirmó que en los últimos años la atención del mercado se ha centrado casi por completo en las GPU, pero cuando las aplicaciones de IA entren realmente en una fase de despliegue a gran escala, las funciones de programación y gestión asumidas por la CPU solo aumentarán en importancia. En su opinión, no se trata de que la CPU vaya a reemplazar a la GPU; la GPU sigue siendo importante, pero lo que realmente marcará la diferencia en el futuro será la capacidad de colaboración entre la CPU y la GPU, y no los parámetros de rendimiento de un solo chip.
Este artículo proviene del WeChat Official Account: Economic Observer , autor: Zheng Chenye







