En estos años de frenesí de la IA, la industria ha estado dominada casi por una lógica: la potencia de cálculo determina el límite superior, y la GPU es el núcleo de la potencia de cálculo.
Sin embargo, al entrar en 2026, esta lógica comenzó a cambiar: la inferencia del modelo ya no es el único cuello de botella, y el rendimiento del sistema depende cada vez más de la capacidad de ejecución y planificación. Las GPU siguen siendo importantes, pero la clave que determina si la IA 'puede funcionar' se está desplazando gradualmente hacia la CPU, que durante mucho tiempo ha sido ignorada.
El 9 de abril, hora local de Estados Unidos, Google e Intel llegaron a un acuerdo plurianual para desplegar a escala global los "procesadores Xeon de Intel" en los centros de datos de IA, precisamente para resolver este cuello de botella. El CEO de Intel, Patrick Gelsinger, afirmó claramente que la IA se ejecuta en todo el sistema, y que la CPU y la IPU son la clave del rendimiento, la eficiencia y la flexibilidad. En otras palabras, la CPU, que en los últimos dos años se consideraba un "actor secundario", está empezando a estrangular la expansión de la IA.
El CEO de Intel, Patrick Gelsinger, declaró en redes sociales: Intel está profundizando la colaboración con Google, expandiéndose desde las CPU tradicionales hasta la infraestructura de IA (como IPU), para impulsar conjuntamente la construcción de capacidades de IA y computación en la nube.
La CPU ya no es solo un componente pasivo de apoyo, sino que se está convirtiendo en una variable clave dentro de la infraestructura de IA.
01
Una crisis de suministro "silenciosa"
Mientras todos miraban el ciclo de entrega de las GPU, la tensión en el mercado de las CPU ya se había disparado en silencio.
Según los últimos informes de varios distribuidores de TI, en el cuarto trimestre de 2025, el precio promedio de las CPU para servidores aumentó aproximadamente un 30%. Este tipo de aumento es muy raro en el relativamente maduro mercado de las CPU.
Forrest Norrod, responsable de centros de datos de AMD, reveló que en los últimos tres trimestres, la demanda de CPU había crecido a un ritmo más allá de lo imaginable. Actualmente, el ciclo de entrega de AMD se ha extendido de las ocho semanas originales a más de diez semanas, y algunos modelos incluso enfrentan retrasos de hasta seis meses.
Esta escasez se debe principalmente a una "externalidad negativa" que provoca una lucha por los recursos. Profesionales del sector indicaron que, dado que la línea de producción de 3 nm de TSMC está extremadamente tensionada, la capacidad de obleas originalmente asignada a las CPU está siendo constantemente desplazada por pedidos de GPU más rentables. Esto ha llevado a una situación extremadamente irónica: los laboratorios de IA tienen suficientes GPU, pero descubren que no pueden comprar suficientes CPU de gama alta en el mercado para "impulsar" estas tarjetas gráficas.
En esta ola de compras frenéticas de CPU, también está Elon Musk.
El CEO de Intel, Patrick Gelsinger, confirmó en una plataforma social que Musk había encargado a Intel diseñar y fabricar chips personalizados para su proyecto "Terafab" en Texas. Este vasto proyecto tiene como objetivo proporcionar una base computacional unificada para xAI, SpaceX y Tesla.
La confianza de Musk en Intel se debe en gran medida a que Intel está intentando integrarse en todos los niveles, desde los centros de datos terrestres hasta la computación orbital espacial.
Para Intel, esto es sin duda un estímulo. Algunos analistas de la industria predijeron que la cuota de ingresos de AMD en el mercado de CPU para servidores superaría a la de Intel en 2026, pero la profunda inercia y la capacidad de fabricación de Intel en el ecosistema x86 siguen siendo una garantía que clientes importantes como Musk no pueden ignorar.
Esta vinculación profunda entre industrias está haciendo que la competencia en el mercado de CPU evolucione desde una mera comparación de parámetros hacia una contienda por la estabilidad del ecosistema y la cadena de suministro.
02
¿Por qué la CPU se ha convertido en el "punto débil"?
Que la CPU se convierta repentinamente en un cuello de botella se debe fundamentalmente a que el trabajo que necesita realizar ha cambiado radicalmente en la era de los agentes inteligentes.
En el modo tradicional de chatbots, la CPU se encarga principalmente de la planificación y el procesamiento de datos, mientras que la GPU asume el cálculo central de inferencia. Dado que los procesos intensivos en cálculo se concentran en el lado de la GPU, la latencia general suele estar dominada por la GPU, y la CPU rara vez se convierte en un cuello de botella de rendimiento.
Pero la carga de trabajo de un agente inteligente es completamente diferente. Un agente inteligente necesita realizar razonamiento de múltiples pasos, invocar APIs, leer y escribir en bases de datos, orquestar flujos de negocio complejos e integrar resultados intermedios en una salida final. Tareas como la búsqueda, la invocación de APIs, la ejecución de código, la E/S de archivos y la orquestación de resultados recaen en su mayor parte en la CPU y el sistema host. La GPU se encarga de la generación de tokens (es decir, el 'pensamiento'), mientras que la CPU se encarga de transformar los resultados del 'pensamiento' en acciones reales.
En un artículo publicado en noviembre de 2025 por académicos del Instituto Tecnológico de Georgia, titulado "Una perspectiva centrada en la CPU sobre la IA de tipo agente" (A CPU-Centric Perspective on Agentic AI), se analizó cuantitativamente la distribución de la latencia en la carga de trabajo de los agentes. El estudio descubrió que el tiempo ocupado por el procesamiento de herramientas en el lado de la CPU representa entre el 50% y el 90.6% de la latencia total. En algunos escenarios, la GPU está preparada para procesar el siguiente lote de tareas, mientras que la CPU todavía está esperando a que regrese la llamada a la herramienta.
Otro factor clave es la rápida expansión del contexto de la ventana. En 2024, los modelos principales admitían en su mayoría entre 128K y 200K tokens. Al entrar en 2025, modelos como Gemini 2.5 Pro, GPT-4.1 y Llama 4 Maverick comenzaron a admitir más de 1 millón de tokens. La caché KV (Key-Value Cache, utilizada para acelerar el proceso de inferencia de modelos Transformers) crece linealmente con el número de tokens, alcanzando unos 200 GB para 1 millón de tokens, muy por encima de la capacidad de 80 GB de la memoria de una sola H100.
Una de las soluciones a este tipo de problemas es descargar parcialmente la caché KV a la memoria de la CPU. Esto significa que la CPU no solo debe gestionar la orquestación y las llamadas a herramientas, sino también ayudar a soportar los datos que no caben en la memoria de la GPU. La capacidad de la memoria de la CPU, el ancho de banda de la memoria y la velocidad de interconexión entre la CPU y la GPU se convierten, por tanto, en clave para el rendimiento del sistema.
Por lo tanto, la CPU adecuada para la era de los agentes inteligentes requiere más una capacidad de acceso a memoria de baja latencia y consistente, así como una mayor capacidad de colaboración a nivel de sistema, que una mera expansión de la escala de núcleos.
03
¿Qué están haciendo los fabricantes? Algunos luchan por territorio, otros cambian el diseño
Frente a esta demanda de CPU que estalló repentinamente, las estrategias de los grandes fabricantes son completamente diferentes.
Intel es el líder tradicional en CPU para servidores. Los datos de Mercury Research muestran que en el cuarto trimestre de 2025, Intel todavía tenía una cuota del 60% en el mercado de CPU para servidores, AMD un 24.3% y NVIDIA un 6.2%. Pero Intel ha estado persiguiendo nuevas tecnologías todos estos años, y esta explosión de la demanda de CPU es para ellos tanto una oportunidad como una prueba.
La estrategia actual de Intel es avanzar con dos piernas. Por un lado, continúa vendiendo procesadores Xeon, vinculándose profundamente con clientes a gran escala como Google; por otro lado, colabora con SambaNova para lanzar una solución combinada basada en procesadores Xeon y su propio acelerador RDU, que promociona la ventaja de "poder ejecutar inferencia de agentes inteligentes sin GPU". La hoja de ruta de Xeon 6 Granite Rapids y el proceso 18A serán clave para comprobar si Intel puede dar la vuelta a la situación.
AMD es uno de los mayores beneficiarios de esta explosión de la demanda de CPU. En el cuarto trimestre de 2025, los ingresos de centros de datos de AMD fueron de 5400 millones de dólares, un aumento interanual del 39%. La quinta generación EPYC Turin representó más de la mitad de los ingresos por CPU para servidores, y el despliegue de instancias en la nube que ejecutan EPYC aumentó más del 50% interanual. La cuota de ingresos de AMD por CPU para servidores superó por primera vez el 40%.
La CEO de AMD, Lisa Su, atribuyó directamente el crecimiento al desarrollo de los "agentes inteligentes" — la carga de trabajo de los agentes inteligentes devuelve las tareas a las tareas tradicionales de la CPU.
En febrero de 2026, AMD también anunció un acuerdo potencial con Meta, valorado en más de 100.000 millones de dólares, para suministrar GPU MI450 y CPU Venice EPYC.
Sin embargo, AMD todavía tiene margen de mejora en cuanto a la colaboración a nivel de sistema, careciendo de una capacidad de interconexión CPU-GPU de alta velocidad madura similar a NVLink C2C. A medida que los sistemas de agentes exigen una mayor eficiencia en la interacción y colaboración de datos, la importancia de este eslabón también está aumentando gradualmente.
El enfoque de NVIDIA para diseñar CPU es completamente diferente al de Intel y AMD.
La CPU Grace de NVIDIA tiene solo 72 núcleos, mientras que AMD EPYC e Intel Xeon suelen tener 128. Dion Harris, responsable de infraestructura de IA de NVIDIA, lo explicó así: "Si eres un hiperescalador, quieres maximizar el número de núcleos por CPU, lo que básicamente reduce el costo, es decir, el costo en dólares por núcleo. Así que es un modelo de negocio".
En otras palabras, en el sistema de potencia de cálculo de IA, el papel de la CPU ya no es el de principal fuerza de computación general, sino el de "centro de planificación" al servicio de la GPU. Si la CPU no sigue el ritmo, las costosas GPU se verán obligadas a esperar, y la eficiencia general disminuirá.
Por lo tanto, NVIDIA prioriza en el diseño garantizar una colaboración eficiente entre la CPU y la GPU. Por ejemplo, mediante la interconexión NVLink C2C, el ancho de banda entre la CPU y la GPU aumenta a aproximadamente 1.8 TB/s, muy por encima del PCIe tradicional, la CPU puede acceder directamente a la memoria de la GPU, y la gestión de la caché KV se simplifica enormemente.
Actualmente, NVIDIA ya vende la CPU Vera como producto independiente. CoreWeave es el primer cliente. El acuerdo con Meta es aún más exagerado, es su primer despliegue a gran escala "puramente Grace", es decir, un despliegue independiente a gran escala de CPU sin GPU emparejadas.
Ben Bajarin, analista jefe de Creative Strategies, señaló que en colaboraciones intensivas de sistemas, la capacidad de procesamiento de la CPU debe poder igualar la velocidad de iteración del acelerador. Si el canal de datos experimenta incluso un uno por ciento de retraso, la rentabilidad de todo el clúster de IA se vería afectada. Esta búsqueda de la máxima eficiencia del sistema está obligando a todos los grandes fabricantes a reevaluar los indicadores de rendimiento de la CPU.
Holger Mueller, vicepresidente y analista jefe de Constellation Research, afirmó que a medida que la carga de trabajo de IA se desplaza hacia una impulsada por agentes, la posición de la CPU se está volviendo más central. Señaló: "En el mundo de los agentes, los agentes necesitan invocar APIs y diversas aplicaciones empresariales, estas tareas son las más adecuadas para ser realizadas por la CPU".
También añadió: "Actualmente, no hay una conclusión definitiva sobre si las GPU o las CPU son más adecuadas para manejar tareas de inferencia. Las GPU tienen ventaja en el entrenamiento de modelos, y ASIC personalizados como los TPU también tienen su especialidad. Pero una cosa está clara: Google necesita adoptar una arquitectura de procesadores mixta. Por lo tanto, es razonable que Google elija colaborar con Intel".
04
Conclusión: En la era de los agentes, la balanza de la potencia de cálculo oscila de vuelta
En las últimas observaciones de la industria, hay un dato que debemos tener en cuenta. En el acuerdo de colaboración entre Amazon AWS y OpenAI, valorado en 38.000 millones de dólares, también se mencionó explícitamente la escala de expansión de "decenas de millones de CPU".
En los últimos años, normalmente, el foco de atención de la industria siempre han sido esas "centenas de miles de GPU". Sin embargo, que laboratorios pioneros como OpenAI incluyan activamente la escala de CPU como una variable importante de planificación, transmite una señal clara al exterior: la expansión de la carga de trabajo de los agentes inteligentes debe construirse sobre una enorme infraestructura de CPU.
Bank of America predice que para 2030, el mercado global de CPU podría duplicarse desde los actuales 27.000 millones de dólares hasta los 60.000 millones. Esta participación adicional estará casi completamente impulsada por la IA.
Estamos presenciando el inicio de la expansión de una infraestructura completamente nueva: los grandes fabricantes ya no solo apilan GPU, sino que expanden simultáneamente toda una capa de "infraestructura de planificación de CPU", dedicada específicamente a proporcionar soporte de ejecución para los agentes de IA.
La alianza entre Intel y Google, así como la gran inversión de Musk en chips personalizados, demuestran un hecho: el punto de victoria en la competencia de IA se está adelantando. Cuando la potencia de cálculo ya no sea escasa, quien pueda resolver primero los "cuellos de botella" a nivel del sistema será quien se ría último en este juego de billones de dólares.
* El colaborador especial Jin Lu también contribuyó a este artículo.
Este artículo proviene del WeChat public account "Tencent Technology", autor: Li Hailun, editor: Xu Qingyang








