Dejen de mirar las GPU, la CPU se está convirtiendo en el 'nuevo cuello de botella' de la era de la IA

marsbitPublicado a 2026-04-13Actualizado a 2026-04-13

Resumen

En la era de la IA, la CPU se está convirtiendo en el nuevo cuello de botella, desplazando la atención tradicional en las GPU. Aunque las GPU siguen siendo cruciales para el cálculo, el rendimiento del sistema depende cada vez más de la capacidad de ejecución y planificación de las CPU. Intel y Google han firmado un acuerdo para implementar procesadores Xeon en centros de datos de IA, reflejando este cambio. La escasez de CPU se ha intensificado, con precios subiendo un 30% en el último trimestre de 2025 y plazos de entrega extendidos hasta seis meses. Esta crisis se debe en parte a que los fabricantes de semiconductores priorizan la producción de GPU más rentables. La demanda creciente de CPU se debe a la evolución de las cargas de trabajo de la IA, especialmente con el auge de los agentes de IA. Estos requieren múltiples tareas como razonamiento, llamadas a API y gestión de datos, que recaen principalmente en las CPU. Estudios muestran que entre el 50% y el 90.6% de la latencia en agentes de IA proviene del procesamiento en la CPU. Intel, AMD y Nvidia están adoptando estrategias diferentes. Intel se centra en sus procesadores Xeon y colaboraciones clave; AMD ha visto un crecimiento significativo impulsado por la demanda de CPU para agentes de IA; y Nvidia diseña CPUs como Grace, optimizadas para la colaboración eficiente con GPUs. Se proyecta que el mercado de CPUs impulsado por la IA crezca hasta los 60.000 millones de dólares para 2030. La expansión de infraestructur...

En estos años de frenesí de la IA, la industria ha estado dominada casi por una lógica: la potencia de cálculo determina el límite superior, y la GPU es el núcleo de la potencia de cálculo.

Sin embargo, al entrar en 2026, esta lógica comenzó a cambiar: la inferencia del modelo ya no es el único cuello de botella, y el rendimiento del sistema depende cada vez más de la capacidad de ejecución y planificación. Las GPU siguen siendo importantes, pero la clave que determina si la IA 'puede funcionar' se está desplazando gradualmente hacia la CPU, que durante mucho tiempo ha sido ignorada.

El 9 de abril, hora local de Estados Unidos, Google e Intel llegaron a un acuerdo plurianual para desplegar a escala global los "procesadores Xeon de Intel" en los centros de datos de IA, precisamente para resolver este cuello de botella. El CEO de Intel, Patrick Gelsinger, afirmó claramente que la IA se ejecuta en todo el sistema, y que la CPU y la IPU son la clave del rendimiento, la eficiencia y la flexibilidad. En otras palabras, la CPU, que en los últimos dos años se consideraba un "actor secundario", está empezando a estrangular la expansión de la IA.

El CEO de Intel, Patrick Gelsinger, declaró en redes sociales: Intel está profundizando la colaboración con Google, expandiéndose desde las CPU tradicionales hasta la infraestructura de IA (como IPU), para impulsar conjuntamente la construcción de capacidades de IA y computación en la nube.

La CPU ya no es solo un componente pasivo de apoyo, sino que se está convirtiendo en una variable clave dentro de la infraestructura de IA.

01

Una crisis de suministro "silenciosa"

Mientras todos miraban el ciclo de entrega de las GPU, la tensión en el mercado de las CPU ya se había disparado en silencio.

Según los últimos informes de varios distribuidores de TI, en el cuarto trimestre de 2025, el precio promedio de las CPU para servidores aumentó aproximadamente un 30%. Este tipo de aumento es muy raro en el relativamente maduro mercado de las CPU.

Forrest Norrod, responsable de centros de datos de AMD, reveló que en los últimos tres trimestres, la demanda de CPU había crecido a un ritmo más allá de lo imaginable. Actualmente, el ciclo de entrega de AMD se ha extendido de las ocho semanas originales a más de diez semanas, y algunos modelos incluso enfrentan retrasos de hasta seis meses.

Esta escasez se debe principalmente a una "externalidad negativa" que provoca una lucha por los recursos. Profesionales del sector indicaron que, dado que la línea de producción de 3 nm de TSMC está extremadamente tensionada, la capacidad de obleas originalmente asignada a las CPU está siendo constantemente desplazada por pedidos de GPU más rentables. Esto ha llevado a una situación extremadamente irónica: los laboratorios de IA tienen suficientes GPU, pero descubren que no pueden comprar suficientes CPU de gama alta en el mercado para "impulsar" estas tarjetas gráficas.

En esta ola de compras frenéticas de CPU, también está Elon Musk.

El CEO de Intel, Patrick Gelsinger, confirmó en una plataforma social que Musk había encargado a Intel diseñar y fabricar chips personalizados para su proyecto "Terafab" en Texas. Este vasto proyecto tiene como objetivo proporcionar una base computacional unificada para xAI, SpaceX y Tesla.

La confianza de Musk en Intel se debe en gran medida a que Intel está intentando integrarse en todos los niveles, desde los centros de datos terrestres hasta la computación orbital espacial.

Para Intel, esto es sin duda un estímulo. Algunos analistas de la industria predijeron que la cuota de ingresos de AMD en el mercado de CPU para servidores superaría a la de Intel en 2026, pero la profunda inercia y la capacidad de fabricación de Intel en el ecosistema x86 siguen siendo una garantía que clientes importantes como Musk no pueden ignorar.

Esta vinculación profunda entre industrias está haciendo que la competencia en el mercado de CPU evolucione desde una mera comparación de parámetros hacia una contienda por la estabilidad del ecosistema y la cadena de suministro.

02

¿Por qué la CPU se ha convertido en el "punto débil"?

Que la CPU se convierta repentinamente en un cuello de botella se debe fundamentalmente a que el trabajo que necesita realizar ha cambiado radicalmente en la era de los agentes inteligentes.

En el modo tradicional de chatbots, la CPU se encarga principalmente de la planificación y el procesamiento de datos, mientras que la GPU asume el cálculo central de inferencia. Dado que los procesos intensivos en cálculo se concentran en el lado de la GPU, la latencia general suele estar dominada por la GPU, y la CPU rara vez se convierte en un cuello de botella de rendimiento.

Pero la carga de trabajo de un agente inteligente es completamente diferente. Un agente inteligente necesita realizar razonamiento de múltiples pasos, invocar APIs, leer y escribir en bases de datos, orquestar flujos de negocio complejos e integrar resultados intermedios en una salida final. Tareas como la búsqueda, la invocación de APIs, la ejecución de código, la E/S de archivos y la orquestación de resultados recaen en su mayor parte en la CPU y el sistema host. La GPU se encarga de la generación de tokens (es decir, el 'pensamiento'), mientras que la CPU se encarga de transformar los resultados del 'pensamiento' en acciones reales.

En un artículo publicado en noviembre de 2025 por académicos del Instituto Tecnológico de Georgia, titulado "Una perspectiva centrada en la CPU sobre la IA de tipo agente" (A CPU-Centric Perspective on Agentic AI), se analizó cuantitativamente la distribución de la latencia en la carga de trabajo de los agentes. El estudio descubrió que el tiempo ocupado por el procesamiento de herramientas en el lado de la CPU representa entre el 50% y el 90.6% de la latencia total. En algunos escenarios, la GPU está preparada para procesar el siguiente lote de tareas, mientras que la CPU todavía está esperando a que regrese la llamada a la herramienta.

Otro factor clave es la rápida expansión del contexto de la ventana. En 2024, los modelos principales admitían en su mayoría entre 128K y 200K tokens. Al entrar en 2025, modelos como Gemini 2.5 Pro, GPT-4.1 y Llama 4 Maverick comenzaron a admitir más de 1 millón de tokens. La caché KV (Key-Value Cache, utilizada para acelerar el proceso de inferencia de modelos Transformers) crece linealmente con el número de tokens, alcanzando unos 200 GB para 1 millón de tokens, muy por encima de la capacidad de 80 GB de la memoria de una sola H100.

Una de las soluciones a este tipo de problemas es descargar parcialmente la caché KV a la memoria de la CPU. Esto significa que la CPU no solo debe gestionar la orquestación y las llamadas a herramientas, sino también ayudar a soportar los datos que no caben en la memoria de la GPU. La capacidad de la memoria de la CPU, el ancho de banda de la memoria y la velocidad de interconexión entre la CPU y la GPU se convierten, por tanto, en clave para el rendimiento del sistema.

Por lo tanto, la CPU adecuada para la era de los agentes inteligentes requiere más una capacidad de acceso a memoria de baja latencia y consistente, así como una mayor capacidad de colaboración a nivel de sistema, que una mera expansión de la escala de núcleos.

03

¿Qué están haciendo los fabricantes? Algunos luchan por territorio, otros cambian el diseño

Frente a esta demanda de CPU que estalló repentinamente, las estrategias de los grandes fabricantes son completamente diferentes.

Intel es el líder tradicional en CPU para servidores. Los datos de Mercury Research muestran que en el cuarto trimestre de 2025, Intel todavía tenía una cuota del 60% en el mercado de CPU para servidores, AMD un 24.3% y NVIDIA un 6.2%. Pero Intel ha estado persiguiendo nuevas tecnologías todos estos años, y esta explosión de la demanda de CPU es para ellos tanto una oportunidad como una prueba.

La estrategia actual de Intel es avanzar con dos piernas. Por un lado, continúa vendiendo procesadores Xeon, vinculándose profundamente con clientes a gran escala como Google; por otro lado, colabora con SambaNova para lanzar una solución combinada basada en procesadores Xeon y su propio acelerador RDU, que promociona la ventaja de "poder ejecutar inferencia de agentes inteligentes sin GPU". La hoja de ruta de Xeon 6 Granite Rapids y el proceso 18A serán clave para comprobar si Intel puede dar la vuelta a la situación.

AMD es uno de los mayores beneficiarios de esta explosión de la demanda de CPU. En el cuarto trimestre de 2025, los ingresos de centros de datos de AMD fueron de 5400 millones de dólares, un aumento interanual del 39%. La quinta generación EPYC Turin representó más de la mitad de los ingresos por CPU para servidores, y el despliegue de instancias en la nube que ejecutan EPYC aumentó más del 50% interanual. La cuota de ingresos de AMD por CPU para servidores superó por primera vez el 40%.

La CEO de AMD, Lisa Su, atribuyó directamente el crecimiento al desarrollo de los "agentes inteligentes" — la carga de trabajo de los agentes inteligentes devuelve las tareas a las tareas tradicionales de la CPU.

En febrero de 2026, AMD también anunció un acuerdo potencial con Meta, valorado en más de 100.000 millones de dólares, para suministrar GPU MI450 y CPU Venice EPYC.

Sin embargo, AMD todavía tiene margen de mejora en cuanto a la colaboración a nivel de sistema, careciendo de una capacidad de interconexión CPU-GPU de alta velocidad madura similar a NVLink C2C. A medida que los sistemas de agentes exigen una mayor eficiencia en la interacción y colaboración de datos, la importancia de este eslabón también está aumentando gradualmente.

El enfoque de NVIDIA para diseñar CPU es completamente diferente al de Intel y AMD.

La CPU Grace de NVIDIA tiene solo 72 núcleos, mientras que AMD EPYC e Intel Xeon suelen tener 128. Dion Harris, responsable de infraestructura de IA de NVIDIA, lo explicó así: "Si eres un hiperescalador, quieres maximizar el número de núcleos por CPU, lo que básicamente reduce el costo, es decir, el costo en dólares por núcleo. Así que es un modelo de negocio".

En otras palabras, en el sistema de potencia de cálculo de IA, el papel de la CPU ya no es el de principal fuerza de computación general, sino el de "centro de planificación" al servicio de la GPU. Si la CPU no sigue el ritmo, las costosas GPU se verán obligadas a esperar, y la eficiencia general disminuirá.

Por lo tanto, NVIDIA prioriza en el diseño garantizar una colaboración eficiente entre la CPU y la GPU. Por ejemplo, mediante la interconexión NVLink C2C, el ancho de banda entre la CPU y la GPU aumenta a aproximadamente 1.8 TB/s, muy por encima del PCIe tradicional, la CPU puede acceder directamente a la memoria de la GPU, y la gestión de la caché KV se simplifica enormemente.

Actualmente, NVIDIA ya vende la CPU Vera como producto independiente. CoreWeave es el primer cliente. El acuerdo con Meta es aún más exagerado, es su primer despliegue a gran escala "puramente Grace", es decir, un despliegue independiente a gran escala de CPU sin GPU emparejadas.

Ben Bajarin, analista jefe de Creative Strategies, señaló que en colaboraciones intensivas de sistemas, la capacidad de procesamiento de la CPU debe poder igualar la velocidad de iteración del acelerador. Si el canal de datos experimenta incluso un uno por ciento de retraso, la rentabilidad de todo el clúster de IA se vería afectada. Esta búsqueda de la máxima eficiencia del sistema está obligando a todos los grandes fabricantes a reevaluar los indicadores de rendimiento de la CPU.

Holger Mueller, vicepresidente y analista jefe de Constellation Research, afirmó que a medida que la carga de trabajo de IA se desplaza hacia una impulsada por agentes, la posición de la CPU se está volviendo más central. Señaló: "En el mundo de los agentes, los agentes necesitan invocar APIs y diversas aplicaciones empresariales, estas tareas son las más adecuadas para ser realizadas por la CPU".

También añadió: "Actualmente, no hay una conclusión definitiva sobre si las GPU o las CPU son más adecuadas para manejar tareas de inferencia. Las GPU tienen ventaja en el entrenamiento de modelos, y ASIC personalizados como los TPU también tienen su especialidad. Pero una cosa está clara: Google necesita adoptar una arquitectura de procesadores mixta. Por lo tanto, es razonable que Google elija colaborar con Intel".

04

Conclusión: En la era de los agentes, la balanza de la potencia de cálculo oscila de vuelta

En las últimas observaciones de la industria, hay un dato que debemos tener en cuenta. En el acuerdo de colaboración entre Amazon AWS y OpenAI, valorado en 38.000 millones de dólares, también se mencionó explícitamente la escala de expansión de "decenas de millones de CPU".

En los últimos años, normalmente, el foco de atención de la industria siempre han sido esas "centenas de miles de GPU". Sin embargo, que laboratorios pioneros como OpenAI incluyan activamente la escala de CPU como una variable importante de planificación, transmite una señal clara al exterior: la expansión de la carga de trabajo de los agentes inteligentes debe construirse sobre una enorme infraestructura de CPU.

Bank of America predice que para 2030, el mercado global de CPU podría duplicarse desde los actuales 27.000 millones de dólares hasta los 60.000 millones. Esta participación adicional estará casi completamente impulsada por la IA.

Estamos presenciando el inicio de la expansión de una infraestructura completamente nueva: los grandes fabricantes ya no solo apilan GPU, sino que expanden simultáneamente toda una capa de "infraestructura de planificación de CPU", dedicada específicamente a proporcionar soporte de ejecución para los agentes de IA.

La alianza entre Intel y Google, así como la gran inversión de Musk en chips personalizados, demuestran un hecho: el punto de victoria en la competencia de IA se está adelantando. Cuando la potencia de cálculo ya no sea escasa, quien pueda resolver primero los "cuellos de botella" a nivel del sistema será quien se ría último en este juego de billones de dólares.

* El colaborador especial Jin Lu también contribuyó a este artículo.

Este artículo proviene del WeChat public account "Tencent Technology", autor: Li Hailun, editor: Xu Qingyang

Preguntas relacionadas

Q¿Por qué el CPU se está convirtiendo en un cuello de botella en la era de la IA, según el artículo?

AEl CPU se ha convertido en un cuello de botella porque, en la era de los agentes de IA, debe manejar tareas complejas como la ejecución de múltiples pasos de razonamiento, llamadas a API, lectura/escritura de bases de datos y la orquestación de flujos de trabajo, que consumen entre el 50% y el 90,6% de la latencia total, superando a la GPU en muchos casos.

Q¿Qué acuerdo importante se menciona entre Google e Intel, y cuál es su propósito?

AGoogle e Intel alcanzaron un acuerdo de varios años para desplegar a gran escala los procesadores Xeon de Intel en los centros de datos de IA de Google. El propósito es abordar el cuello de botella del rendimiento del sistema, mejorando la capacidad de ejecución y planificación, donde el CPU es ahora clave.

Q¿Cómo ha afectado la escasez de CPU al mercado, según los distribuidores de TI?

ASegún los informes de los distribuidores de TI, en el cuarto trimestre de 2025, el precio promedio de los CPU para servidores aumentó aproximadamente un 30%, con plazos de entrega extendidos de 8 a más de 10 semanas, y hasta seis meses para algunos modelos, debido a la alta demanda y la competencia por los obleas de silicio con los GPU.

Q¿Qué cambio en las cargas de trabajo de los agentes de IA hace que el CPU sea más crítico?

ALos agentes de IA realizan tareas como búsquedas, llamadas a API, ejecución de código y E/S de archivos, que son manejadas principalmente por el CPU. Además, la expansión de las ventanas de contexto a más de 1 millón de tokens requiere que el CPU gestione cachés KV en la memoria del sistema, aumentando su carga.

Q¿Cómo están respondiendo los principales fabricantes como Intel, AMD y NVIDIA a la creciente demanda de CPU para IA?

AIntel se enfoca en sus procesadores Xeon y asociaciones con grandes clientes; AMD ha visto un crecimiento significativo en sus CPU EPYC, atribuido a la demanda de agentes de IA; y NVIDIA diseña CPU como Grace, optimizadas para la eficiencia en la interconexión con GPU, priorizando la colaboración en el sistema sobre el número de núcleos.

Lecturas Relacionadas

Bajando las expectativas para el próximo ciclo alcista de BTC

**Resumen del artículo: "Bajar las expectativas para el próximo ciclo alcista de BTC" por Alex Xu** El autor, que tenía a Bitcoin como su mayor activo, ha reducido progresivamente su exposición durante el actual ciclo alcista: eliminó el apalancamiento a 70k y redujo su posición de un 100% a un 30% entre 100k-120k. Recientemente, vendió más a 78k-79k, argumentando una revisión a la baja de las expectativas para el próximo máximo alcista. Las razones principales son: 1. **Narrativa de adopción agotada:** El impulso de adopción masiva (de minorista a institucional vía ETFs) parece agotado. El siguiente paso, la adopción por bancos centrales o fondos soberanos importantes, se ve muy difícil a corto plazo. 2. **Coste de oportunidad:** El autor ha identificado otras oportunidades de inversión en empresas atractivas. 3. **Contracción del ecosistema crypto:** La mayoría de modelos de negocio Web3 (SocialFi, GameFi, DePIN) no han funcionado. Solo DeFi genera valor, pero se contrae por la falta de activos nativos de calidad, lo que reduce la base de usuarios y holders de BTC. 4. **Problemas del mayor comprador:** MicroStrategy, el mayor tenedor corporativo, enfrenta un coste de financiación creciente (11.5% para su préstamo perpetuo), lo que podría ralentizar su ritmo de compra y ejercer presión vendedora. 5. **Competencia del oro tokenizado:** El oro tokenizado ha cerrado la brecha en portabilidad y divisibilidad, erosionando la ventaja competitiva de BTC como "oro digital". 6. **Problema de seguridad:** La reducción de la recompensa por minado (halving) amenaza la seguridad de la red, ya que las nuevas fuentes de ingresos por fees (como las inscripciones) no han podido dar solución. Conclusión: El autor mantiene una posición significativa en BTC y espera que suba, pero es menos optimista sobre su potencial alcista. Vender en la reciente subida fue una decisión táctica. Si sus razones para ser bajista se invalidan, estaría abierto a recomprar, aceptando si se equivoca y el precio sube.

marsbit04/27 02:49

Bajando las expectativas para el próximo ciclo alcista de BTC

marsbit04/27 02:49

Trading

Spot
Futuros

Artículos destacados

Cómo comprar ERA

¡Bienvenido a HTX.com! Hemos hecho que comprar Caldera (ERA) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Caldera (ERA) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Caldera (ERA)Después de comprar tu Caldera (ERA), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Caldera (ERA)Tradear fácilmente con Caldera (ERA) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

482 Vistas totalesPublicado en 2025.07.17Actualizado en 2025.07.17

Cómo comprar ERA

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de ERA (ERA).

活动图片