Artículos Relacionados con Inferencia

El Centro de Noticias de HTX ofrece los artículos más recientes y un análisis profundo sobre "Inferencia", cubriendo tendencias del mercado, actualizaciones de proyectos, desarrollos tecnológicos y políticas regulatorias en la industria de cripto.

Más allá del "Muro de la Memoria": La Revolución a Escala de Oblea y la Ruta de la Capacidad Computacional en la Era del Razonamiento de IA

En 2026, el gasto de capital de los grandes proveedores de nube en inferencia de IA superó por primera vez al de entrenamiento, marcando un punto de inflexión hacia el uso de modelos grandes. La inferencia enfrenta la "barrera de memoria", donde el movimiento de datos (pesos del modelo, activaciones, KV Cache) entre la DRAM externa y las GPU consume más energía y tiempo que el cálculo en sí. Empresas como Cerebras abordan esto con un enfoque radical: el Wafer-Scale Engine (WSE). En lugar de cortar una oblea en múltiples chips, usan casi toda la oblea como un solo chip gigante (ej. WSE-3). Esto proporciona 44 GB de SRAM en el chip y un ancho de banda de memoria interno masivo (21 PB/s), miles de veces mayor que el HBM de las GPU, reduciendo drásticamente la latencia para cargar pesos del modelo. En inferencia, esto permite una generación de tokens entre 1.5 y 5 veces más rápida que una GPU NVIDIA B200 en ciertos modelos, con una ventaja notable en el tiempo para el primer token (TTFT) y cargas de trabajo de agentes. Su arquitectura también reduce drásticamente el consumo energético de la interconexión. Sin embargo, este enfoque conlleva desafíos: la capacidad de SRAM ya no escala fácilmente con procesos más avanzados, presenta retos de refrigeración, un ecosistema de software propietario y un ancho de banda de E/S externo limitado (150 GB/s) que dificulta la expansión multi-chip. Mientras tanto, los grandes actores persiguen otras rutas: chips ASIC especializados (Google TPU, Microsoft Maia), tecnologías de empaquetado avanzado estandarizadas (como SoW de TSMC) que podrían democratizar el concepto de "wafer-scale", y la interconexión óptica como solución a largo plazo para la barrera de memoria. Cerebras también enfrenta el reto comercial de cumplir grandes pedidos, teniendo que construir centros de datos especializados para 2026-2028. En última instancia, la arquitectura de computación se trata de equilibrar ventajas: Cerebras optimiza para la latencia extrema en cargas específicas, mientras que NVIDIA prioriza la flexibilidad y el rendimiento agregado del clúster para cargas diversas. El camino hacia la AGI sigue abierto y la incertidumbre tecnológica y comercial es precisamente lo que impulsa la innovación.

marsbit06/05 11:12

Más allá del "Muro de la Memoria": La Revolución a Escala de Oblea y la Ruta de la Capacidad Computacional en la Era del Razonamiento de IA

marsbit06/05 11:12

La CPU, regresando sigilosamente al centro del escenario de la potencia computacional de IA

En los últimos tres años, la narrativa del cómputo de IA se centró casi exclusivamente en las GPU. Sin embargo, a partir de 2026, esta visión está cambiando. A medida que las cargas de trabajo de IA evolucionan desde el entrenamiento de modelos a gran escala hacia la inferencia masiva y la ejecución de agentes inteligentes, surge un nuevo cuello de botella: la orquestación, la concurrencia y el flujo de datos. El CPU está recuperando un papel central, no como proveedor principal de cómputo paralelo, sino como el "plano de control" de la infraestructura de IA. Este cambio es impulsado por la necesidad de gestionar miles de tareas ligeras, peticiones de inferencia y agentes simultáneamente, tareas para las cuales la arquitectura de GPU no está optimizada. Un ejemplo concreto: en los centros de datos de IA avanzados, como el proyecto "Fairwater" de Microsoft para OpenAI, extensos clusters de CPU son necesarios para sostener y gestionar las operaciones de los masivos clusters de GPU, manejando el flujo de datos y la planificación de tareas. Intel, con su nuevo procesador Xeon 6+ (fabricado en su proceso Intel 18A y con hasta 288 núcleos de eficiencia -E-cores), apuesta precisamente por este nicho. Su diseño prioriza la alta densidad de núcleos y la eficiencia energética para manejar cargas de trabajo de alto rendimiento y alta concurrencia propias de la inferencia y los agentes de IA. Sin embargo, el éxito de este "regreso del CPU" no está garantizado para Intel. Enfrenta una competencia multifacética: las soluciones integradas "CPU+GPU" de NVIDIA, el avance de los CPU ARM de alta densidad de AMD y Ampere, y la tendencia de los principales proveedores de nube (AWS, Google, Microsoft, Alibaba) a desarrollar sus propios CPU ARM personalizados para estos mismos workloads. En conclusión, la redefinición del CPU como el plano de control orquestador en la infraestructura de IA es una tendencia industrial clara. Que Intel, con su Xeon 6+, logre capitalizar esta oportunidad dependerá de su capacidad para competir en un panorama donde la arquitectura, el proceso de fabricación y los ecosistemas están en constante disputa.

marsbit06/03 10:45

La CPU, regresando sigilosamente al centro del escenario de la potencia computacional de IA

marsbit06/03 10:45

¿Ejecutar MoE en un móvil? Meta propone MobileMoE, acelera hasta 3.8 veces en iPhone 16 Pro

El equipo de Meta presenta MobileMoE, el primer modelo de mezcla de expertos (MoE) optimizado para ejecutarse de manera eficiente en teléfonos inteligentes comerciales. Diseñado como un modelo de lenguaje Transformer decoder-only, MobileMoE reemplaza las capas densas de feed-forward por capas MoE, empleando un router que selecciona los pocos expertos más relevantes por token junto con un experto compartido. El modelo se entrena en cuatro fases: preentrenamiento, entrenamiento intermedio, ajuste fino supervisado y entrenamiento consciente de cuantización (hasta INT4/INT8). Los experimentos determinan una configuración óptima de 8 expertos con granularidad 8, enrutamiento top-4 y un experto compartido. En evaluaciones de referencia, MobileMoE-S/M logra una precisión media comparable o superior a modelos densos, utilizando entre 1/2 y 1/4 del cálculo de inferencia con memoria similar. Especialmente en iPhone 16 Pro, MobileMoE-S acelera la fase de entrada hasta 3.8 veces y la generación token por token hasta 3.4 veces respecto a líneas de base. MobileMoE establece un nuevo límite de Pareto para modelos de lenguaje grandes en dispositivos, mejorando el equilibrio entre precisión y coste computacional. Los desafíos futuros incluyen mejorar la capacidad de seguimiento de instrucciones y la gestión de memoria dinámica, así como explorar el despliegue en NPU móviles.

marsbit06/01 06:12

¿Ejecutar MoE en un móvil? Meta propone MobileMoE, acelera hasta 3.8 veces en iPhone 16 Pro

marsbit06/01 06:12

La reducción del 99% en el precio del Xiaomi MiMo no es una estrategia de marketing. Luo Fuli publica en X respondiendo a los pesimistas.

**Resumen: El descenso del 99% de Xiaomi MiMo: Una victoria de la ingeniería, no del marketing** El anuncio de Xiaomi de reducir hasta un 99% el precio de las API de su modelo MiMo-V2.5 generó escepticismo, interpretado como una guerra de precios o una maniobra desesperada. Luo Fuli, responsable de MiMo, respondió con un blog técnico detallado, demostrando que la rebaja es el resultado de seis optimizaciones de ingeniería sistemáticas, no una táctica de marketing. La clave es el descuento del 99% aplicado específicamente a la entrada de tipo "Cache Hit" (contexto histórico re-leído). Para lograrlo, el equipo implementó: 1. **Arquitectura Híbrida SWA:** 60 de las 70 capas del modelo solo atienden a los 128 tokens más recientes, reduciendo el volumen de la "memoria" del modelo (KVCache) a 1/7. 2. **Gestión de Memoria en Dos Piscinas:** Asigna memoria por separado para las capas con atención completa y las de ventana deslizante (SWA), liberando realmente la capacidad ahorrada y quintuplicando los usuarios concurrentes por GPU. 3. **Cache de Prefijos Mejorado:** Un nuevo sistema garantiza que solo se reutilicen fragmentos de contexto completos y válidos, logrando una tasa de acierto en caché del 93-95% para peticiones de usuarios frecuentes. 4. **Almacenamiento en SSD Integrado (GCache):** La caché distribuida se aloja en los discos SSD de las propias máquinas con GPU, eliminando costes adicionales de almacenamiento. 5. **Sistema de Enrutamiento Inteligente (LLM-Router):** Dirige peticiones similares a la misma máquina y prioriza las que aciertan en caché, mejorando el rendimiento y la latencia. 6. **Predicción Multi-Token (MTP):** Acelera la generación de respuestas del modelo prediciendo varios tokens a la vez, reduciendo también el coste de la parte de "salida". En conjunto, estas innovaciones redujeron el tiempo de GPU por petición en más de un orden de magnitud, haciendo posible el descuento del 99% manteniendo márgenes positivos. Luo Fuli subraya que este es un logro de ingeniería sistémica, un modelo de reducción de costes verificable que trasciende la mera competencia por precios.

marsbit05/31 10:41

La reducción del 99% en el precio del Xiaomi MiMo no es una estrategia de marketing. Luo Fuli publica en X respondiendo a los pesimistas.

marsbit05/31 10:41

¿Por qué la acción de Zhipu se disparó casi un 30% en un solo día?

La empresa de IA china Zhipu AI (02513.HK), conocida como "la primera acción de modelos grandes del mundo", experimentó un aumento del 26% en su cotización, alcanzando una capitalización de mercado de 571,5 mil millones de HKD. Este crecimiento se debe al lanzamiento de su API de alta velocidad GLM-5.1-highspeed, que logra una velocidad de generación récord de 400 tokens por segundo, aproximadamente 3-5 veces más rápido que las principales API actuales. Este avance en velocidad es crucial en la era de los Agent de IA, donde las tareas complejas requieren múltiples llamadas al modelo, y una menor latencia mejora la eficiencia y la experiencia del usuario. La innovación técnica de Zhipu se basa en tres pilares: 1. **TileRT:** Un nuevo motor de inferencia que compila el modelo en una única tubería de ejecución continua, eliminando tiempos de espera y maximizando la utilización de la GPU mediante la especialización de Warps. 2. **Paralelización híbrida:** Optimización para el mecanismo de atención MLA (Multi-head Latent Attention), utilizando GPUs de forma heterogénea (una para indexación y otras para cálculo denso) para una colaboración eficiente. 3. **Arquitectura de red ZCube:** Reemplaza la topología de red estándar (ROFT) por un diseño plano y bipartito que elimina los cuellos de botella de comunicación entre GPUs, garantizando una única ruta óptima y evitando la congestión. Los beneficios de esta arquitectura incluyen un aumento del 15% en el rendimiento del clúster, una reducción del 40,6% en la latencia de cola y un ahorro de un tercio en los costos de infraestructura de red. Este enfoque, implementado en software estándar, podría reducir la dependencia de soluciones de hardware propietarias como las de NVIDIA y potencialmente adaptarse a chips chinos, lo que representa un avance significativo en la eficiencia de la inferencia de IA.

marsbit05/23 01:27

¿Por qué la acción de Zhipu se disparó casi un 30% en un solo día?

marsbit05/23 01:27

Cuando la potencia de cálculo se convierte en una mercancía, ¿cuánto falta para el mercado de futuros de GPU?

**Resumen: ¿Cuándo llegará el mercado de futuros de GPU?** El artículo explora la posibilidad de un mercado de futuros para la capacidad de cálculo (GPU), aplicando un marco de cinco condiciones necesarias para su desarrollo: 1. **Fragmentación de la oferta (🔴 Rojo):** Actualmente, el mercado está dominado por grandes proveedores de nube (AWS, Azure, GCP, Oracle), lo que elimina la necesidad de descubrimiento de precios. 2. **Volatilidad de precios (🟢 Verde):** Existe alta volatilidad debido a la incertidumbre en la oferta, nueva arquitectura de chips y demanda impredecible. 3. **Infraestructura de liquidación física (🟢 Verde):** Los brókeres OTC están desarrollando índices de precios y estandarizando contratos, sentando las bases. 4. **Estandarización (🔴 Rojo):** Falta una unidad de cálculo estandarizada y comerciable, ya que un instante de GPU (ej., H100) varía según región, configuración y duración del contrato. 5. **Falta de alternativas (🟡 Amarillo):** Los grandes actores pueden cubrir riesgos internamente, mientras que los proveedores más pequeños soportan la volatilidad del mercado spot. **Conclusión:** El mercado aún es inmaduro para un mercado de futuros robusto. La mayor parte de la actividad ocurre OTC. Para que surja, se necesitan una oferta más fragmentada y una mayor estandarización, posiblemente impulsadas por la adopción de modelos de IA de código abierto para inferencia, que homogeneicen la demanda. La unidad de trading final podría ser la "hora de instancia de GPU" (similar a los mercados eléctricos) o, potencialmente, el "token" de salida del modelo.

链捕手05/18 09:25

Cuando la potencia de cálculo se convierte en una mercancía, ¿cuánto falta para el mercado de futuros de GPU?

链捕手05/18 09:25

活动图片