Artículos Relacionados con Inferencia

El Centro de Noticias de HTX ofrece los artículos más recientes y un análisis profundo sobre "Inferencia", cubriendo tendencias del mercado, actualizaciones de proyectos, desarrollos tecnológicos y políticas regulatorias en la industria de cripto.

Intel se dispara un 20%, la CPU vuelve al centro del escenario en la era de los agentes

Resumen: Intel experimentó un aumento del 20% en sus acciones tras reportar resultados del Q1 2026 que superaron ampliamente las expectativas, con ingresos de $13.6 mil millones (+7% interanual) y EPS no GAAP de $0.29 (29 veces superior a lo previsto). Este repunte se atribuye al resurgimiento estratégico de las CPU en la era de la IA, especialmente en escenarios de inferencia y agentes autónomos, donde el procesamiento central vuelve a ser crítico. El negocio de centros de Cómputo e IA (DCAI) creció un 22%, alcanzando un récord histórico de $5.1 mil millones, marcando una recuperación en forma de U. La tendencia refleja un cambio en el mercado: mientras la fase de entrenamiento de IA dependía mayormente de GPUs, la ejecución de agentes requiere un equilibrio donde las CPU son esenciales para tareas de coordinación, uso de herramientas y gestión de memoria. La reorganización interna de Intel, incluido el nombramiento del nuevo CEO Lip-Bu Tan y el abandono de proyectos de GPU dedicadas, consolidó este enfoque en su fortaleza central.

marsbit04/24 04:43

Intel se dispara un 20%, la CPU vuelve al centro del escenario en la era de los agentes

marsbit04/24 04:43

Chips chinos, el punto de encuentro oculto entre DeepSeek y Kimi

Resumen: El 20 de abril, Kimi lanzó su modelo de código abierto K2.6, mejorando significativamente la capacidad de programación y de agente. Este modelo puede codificar ininterrumpidamente durante 13 horas y manejar más de 4000 líneas de código. Además, presenta avances en el procesamiento de contextos largos y en la capacidad de clusters de agentes, permitiendo hasta 300 subagentes trabajando en paralelo. Kimi también contribuyó a la comunidad con optimizadores como MuonClip y la arquitectura Kimi Linear. Un punto crucial es su propuesta "Prefill-as-a-Service", que permite el uso de hardware heterogéneo, incluyendo chips chinos, para reducir costos de inferencia. Esto marca un paso importante hacia la independencia de la tecnología china de chips y modelos.

marsbit04/22 07:02

Chips chinos, el punto de encuentro oculto entre DeepSeek y Kimi

marsbit04/22 07:02

Fundador de a16z: En la era de los agentes, lo que realmente importa ha cambiado

En una entrevista, Marc Andreessen, fundador de a16z, analiza la revolución de la IA y su evolución desde sus inicios hace 80 años hasta el presente. Destaca que el actual auge no es repentino, sino el resultado de décadas de avances, con hitos como AlexNet, Transformer y ChatGPT. Andreessen enfatiza que lo que hace diferente esta vez es la combinación de cuatro capacidades: modelos de lenguaje grande (LLMs), razonamiento, codificación y agentes autónomos. Los agentes, descritos como "LLM + shell + sistema de archivos + markdown + cron/loop", representan un cambio profundo en la arquitectura del software, permitiendo que la IA ejecute tareas, guarde estados y even se modifique a sí misma. Andreessen predice que la interacción tradicional con software (como navegación web o interfaces de usuario) será reemplazada por agentes que operan de forma autónoma, reduciendo la necesidad de intervención humana. En cuanto a la inversión, compara el ciclo actual con la burbuja puntocom de 2000, pero señala diferencias clave: ahora los principales inversores son grandes empresas con liquidez, y la infraestructura de IA tiene demanda real y rápida monetización. También menciona que las limitaciones actuales (GPU, memoria, red) ralentizan el potencial completo de la IA. Andreessen valora el código abierto como crucial para la innovación y la accesibilidad, y destaca la importancia de la inferencia en dispositivos locales (edge) por razones de costo, privacidad y baja latencia. Finalmente, aborda desafíos como la seguridad cibernética, la identidad digital, la necesidad de sistemas de pago para agentes y la resistencia institucional a la adopción de la IA, subrayando que el cambio tecnológico no siempre se traduce en una aceptación social inmediata.

marsbit04/20 00:09

Fundador de a16z: En la era de los agentes, lo que realmente importa ha cambiado

marsbit04/20 00:09

Cloudflare lanza una semana intensiva: Capa de inferencia unificada con acceso a más de 70 modelos, servicio de correo permite a agentes de IA enviar y recibir emails

Cloudflare lanzó su "Agents Week 2026" con más de diez actualizaciones clave. Destacan dos anuncios principales: la unificación de más de 70 modelos de IA de 12 proveedores (como OpenAI, Anthropic y Google) en una sola API, permitiendo a los desarrolladores cambiar entre modelos con una línea de código, y el servicio de correo electrónico en versión beta pública, que permite a los agentes de IA enviar y recibir emails de forma nativa. Junto con otras mejoras como entornos sandbox, almacenamiento compatible con Git y capacidades de voz, Cloudflare busca posicionarse como la infraestructura central para la era de los agentes autónomos, abordando necesidades críticas como la interoperabilidad de modelos y la comunicación con el mundo exterior.

marsbit04/17 07:47

Cloudflare lanza una semana intensiva: Capa de inferencia unificada con acceso a más de 70 modelos, servicio de correo permite a agentes de IA enviar y recibir emails

marsbit04/17 07:47

Año Cero de la Inflación de la Capacidad de Cálculo: Cuanto más Barato Sea DeepSeek, Más Difícil Será Detener Esta Ronda de Aumentos

Resumen: En 2026, los principales proveedores de nube de China (Aliyun, Baidu Cloud, Tencent Cloud) aumentaron los precios de la computación para IA entre un 20% y un 30%, a pesar de que el costo de inferencia por token se redujo en más del 80% en 18 meses. Esto se explica por la Paradoja de Jevons: la eficiencia de modelos como DeepSeek-R1 abarata el costo unitario, pero dispara la demanda general de tokens, especialmente con el auge de los agentes de IA y los modelos de razonamiento, que consumen entre 10 y 50 veces más recursos. Aunque DeepSeek abrió sus pesos, la ingeniería de inferencia eficiente sigue siendo un privilegio de los grandes proveedores, creando una brecha de rendimiento. La subida de precios refleja una corrección estructural ante la explosión de demanda y las restricciones de suministro de GPU. Se espera que esta tendencia continúe hasta 2027-2028, cuando la eficiencia del hardware local pueda igualar a NVIDIA. Mientras, las grandes empresas evalúan opciones de infraestructura propia, y las startups son las más afectadas. La clave para los usuarios es optimizar el consumo de tokens.

marsbit04/17 01:23

Año Cero de la Inflación de la Capacidad de Cálculo: Cuanto más Barato Sea DeepSeek, Más Difícil Será Detener Esta Ronda de Aumentos

marsbit04/17 01:23

El DeepSeek que esperabas ya ha cambiado

DeepSeek, una vez pionera en IA en China, ha ralentizado significativamente su ritmo de actualización de modelos en los últimos 15 meses, con su esperada versión V4 sufriendo múltiples retrasos. Según informes, esto se debe en gran parte a la presión estratégica nacional para migrar del hardware de NVIDIA al ecosistema de chips domésticos, específicamente los procesadores Huawei Ascend. El gobierno chino alentó a DeepSeek a adoptar chips Huawei para entrenamiento e inferencia, en línea con los objetivos de autonomía tecnológica del país. Sin embargo, el proceso de adaptación ha sido complicado: en 2025, los intentos de usar Ascend 910C para entrenar el modelo enfrentaron problemas de estabilidad y comunicación entre chips. Aunque se volvió temporalmente a NVIDIA para el entrenamiento, DeepSeek continuó trabajando en la migración completa al framework Huawei CANN. Para 2026, se priorizó la adaptación de V4 con el nuevo Ascend 950PR y chips de Cambricon, aunque persisten desafíos técnicos, especialmente en la alineación de precisión entre diferentes hardware. Esta dedicación a la validación de chips nacionales ha consumido recursos y ralentizado el desarrollo, coincidiendo con la pérdida de talento clave y una creciente brecha en capacidades multmodales y de agentes frente a competidores globales como OpenAI y Claude. Si V4 tiene éxito, demostraría la viabilidad del ecosistema de hardware chino para IA avanzada, aunque es posible que no supere a los líderes globales en rendimiento bruto. DeepSeek equilibra así su papel como empresa con misión nacional y sus imperativos comerciales.

marsbit04/15 10:36

El DeepSeek que esperabas ya ha cambiado

marsbit04/15 10:36

Dejen de mirar las GPU, la CPU se está convirtiendo en el 'nuevo cuello de botella' de la era de la IA

En la era de la IA, la CPU se está convirtiendo en el nuevo cuello de botella, desplazando la atención tradicional en las GPU. Aunque las GPU siguen siendo cruciales para el cálculo, el rendimiento del sistema depende cada vez más de la capacidad de ejecución y planificación de las CPU. Intel y Google han firmado un acuerdo para implementar procesadores Xeon en centros de datos de IA, reflejando este cambio. La escasez de CPU se ha intensificado, con precios subiendo un 30% en el último trimestre de 2025 y plazos de entrega extendidos hasta seis meses. Esta crisis se debe en parte a que los fabricantes de semiconductores priorizan la producción de GPU más rentables. La demanda creciente de CPU se debe a la evolución de las cargas de trabajo de la IA, especialmente con el auge de los agentes de IA. Estos requieren múltiples tareas como razonamiento, llamadas a API y gestión de datos, que recaen principalmente en las CPU. Estudios muestran que entre el 50% y el 90.6% de la latencia en agentes de IA proviene del procesamiento en la CPU. Intel, AMD y Nvidia están adoptando estrategias diferentes. Intel se centra en sus procesadores Xeon y colaboraciones clave; AMD ha visto un crecimiento significativo impulsado por la demanda de CPU para agentes de IA; y Nvidia diseña CPUs como Grace, optimizadas para la colaboración eficiente con GPUs. Se proyecta que el mercado de CPUs impulsado por la IA crezca hasta los 60.000 millones de dólares para 2030. La expansión de infraestructuras de CPU para soportar agentes de IA se ha vuelto esencial, marcando un punto de inflexión en la competencia por la supremacía en IA.

marsbit04/13 01:02

Dejen de mirar las GPU, la CPU se está convirtiendo en el 'nuevo cuello de botella' de la era de la IA

marsbit04/13 01:02

¿Por qué los precios de las GPU se disparan sin control?

El precio del alquiler de GPU, especialmente para modelos como H100, ha experimentado un aumento cercano al 40% en contratos de un año, pasando de 1,70 a 2,35 dólares por GPU/hora entre octubre de 2025 y marzo de 2026. Este incremento se debe a la creciente demanda de capacidad de cálculo impulsada por la IA, incluidos modelos de código abierto, generación de contenido nativo y sistemas multiagente, que han elevado el consumo de tokens de forma exponencial. La escasez de suministro se ha agravado por la subida de precios de componentes como DRAM, NAND y servidores, lo que ha ralentizado el despliegue de nueva capacidad. Los proveedores de nube (Neoclouds e hyperscalers) ahora dominan el mercado, imponiendo contratos más largos y precios más altos. Se espera que los precios sigan subiendo debido a la alta rentabilidad de las herramientas de IA (5-10 veces el coste), lo que hace que la demanda sea inelástica a corto plazo. La tensión entre la escasez real y las expectativas de sobreoferta futura está redefiniendo la valoración de la infraestructura de IA.

marsbit04/06 13:45

¿Por qué los precios de las GPU se disparan sin control?

marsbit04/06 13:45

Ejecutar Gemma 4 localmente en iPhone se vuelve viral, ¿qué tan lejos está la era de 0 tokens?

El nuevo modelo Gemma 4 de Google, con arquitectura similar a Gemini 3, ha sorprendido al poder ejecutarse localmente en dispositivos móviles como iPhone y Samsung Galaxy, alcanzando velocidades de hasta 40 tokens por segundo. Con versiones compactas (E2B y E4B) y una ventana de contexto de 128K, permite procesar texto, imágenes y audio de forma rápida y segura a través de la app oficial Google AI Edge Gallery. Aunque en tareas complejas como agentes de codificación muestra limitaciones, su rendimiento en consultas cotidianas, generación de código y comprensión multimodal es notable. Esto acerca la posibilidad de que tareas simples se realicen offline, reduciendo la dependencia de APIs pagadas. Si bien los modelos nube aún lideran en razonamiento avanzado, el avance de hardware y optimización sugiere que los modelos locales eventualmente competirán en eficiencia, impulsando un cambio en los modelos de negocio de la IA. Gemma 4 es solo el inicio de esta transición.

marsbit04/06 05:57

Ejecutar Gemma 4 localmente en iPhone se vuelve viral, ¿qué tan lejos está la era de 0 tokens?

marsbit04/06 05:57

La cuota de NVIDIA en China cae por debajo del 60%, los chips de IA nacionales capturan mercado con 1,65 millones de unidades entregadas anualmente

Resumen: Según datos de IDC, la cuota de mercado de Nvidia en China cayó al 55% en 2025, una disminución significativa desde más del 95% antes de las sanciones estadounidenses. Los fabricantes chinos, liderados por Huawei, entregaron 1,65 millones de unidades de chips de IA, capturando el 41% del mercado. Huawei, con 812.000 unidades, presentó su tarjeta Atlas 350, que afirma superar el rendimiento de la H20 de Nvidia en inferencia. La política de sustitución de importaciones y las restricciones de exportación de EE.UU. impulsaron este cambio. Aunque persiste una brecha tecnológica en entrenamiento de modelos, los chips locales ya son viables para inferencia en la mayoría de aplicaciones comerciales.

marsbit04/03 05:54

La cuota de NVIDIA en China cae por debajo del 60%, los chips de IA nacionales capturan mercado con 1,65 millones de unidades entregadas anualmente