¿Podrá DeepSeek ahorrarle a China un billón de dólares?

marsbitPublicado a 2026-06-03Actualizado a 2026-06-03

Resumen

El artículo analiza cómo DeepSeek podría generar un ahorro potencial de un billón de dólares en la infraestructura de IA de China, a través de optimizaciones técnicas que aumentan drásticamente la eficiencia del hardware. El punto de partida es el elevado costo de las plataformas de IA de última generación, como la futura Vera Rubin de Nvidia, donde una parte significativa del precio (unos 2 millones de dólares por sistema) corresponde a memoria costosa (HBM4, LPDDR5X), cuya precio ha aumentado un 435% en un año. Frente a esta tendencia, DeepSeek actúa en dirección opuesta. Sus modelos, especialmente la serie V4, aplican tres innovaciones clave para reducir la dependencia de los componentes de hardware más caros: 1. **Comprimir la "memoria" (contexto largo):** Su mecanismo de atención Multi-head Latent Attention (MLA) comprime radicalmente la caché KV (Key-Value Cache), reduciendo la necesidad de memoria de alta gama en hasta un 93% sin comprometer la calidad. 2. **Activar solo el "cuerpo" necesario:** Utiliza una arquitectura Mixture of Experts (MoE) extrema (ej., V4-Pro con 1.6 billones de parámetros totales pero solo 49 mil millones activos por token), permitiendo que solo una pequeña fracción de los parámetros del modelo resida en la costosa memoria HBM en cada momento. 3. **Reutilizar cálculos:** Almacena resultados intermedios (caché) para reutilizarlos en lugar de recalcular, ofreciendo precios muy bajos para las solicitudes que "aciertan en la caché". El efecto ...

A mediados de 2026, NVIDIA entregará su plataforma de IA más potente hasta la fecha: Vera Rubin VR200 NVL72. En un solo rack se alojan 72 GPUs Rubin y 36 CPUs Vera. Morgan Stanley estima que el costo de materiales de esta máquina ronda los 7,8 millones de dólares.

Esa cifra ya es impactante. Pero lo que realmente vale la pena observar es en qué se gasta ese dinero.

De esos 7,8 millones, aproximadamente 2 millones de dólares no se gastan en los mundialmente famosos chips GPU, ni en los núcleos de procesamiento, sino en la memoria: memoria de alto ancho de banda (HBM4) y memoria convencional (LPDDR5X). Solo en un año, el costo de esta memoria se disparó un 435% debido al aumento de precios.

Es una señal. En esta máquina de IA cada vez más cara, el dinero está pasando masivamente de los "componentes que realizan el cálculo" a los "componentes responsables de la memoria y el almacenamiento".

Recuerden esta señal. Porque lo que DeepSeek, el protagonista de este artículo, hace es precisamente lo contrario: mientras todos son empujados por la época a pagar la prima del hardware de IA por una memoria cada vez más cara, DeepSeek está ideando formas, sin debilitar su competitividad, de aumentar la capacidad de producción de tokens en más de 4 veces mediante la integración de hardware y software. Es decir, de manera equivalente, ahorra el 75% de la inversión en hardware.

Y al final de este camino, recientemente ha surgido una especulación que se debate acaloradamente: ¿Podría DeepSeek, a través de sus esfuerzos, ahorrarle a China un billón de dólares en la construcción de infraestructura de IA?

¿Es realmente posible?

Un billón de dólares, ahorrados

La factura de NVIDIA que mencionamos antes, es el dinero más tangible en el libro de cuentas de la construcción de infraestructura de IA reciente. En el panorama actual de oferta y demanda, si quieres comprar la máquina de IA más avanzada, debes aceptar esa factura.

DeepSeek no puede cambiar eso.

Lo que cambia es otra cosa: con la misma máquina, con los mismos costosos componentes de almacenamiento de 2 millones de dólares, ¿cuántos Tokens puede producir realmente?

Esta pregunta se vuelve especialmente concreta después del lanzamiento de DeepSeek V4.

Lo más notable de V4 no es solo el modelo en sí, sino las tres líneas de acción que demuestra: Primero, continuar comprimiendo la "memoria", para que el contexto extenso no colapse la memoria de video. Segundo, activar el "cuerpo" bajo demanda, para que los enormes modelos de expertos no tengan que desplegarse en su totalidad cada vez. Tercero, convertir el cómputo repetitivo en un activo reutilizable, para que el contexto ya procesado no queme dinero una y otra vez.

Las características de estas técnicas muestran una particularidad destacada: han trabajado en la colaboración entre hardware y software, no solo en optimización de software puro. Por eso alguien usó esa analogía en broma: DeepSeek quizás se convierta en la mayor empresa china de hardware para IA.

Su página del modelo muestra que, en escenarios de contexto de 1 millón de Tokens, V4-Pro necesita solo el 27% del cómputo de inferencia por Token y el 10% de la ocupación de caché en comparación con la generación anterior. En este artículo, usaremos aproximadamente el valor de un cuarto del cómputo para hacer los cálculos siguientes.

En el camino tradicional, ese hardware solo puede soportar una unidad de rendimiento (throughput). Pero mediante la compresión de contexto largo, la activación bajo demanda, la reutilización de caché y la programación de inferencia, DeepSeek puede aumentar la producción efectiva de Tokens del mismo hardware hasta cuatro veces. Así, el costo no se "elimina", sino que se diluye. Lo que antes hacían 4 máquinas, quizás ahora lo haga 1; el costoso hardware que antes consumía por completo la generación de cada Token, ahora se reparte entre 4 Tokens.

Este es el verdadero punto fuerte de DeepSeek: no cambia el precio de NVIDIA, pero cambia la tasa de producción de las máquinas de NVIDIA en el libro de cuentas de la IA. El significado de esto es mucho mayor que una simple reducción de precio en la API.

Y la magnitud de 1 billón de dólares no es una suposición hecha al azar.

El informe de McKinsey de 2026, "El costo de la computación", da un número concreto: para 2030, los centros de datos globales necesitarán una inversión de aproximadamente 6,7 billones de dólares para seguir el ritmo de la demanda de cómputo. De esa cantidad, la parte dedicada a manejar cargas de IA consumirá unos 5,2 billones de dólares.

En otras palabras, en los próximos años, el dinero que la humanidad planea invertir en hardware de IA se mide en billones de dólares.

Y una gran parte de esta enorme suma fluirá hacia el hardware más avanzado y escaso: es decir, la memoria de video de alto ancho de banda (HBM) y la memoria LPDDR. Lo que DeepSeek está haciendo es reducir sistemáticamente la dependencia de toda la industria china de IA de esta costosa parte del hardware. Incluso si solo reduce una parte, el valor que ahorra para la industria será una cifra astronómica a escala de billones.

Cuando el consumo diario de Tokens de China pase de los actuales cientos de billones hacia cientos o miles de billones, cualquier reducción en el costo por Token se amplificará en una enorme diferencia de inversión en infraestructura. Si realmente se puede lograr el mismo rendimiento con una cuarta parte del hardware, entonces, en un futuro visible, podría ahorrarle a la infraestructura china de IA cerca de 1 billón de dólares en inversión en hardware de cómputo.

Este es un cálculo de infraestructura: quien pueda hacer que la misma inversión rígida en hardware produzca más Tokens, está construyendo menos centros de datos, comprando menos GPUs, apilando menos memoria de video, está redistribuyendo el billete de entrada al futuro de la IA.

Entonces, ¿cómo lo logra DeepSeek? La respuesta es que le ha hecho tres intervenciones a esta máquina que es el modelo grande.

Dos devoradores de combustible

Un error común es pensar que lo que más dinero consume en un modelo grande es el "pensamiento", el cálculo. En realidad, no es así.

Sus dos verdaderos devoradores de combustible se llaman "memoria" y "cuerpo". Y ambos queman el mismo combustible más caro: la memoria de video de alto ancho de banda (HBM), una memoria extremadamente rápida y costosa integrada directamente en el sistema de encapsulado de la GPU.

Primero, la memoria. Los modelos grandes tienen una característica torpe al generar texto: cada vez que producen una nueva palabra, deben volver a revisar todo el contenido anterior. Porque el significado del lenguaje se construye capa por capa; lo que debe decir el texto posterior depende completamente del contexto que ya ha establecido el texto anterior.

Es como un intérprete simultáneo. No puede hablar basándose solo en tu última frase, sino que debe mantener constantemente en mente todo lo que has dicho antes. Solo recordando ese contexto previo, puede entender el verdadero significado de la frase actual. Cuanto más hables, más tendrá que recordar.

Para no tener que recalcular desde cero en cada palabra (lo cual sería demasiado lento para ser útil), el modelo almacena temporalmente los resultados intermedios ya calculados. Este archivo se llama caché KV (Key-Value Cache, puede entenderse como la memoria a corto plazo del modelo).

El problema es que crece de manera desmesurada a medida que la conversación se alarga.

Pongamos un número concreto: según estimaciones para una estructura estándar, procesar un contexto de aproximadamente ciento veinte mil palabras puede consumir hasta 488 GB de memoria de video de alto ancho de banda solo para esta "memoria". Y la GPU más avanzada de NVIDIA, la Rubin de próxima entrega, tiene 288 GB de memoria de video por tarjeta. Es decir, solo almacenar esta "memoria" ocuparía casi una tarjeta y media, o incluso cerca de dos GPUs de última generación, y el modelo ni siquiera ha comenzado a trabajar realmente.

Luego está el cuerpo. El "cuerpo" del modelo se refiere a los pesos de sus parámetros, que pueden entenderse aproximadamente como el portador de todo su conocimiento y capacidades. Cuanto más potente es, más grande suele ser el cuerpo, a menudo con cientos de miles de millones, o billones, de parámetros.

Los modelos densos tradicionales (Dense Model, que se refiere a modelos que deben usar todos sus parámetros para procesar cualquier entrada) tienen un defecto: sin importar lo que les preguntes, tienen que movilizar todo su cuerpo. Es como si fueras a un hospital solo a ver al dentista, pero todos los médicos de todos los departamentos son llamados para examinarte de pies a cabeza, y solo al final llega el dentista. Es absurdo, pero te cobran la factura completa.

Este cuerpo enorme también debe residir constantemente en la costosa memoria de video de alto ancho de banda, siempre listo para actuar.

La memoria y el cuerpo, estos dos devoradores de combustible, concentran la distribución de valor de todo el sistema de hardware en la parte más cara, escasa y controlada por otros. Y durante la última década, la respuesta de la industria ha sido simple y bruta: si falta poder de cómputo, se añade más; si falta memoria de video, se añade más. Así, la riqueza de la industria se ha acumulado en gran medida en esta cadena de hardware de vanguardia, y las ganancias más jugosas están atascadas en el eslabón más escaso.

El precio del Token queda así secuestrado por la escasez de un tipo específico de hardware. Y las tres intervenciones de DeepSeek aflojan precisamente ese secuestro.

Primera intervención: Operar en el cerebro

La primera intervención recae en la "memoria". Y el lugar donde actúa es precisamente el que menos se debería tocar, o donde nadie se ha atrevido a hacerlo: el mecanismo de atención (Attention, el mecanismo central que el modelo grande usa para comprender las relaciones contextuales).

El mecanismo de atención es el cerebro del modelo grande. Su capacidad para entender el contexto y captar lo esencial en conversaciones largas depende completamente de este mecanismo que sopesa constantemente las relaciones entre cada palabra. La costosa "memoria" mencionada anteriormente es precisamente el subproducto de cada pulsación de este cerebro.

Queriendo ahorrar memoria pero temiendo el riesgo, casi todos han optado por evitar este cerebro, actuando solo en la periferia. Desde la atención de consulta múltiple (MQA) propuesta en 2019 por uno de los creadores originales de Transformer, Noam Shazeer, hasta la atención de consulta agrupada (GQA) propuesta por Google en 2023 y adoptada ampliamente por Llama, la idea principal ha sido siempre "hacer que múltiples cabezas de consulta compartan la misma memoria". Esencialmente, "recordar menos, arreglárselas". El efecto de ahorro de espacio es sorprendente, pero el costo es una pérdida de calidad del modelo. En resumen, el consenso de este camino ha sido siempre el "compromiso": se asume que la compresión inevitablemente daña la calidad, y solo se regatea sobre cuánto daño.

DeepSeek se niega a comprometerse. Opta por operar directamente en el cerebro, transformando el propio mecanismo de atención.

Su solución se llama Atención Latente de Múltiples Cabezas (MLA, Multi-head Latent Attention), que apareció por primera vez en DeepSeek-V2 en 2024. Pongamos una analogía: otros modelos toman notas copiando cada detalle tal cual, llenando varios cuadernos grandes; MLA, en cambio, primero resume las notas en un resumen altamente condensado, solo almacena el resumen, y cuando lo necesita, restaura los detalles con precisión basándose en él. En terminología, esto se llama "compresión de bajo rango": proyectar esos recuerdos aparentemente complejos pero altamente redundantes en un espacio mucho más compacto para su almacenamiento.

¿Cuán sorprendente es el efecto? Los resultados presentados en el artículo de DeepSeek-V2 muestran que, en comparación con el modelo anterior de la misma familia, V2, siendo más capaz, redujo el costo de entrenamiento en un 42,5%, el caché KV en un 93,3% y aumentó el rendimiento máximo de generación en 5,76 veces. El ejemplo anterior que consumía 488 GB podría reducirse, con este enfoque, a unos pocos GB.

Pero lo realmente asombroso no es cuánto se ahorra, sino que casi no paga el precio de la pérdida de detalles.

Por lógica, al comprimir un libro en una página de resumen, por mucho que se restaure, no se recuperarán todos los detalles. Sin embargo, en los experimentos publicados por DeepSeek, esta memoria comprimida no solo no perdió frente a la atención estándar que "copia todo el libro", sino que en algunos casos funcionó ligeramente mejor.

En V4, este enfoque se llevó a un escenario de contexto largo aún más extremo: V4-Pro adopta una arquitectura de atención híbrida. En un contexto de 1 millón de Tokens, en comparación con la generación anterior, necesita solo el 27% del cómputo de inferencia y el 10% del uso de caché.

Para apreciar lo difícil que es esto, hay que saber que es como operar un avión en pleno vuelo. Cambiar el mecanismo de atención significa reescribir la lógica de cálculo más fundamental del modelo, reentrenar todo el modelo y rehacer todo el sistema de servicio que lo soporta. Cualquier error en un eslabón haría colapsar la inteligencia. No es cambiar una válvula de una rueda, es una cirugía cerebral.

Y DeepSeek lo ha logrado, haciendo que la IA esté más saludable después de la operación que antes.

Segunda y tercera intervención: Instalar un armario con casillas numeradas

La primera intervención domina la memoria. La segunda se ocupa del enorme "cuerpo".

La idea de esta intervención no es una creación original de DeepSeek, sino la continuación de un camino claro y antiguo: el modelo de expertos mixtos (MoE, Mixture of Experts), una estructura que divide el modelo en muchos "expertos" y solo activa unos pocos cada vez.

Este concepto existe desde 1991, fue introducido en redes neuronales por Shazeer y otros en 2017, y luego los GShard y Switch Transformer de Google lo incorporaron al Transformer; lo que realmente lo popularizó fue Mixtral 8x7B de la empresa francesa Mistral a fines de 2023, que simplemente publicó un enlace de descarga. Tenía unos 46,7 mil millones de parámetros totales, pero solo activaba unos 12,9 mil millones al procesar cada palabra.

Volvamos al hospital "donde ir al dentista moviliza a todo el personal". Lo que hace MoE es transformarlo en un hospital con departamentos claramente definidos: si vas al dentista, la recepción te dirige directamente al departamento de odontología, y los médicos de los demás departamentos siguen con su trabajo. El personal total del hospital sigue siendo grande, el número total de parámetros puede ser de cientos o miles de millones, pero en cada momento solo se moviliza una pequeña parte.

DeepSeek llevó este enfoque a una escala bastante agresiva en V3, y en la era V4 es aún más exagerado: V4-Pro tiene 1,6 billones de parámetros totales y 49 mil millones de parámetros activados; V4-Flash tiene 284 mil millones de parámetros totales y 13 mil millones de parámetros activados. Es decir, el "cuerpo total" del modelo sigue creciendo, pero la parte que realmente se mueve en cada paso sigue siendo muy pequeña.

Pero la verdadera genialidad de la segunda intervención no está solo en "movilizar menos médicos". Aprovecha para transformar la forma en que el modelo accede a este "cuerpo".

Podemos usar una imagen más apropiada. Los modelos grandes del pasado eran como un cuarto de almacenamiento enorme pero desorganizado: todo está amontonado, y cada vez que quieres sacar algo, tienes que abrir la puerta y revolver todo desde el fondo para encontrarlo. Para que esta búsqueda sea lo suficientemente rápida para atender a muchos clientes, solo puedes colocar todo el cuarto de almacenamiento en la "tienda más cara del centro" —es decir, en la memoria de video de alto ancho de banda.

DeepSeek transforma este cuarto de almacenamiento en un armario con decenas de miles de casillas, cada una numerada. Si quieres usar algo, simplemente abres la casilla correspondiente según su número, sin tocar las demás. Esto significa que ya no necesitas tener todo el armario en la tienda más cara. La gran mayoría de las casillas que no se usan temporalmente pueden guardarse perfectamente en memoria convencional mucho más barata (LPDDR), o incluso en discos de estado sólido aún más económicos, y cargar rápidamente solo la casilla necesaria cuando se requiera. Tanto el ecosistema de DeepSeek como sistemas de inferencia de código abierto como SGLang están explorando continuamente este tipo de descarga y carga por streaming.

Aquí es donde se ve la sinergia de las dos primeras intervenciones: la primera reduce la "memoria", la segunda numera el "cuerpo" y solo toma la casilla que corresponde. Juntas, en cualquier momento, la parte de esta máquina que realmente necesita ocupar la memoria de video más cara se reduce al mínimo.

La tercera intervención lleva esta lógica de "tomar por número" al extremo: incluso la acción de "calcular" se ahorra cuando es posible. Algunos resultados de cálculo pueden calcularse previamente y almacenarse como casillas numeradas, para tomarlos directamente cuando se necesiten, sin tener que recalcular cada vez. Es como alguien que se sabe las tablas de multiplicar: no cuenta con los dedos cada vez que hace 7 por 8, sino que dice 56 directamente. Esto equivale a reemplazar el costoso "cálculo duro" (cómputo del chip) con el extremadamente barato "consulta" (lectura de memoria).

En V4, esta intervención tiene una expresión comercial más directa: el precio por acierto de caché (cache hit) se reduce muchísimo, y la reutilización de contexto largo se incorpora directamente al sistema de precios: no solo se puede ahorrar en la técnica el cómputo repetitivo, sino que también se incentiva comercialmente a hacerlo.

Vistas en conjunto, estas tres intervenciones no son tres cosas aisladas, sino la progresión por capas de una misma lógica: transformar un desastre que había que revolver inevitablemente, en un sistema donde todo puede tomarse con precisión según un número. La memoria se reduce al mínimo, el cuerpo solo activa lo que debe activarse, y el cómputo se consulta en tablas en lugar de recalcularse. Cada intervención hace que esta máquina ocupe menos del hardware más caro, y las tres juntas hacen que, para realizar el mismo trabajo, consuma solo una fracción del hardware de vanguardia que consumía antes.

¿Qué tan barato llega a ser?

En mayo de 2026, DeepSeek anunció que convertiría en precio permanente el descuento del 75% que tenía V4-Pro, creando una enorme diferencia entre los precios por acierto de caché, por fallo de caché y por Token de salida. El precio por acierto de caché es importante porque convierte la tercera intervención de DeepSeek directamente en una regla comercial: el contexto ya calculado no debe facturarse una y otra vez como "trabajo nuevo".

Solo al compararlo en una factura real se hace tangible la diferencia. Para una aplicación de escala media que procesa mil millones de Tokens al mes, el mismo volumen de trabajo costaría: con DeepSeek V4-Pro, unos 522 dólares mensuales; con Claude Opus 4.7, unos 9.000 dólares; con GPT-5.5, unos 10.000 dólares. La diferencia es de 17 a 19 veces.

Veamos un escenario extremo pero común: un asistente de programación con contexto largo que relee cien veces un repositorio de código de 100.000 Tokens. Gracias al precio por acierto de caché, casi gratuito, DeepSeek realizaría esta tarea por solo unos 0,036 dólares; el mismo trabajo costaría unos 5 dólares tanto con GPT-5.5 como con Claude Opus 4.7: una diferencia de más de cien veces.

Este precio es increíblemente bajo, pero no es una oferta a pérdida, sino que esta máquina modificada simplemente funciona con ese nivel de ahorro — es el costo que los ingenieros chinos han reducido poco a poco. Hace dos años, Liang Wenfeng (梁文锋) habló sobre los principios de fijación de precios: "no subsidiar, pero tampoco obtener ganancias excesivas". En realidad, debería entenderse así: cuando tu estructura de costos y la de los demás no están en la misma línea, tus precios naturalmente tampoco están en el mismo rango.

Por supuesto, esta modificación no está libre de riesgos. Por ejemplo, mover la carga a memoria y discos más baratos, como ya han señalado algunos estudios, puede tener desventajas en consumo de energía, latencia y complejidad de programación. En ciertos casos, el costo total del sistema por palabra generada podría no ser menor, a menos que se optimicen aún más el hardware, el software y los medios de almacenamiento. Así que estas tres intervenciones son un equilibrio muy difícil de lograr, no un ahorro automático de dinero. Pero la dirección es clara: usar recursos más baratos y más accesibles para uno mismo, para reemplazar el recurso más caro y del que más dependes.

Convertir el "un billón" en una cuenta visible

Después de tanto hablar de "ahorrar", convirtámoslo en una imagen más intuitiva: ¿cuántos centros de cómputo inteligente se dejarían de construir?

Primero, veamos el tráfico de Tokens. Según cifras oficiales, para marzo de 2026, el volumen diario de llamadas (calls) de Tokens en China superaba los 140 billones, un aumento de más de mil veces desde principios de 2024. En la industria, solo el modelo grande Doubao (豆包) superaba los 120 billones de usos diarios ese mismo mes. Aunque los límites estadísticos son diferentes, ambos indican una cosa: el consumo de Tokens de la IA china ya opera diariamente a una escala de cientos de billones, y avanza rápidamente hacia los miles de billones. Por lo tanto, 500 billones de Tokens/día puede verse como la próxima etapa cercana; y 5.000 billones de Tokens/día, como el escenario de alto tráfico una vez que los agentes inteligentes, la multimodalidad y la generación de código se desplieguen por completo.

En este contexto, al observar el costo de los centros de cómputo, el valor de DeepSeek se destaca. En 2025, China Unicom comenzó la construcción de un centro de inferencia de cómputo inteligente con mil tarjetas en Wuhan, con una inversión inicial de casi 2 mil millones de yuanes. Podemos tomarlo aproximadamente como una muestra de inversión para un centro de inferencia de mil tarjetas: un centro de este tipo cuesta unos 2 mil millones de yuanes.

Y según la mejora de eficiencia de DeepSeek V4, al menos en los escenarios de contexto largo que domina, el cambio no es una optimización del diez o veinte por ciento, sino una mejora de varias veces en la eficiencia del hardware. No tomaremos la cifra más agresiva, sino una suposición más conservadora y fácil de entender: las tres intervenciones de V4 aumentan el rendimiento efectivo de Tokens del mismo hardware en 4 veces. Es decir, el trabajo que antes requería 4 centros, ahora quizás lo haga 1; se evitan 3 centros, lo que equivale a ahorrar el 75% de la inversión equivalente en hardware.

Nota: DeepSeek no simplemente usa menos almacenamiento. Al contrario, está haciendo un uso inteligente del almacenamiento: mediante atención comprimida, activación bajo demanda, aciertos de caché y programación de inferencia, utiliza de manera más intensiva el tiempo de las GPUs y la memoria de video más caras. Lo que realmente se ahorra es el hardware adicional que habría que comprar para el mismo rendimiento de Tokens.

Entonces, ¿a qué corresponde un billón de dólares? Un billón de dólares equivale aproximadamente a 7 billones de yuanes. Con un centro de inferencia de mil tarjetas costando 2 mil millones de yuanes, 7 billones de yuanes equivalen a 35.000 centros de este tipo. Si el enfoque de V4 produce una mejora de 4 veces en el rendimiento efectivo, para evitar construir 35.000 centros equivalentes, el tráfico diario de Tokens correspondiente sería de aproximadamente 5.000 billones.

Este es el panorama industrial al que se refiere el "un billón de dólares" mencionado en el artículo. No es un cálculo preciso de una licitación de obra, sino un cálculo a escala de infraestructura, que corresponde también a un escenario de tráfico futuro de varios años, no a uno ya realizado. Lo que realmente quiere demostrar es: en la era de bajo volumen de llamadas, las mejoras de eficiencia ahorran algunas tarjetas o algunos racks; en la era de miles de billones de Tokens/día, las mejoras de eficiencia ahorran miles de centros de cómputo inteligente que deberían haberse construido.

Por lo tanto, lo que DeepSeek realmente cambia no es el precio de una llamada individual, sino el libro de cuentas de la futura infraestructura de IA.

Revierte una tendencia peligrosa

Ahora, volvamos a la máquina del principio. ¿Recuerdan? De los 7,8 millones de dólares de la Vera Rubin, 2 millones están en memoria, y esa parte sigue subiendo de precio descontroladamente. Esto revela una tendencia peligrosa: el valor de toda la industria está siendo cada vez más, y de manera poco saludable, atado a los chips de memoria. Y la memoria no debería haber llegado a ser tan cara.

Muchos piensan erróneamente que DeepSeek está "siguiendo" esta tendencia, porque también usa mucha memoria. Al contrario, DeepSeek la está revirtiendo. El viejo método era consumir hardware de manera pasiva e ineficiente, acumulando valor de manera invertida en los chips, dejando que la memoria siguiera la corriente de la subida de precios; DeepSeek primero reduce drásticamente la necesidad real de hardware con sus tres intervenciones, y luego asigna de manera inteligente la poca necesidad restante al nivel de almacenamiento más barato y adecuado. El primero es "ser empujado por el precio", el segundo es "primero calcular bien la cuenta, luego decidir en qué gastar".

Esta diferencia es especialmente importante para China. Porque traslada el campo de batalla de un lugar donde estamos en desventaja, a uno donde tenemos más posibilidades de ganar. Los chips de cómputo más avanzados, por ahora, no los alcanzamos. Pero los chips de almacenamiento como la memoria son precisamente una capacidad que China ha estado desarrollando realmente este año.

El líder chino en DRAM, ChangXin Memory Technologies (CXMT), en el primer trimestre de 2026, reportó ingresos de 50.800 millones de yuanes y un beneficio neto de unos 25.000 millones de yuanes. La compañía estima que el beneficio neto del primer semestre alcanzará entre 66.000 y 75.000 millones de yuanes, equivalente a las ganancias anuales de ByteDance del año pasado. Aunque CXMT ocupa solo el cuarto lugar en el mercado global de DRAM, esta capacidad de producción nacional, que antes era casi cero, finalmente está despegando este año.

Y este es precisamente el significado estratégico de las tres intervenciones de DeepSeek. No se trata de "reemplazar cómputo con almacenamiento", sino de reducir la dependencia marginal del cómputo más escaso, y trasladar parte de la presión a elementos de almacenamiento, caché, programación e ingeniería de sistemas que son más accesibles. Cuando una máquina de IA depende más de elementos como memoria, caché, programación e ingeniería de sistemas, que son eslabones que China tiene más oportunidades de dominar, la cadena de suministro existente de China pasa de "estar limitada por todos lados" a ser "suficiente", incluso "buena". Esto mejora enormemente la seguridad de toda la cadena.

Conclusión

Un Liang Wenfeng (梁文锋) que tiene como instinto "eliminar la ineficiencia", no se conformará con hacer que un modelo sea un poco más barato. Su objetivo es la mayor ineficiencia de toda la industria de la IA: la premisa que toda la industria da por sentada: "para tener una inteligencia más potente, se debe depender del hardware más avanzado, escaso y caro".

Si puede hacer que toda la industria logre lo mismo con mucho menos hardware de vanguardia, lo que ahorraría para la industria sería una "base de capacidad productiva" virtual, de escala billonaria: sin ocupar un solo metro de fábrica, pero liberando una enorme inversión que debería haberse destinado al hardware. Ese "un billón" deja de ser una historia de valoración y se convierte en un cálculo de infraestructura.

Presentar a DeepSeek como "usando algoritmos para eliminar a NVIDIA" es crear otro mito barato. Pero si se formula de otra manera, la respuesta es interesante: ¿Es posible que DeepSeek haga que la industria compre menos del hardware más caro, ocupe menos de la memoria de video más escasa, y pague menos del costo de inferencia que antes se daba por sentado? Sí. ¿Es posible que redistribuya el valor de la infraestructura de IA, pasando de la narrativa única de la GPU de gama alta, a la estructura del modelo, el sistema de inferencia, la gestión de caché, la programación de almacenamiento y la optimización de ingeniería? También. Este es su verdadero significado industrial.

La verdadera revolución tecnológica a menudo no consiste en hacer todo más caro, sino en transformar lo que antes solo unos pocos podían permitirse, en una infraestructura cotidiana que la mayoría también puede costear. En una dimensión más amplia, lo realmente crucial en este juego nunca ha sido cuánto dinero se ahorra, sino que el acto de ahorrar dinero redistribuye silenciosamente los billetes de entrada al futuro entre los miles de industrias chinas que necesitan ser potenciadas por la IA.

(Este artículo se basa en información pública y discusiones de la industria. Algunas de las proyecciones y juicios adelantados, como el valor de sustitución de infraestructura a escala de billones, el equilibrio en eficiencia energética del hardware, los cálculos de costos equivalentes, etc., pertenecen a puntos de vista dentro de la especulación y el debate de la industria, no a hechos establecidos. Se aconseja a los lectores considerarlos con cautela).

Este artículo proviene del WeChat Official Account "胡说成理", autor: Hu Zhe (胡喆).

Preguntas relacionadas

Q¿Cómo pretende DeepSeek lograr un ahorro potencial de un billón de dólares en infraestructura de IA para China?

ADeepSeek no pretende reducir directamente el costo de hardware como las GPU de NVIDIA, sino mejorar drásticamente la eficiencia del hardware existente. A través de optimizaciones de software y hardware como la compresión de contexto largo (MLA), la activación bajo demanda (MoE) y la reutilización de caché, busca cuadruplicar el rendimiento efectivo de tokens del mismo hardware. Esto significa que se podría necesitar una cuarta parte del hardware para lograr el mismo rendimiento, lo que equivaldría a ahorrar el 75% de la inversión en hardware para alcanzar un nivel de tráfico futuro de miles de billones de tokens diarios, acumulando ahorros potenciales a escala de billones de dólares.

QSegún el artículo, ¿cuáles son los dos principales 'devoradores de recursos' en los modelos de lenguaje grande y cómo los aborda DeepSeek?

ALos dos principales devoradores de recursos son la 'memoria' (el caché KV que almacena el contexto) y el 'cuerpo' (los parámetros o pesos del modelo). DeepSeek los aborda con tres enfoques clave: 1) Comprime la 'memoria' reformando el mecanismo de atención con MLA, reduciendo drásticamente la huella del caché KV. 2) Maneja el 'cuerpo' mediante arquitecturas MoE (Mixto de Expertos), activando solo una pequeña fracción de los parámetros totales para cada tarea. 3) Implementa un sistema de almacenamiento y reutilización de caché eficiente, evitando recalcular resultados previamente obtenidos.

Q¿Qué es la Atención Latente de Múltiples Cabezas (MLA) y por qué es significativa en el enfoque de DeepSeek?

ALa Atención Latente de Múltiples Cabezas (MLA) es una innovación de DeepSeek que reforma el núcleo del mecanismo de atención de los modelos Transformer. En lugar de almacenar el contexto completo (caché KV) de manera redundante, MLA lo comprime en una representación de bajo rango (un 'resumen' latente), reduciendo enormemente los requisitos de memoria (hasta en un 93.3% en V2) sin una pérdida significativa de calidad, e incluso mejorándola en algunos casos. Esto desafía la suposición previa de que la compresión siempre perjudica el rendimiento del modelo.

Q¿Cómo ilustra el artículo el impacto en los costos de las optimizaciones de DeepSeek, por ejemplo, para un asistente de programación?

AEl artículo presenta un ejemplo concreto: un asistente de programación que relee un repositorio de código de 100,000 tokens cien veces. Usando DeepSeek V4-Pro, el bajo costo de acierto de caché hace que esta operación cueste aproximadamente $0.036. La misma tarea costaría alrededor de $5 en modelos como GPT-5.5 o Claude Opus 4.7, una diferencia de más de cien veces. Para una aplicación de escala media que procesa diez mil millones de tokens al mes, la factura con DeepSeek sería de unos $522, frente a los $9,000-$10,000 de sus competidores.

QMás allá del ahorro económico, ¿cuál es la importancia estratégica más amplia del enfoque de DeepSeek para China según el artículo?

AEstratégicamente, el enfoque de DeepSeek traslada la dependencia crítica de la industria de la IA desde el punto más débil de la cadena de suministro de China (chips de computación de vanguardia como las GPU) hacia áreas donde China tiene más fortalezas o está mejorando rápidamente, como la memoria (DRAM), el almacenamiento, la gestión de caché y la ingeniería de sistemas. Empresas como CXMT (ChangXin Memory Technologies) están aumentando la capacidad nacional de DRAM. Al reducir la dependencia marginal del hardware de computación más escaso y caro, DeepSeek hace que la cadena de suministro existente de China sea más 'suficiente' y segura, reasignando el valor en la infraestructura de IA.

Lecturas Relacionadas

BTC Pulso del Mercado: Semana 22

El mercado de Bitcoin mostró una corrección en la última semana, con el precio cayendo desde cerca de $79K hasta un mínimo local de $74K, antes de recuperarse a $77K. El impulso bajista reflejó una acción de precios más débil y presión de venta. Sin embargo, indicadores como el CVD de Spot y Perpetual mostraron aumentos significativos, sugiriendo que la presión vendedora podría estar moderándose y el sentimiento equilibrándose. La actividad general se enfrió, con caídas en el volumen spot y el interés abierto en futuros, señalando un apetito especulativo reducido. No obstante, surgieron señales de renovado apetito por el riesgo, como un fuerte aumento en los pagos de funding para posiciones largas. En los mercados de opciones, el sesgo (25-Delta Skew) subió ligeramente, indicando mayor demanda de protección a la baja, mientras que el interés abierto se mantuvo estable. En los ETFs estadounidenses, el MVRV subió ligeramente y los flujos netos mejoraron, aunque el volumen comercial cayó. Desde la perspectiva de la actividad en la red, métricas como las direcciones activas diarias y el volumen de transferencias ajustado mostraron reducciones menores, insinuando una posible fase de consolidación. Las métricas de liquidez apuntan a un perfil más estable y una menor actividad especulativa. Sin embargo, los ratios de ganancia/pérdida no realizada y realizada sugieren un aumento del estrés del mercado y una mayor realización de pérdidas, reflejando un sentimiento cauteloso y potencialmente bajista. En resumen, el mercado exhibe signos de moderación y consolidación, con actividad reducida, sentimiento cauteloso y una mezcla de apetito por el riesgo, subrayando la importancia de monitorear de cerca la dinámica del mercado.

insights.glassnodeHace 51 min(s)

BTC Pulso del Mercado: Semana 22

insights.glassnodeHace 51 min(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar ONE

¡Bienvenido a HTX.com! Hemos hecho que comprar Harmony (ONE) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Harmony (ONE) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Harmony (ONE)Después de comprar tu Harmony (ONE), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Harmony (ONE)Tradear fácilmente con Harmony (ONE) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

483 Vistas totalesPublicado en 2024.12.12Actualizado en 2026.06.02

Cómo comprar ONE

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de ONE (ONE).

活动图片