Por | Fábrica de Modelos del Mundo
DeepSeek V4 ha vuelto a conmocionar a toda China.
El tamaño de los parámetros, la longitud del contexto, las puntuaciones de referencia... estos indicadores técnicos ya han sido comparados repetidamente en diversos informes.
Pero si nos quedamos solo en los datos superficiales, nos perderemos el núcleo más estratégico de este lanzamiento.
En los últimos tres años, los grandes modelos chinos han estado atrapados en una realidad incómoda: el entrenamiento depende de Nvidia, la inferencia también depende de Nvidia, y los chips nacionales son solo una opción de respaldo.
Si Nvidia deja de suministrar, todo el círculo de modelos chinos se verá sumido en la ansiedad.
Pero hoy, DeepSeek V4 ha demostrado con hechos:
Un gran modelo de vanguardia con billones de parámetros también puede ejecutarse de manera estable y eficiente en la capacidad de computación nacional.
El significado de esto ya ha superado los propios indicadores técnicos del modelo.
La ruptura de la localización
Para comprender realmente la dificultad de esta adaptación local, primero hay que entender el imperio de chips de Nvidia.
Nvidia no solo tiene chips, sino un ecosistema completo y altamente cerrado:
En hardware, tiene la familia de chips GPU, junto con NVLink y NVSwitch para lograr una red de interconexión ultrarrápida entre chips;
En software, CUDA es un sistema operativo de IA cuidadosamente construido por Nvidia durante más de una década.
Es como una fábrica altamente optimizada, desde los operadores más básicos (unidades fundamentales de cálculo del modelo), hasta el cálculo paralelo, la gestión de memoria, la comunicación distribuida, toda la cadena está personalizada para las GPU de Nvidia.
En otras palabras, Nvidia no solo vende motores, sino que también construye las carreteras, estaciones de servicio, talleres de reparación y sistemas de navegación.
Casi todos los grandes modelos globales de primer nivel han crecido en este ecosistema.
Cambiar a la capacidad de computación nacional implica una situación completamente diferente.
Arquitecturas de hardware diferentes, métodos de interconexión diferentes, madurez del stack de software diferente, el ecosistema de herramientas aún en rápido desarrollo.
Que DeepSeek quiera adaptarse a los chips nacionales no es simplemente cambiar el motor, sino cambiar un coche de carreras que ya va a alta velocidad por una autopista, a una carretera de montaña que aún se está construyendo.
El más mínimo error podría provocar vibraciones, pérdida de velocidad, o incluso que el vehículo no pueda avanzar.
Esta vez, DeepSeek V4 no optó por seguir optimizando solo la ruta de CUDA, sino que comenzó a adentrarse simultáneamente en la cadena de adaptación del stack de software de la computación nacional.
Según información pública, V4 ya ha logrado un avance basado en chips de inferencia nacionales, con una adaptación profunda al chip Huawei Ascend 950, y Cambricon pudo ejecutarlo de manera estable el mismo día del lanzamiento del modelo, logrando una verdadera adaptación Day 0.
Esto significa que los modelos de vanguardia comienzan a tener la posibilidad de implementarse dentro del sistema de chips nacionales.
¿Cómo lo logró DeepSeek V4?
El primer paso ocurrió en la capa de arquitectura del modelo.
V4 no optó por hacer que los chips nacionales soporten a la fuerza un contexto de 1M, sino que primero hizo que el modelo en sí fuera más eficiente.
El diseño clave en el informe técnico oficial es el mecanismo de atención mixta CSA + HCA, y la optimización de contexto largo con compresión de KV Cache, entre otros.
En pocas palabras, la inferencia de contexto largo tradicional hace que el modelo, cada vez que responde una pregunta, despliegue una biblioteca completa para hojear, consumiendo rápidamente la memoria, el ancho de banda y la capacidad de cálculo.
El enfoque de V4 es primero reindexar, comprimir y filtrar los materiales de la biblioteca, enviando solo la información más crucial a la cadena de cálculo.
De esta manera, el contexto de 1M ya no depende completamente de la fuerza bruta del hardware, sino que primero reduce la carga de cálculo y memoria mediante algoritmos.
Esto es crucial para los chips nacionales.
Si el modelo siguiera dependiendo en gran medida del ancho de banda de memoria y de las bibliotecas CUDA maduras, incluso si los chips nacionales pudieran ejecutarlo, sería difícil que lo hicieran de manera barata y estable.
V4, al reducir primero la carga de inferencia, esencialmente está aliviando la presión sobre la capacidad de computación nacional.
El segundo paso ocurre en la capa de arquitectura MoE y de parámetros de activación.
Aunque V4-Pro tiene un total de 1.6 billones de parámetros, solo activa unos 49 mil millones de parámetros por inferencia; V4-Flash tiene un total de 284 mil millones de parámetros, activando unos 13 mil millones por inferencia.
Esto significa que no saca todos los parámetros para calcular cada vez, sino que es como un gran equipo de expertos: cuando llega una tarea, solo llama a los expertos relevantes.
Para los chips nacionales, esto también es importante.
Reduce la presión de cálculo que debe soportar cada inferencia y hace que los escenarios de contexto largo y Agent sean más fáciles de manejar para las tarjetas de inferencia.
El tercer paso es la adaptación a nivel de operadores y Kernel.
El punto más fuerte del ecosistema CUDA es que una gran cantidad de cálculos de bajo nivel ya han sido pulidos y madurados por Nvidia, y muchos cálculos de alto rendimiento se pueden llamar directamente.
El significado de V4 radica en que extrae parte del cálculo clave de la caja negra de Nvidia, convirtiéndolo en una ruta de cálculo personalizada más migrable y adaptable.
Dicho de manera más coloquial, V4 es como desmontar las piezas más cruciales del motor, permitiendo que fabricantes como Huawei Ascend y Cambricon puedan recalibrarlas según la estructura de sus propios chips.
El cuarto paso es el marco de inferencia y la capa de servicio.
Si la adaptación a chips nacionales se queda en "ejecutar una demo", su significado industrial no es grande. Lo que realmente merece atención es si puede integrarse en un sistema de servicio invocable y facturable.
Según pruebas internas, en Ascend 950PR, la velocidad de inferencia de V4 ha mejorado significativamente compared to versiones anteriores, y el consumo de energía también ha disminuido notablemente. El rendimiento de una sola tarjeta, en escenarios específicos de baja precisión, alcanza más del doble que el de la H20 especial de Nvidia.
DeepSeek oficialmente menciona que, actualmente, V4-Pro está limitado por la capacidad de computación de gama alta, con un rendimiento de servicio limitado. Se espera que el precio baje significativamente en la segunda mitad del año, una vez que se lancen al mercado en lotes los supernodos Ascend 950.
Esto indica que, con la producción en masa de hardware nacional como Ascend, el rendimiento y la relación calidad-precio de V4 mejorarán aún más en el futuro.
Pero cabe destacar que V4 no reemplaza por completo las GPU y CUDA de Nvidia. El entrenamiento del modelo probablemente aún dependa de Nvidia, pero la inferencia ya puede gradualmente localizarse.
Esta es, de hecho, una ruta comercial muy realista.
El entrenamiento es una inversión puntual: se entrena una vez, se ajusta una vez, se itera una vez. La inferencia es un costo continuo: millones de llamadas de usuarios diarias, cada una consume capacidad de cálculo.
La mayor parte del gasto real de las empresas de modelos, a largo plazo, se inclinará cada vez más hacia la inferencia. Quien pueda承接 (soporte) la demanda de inferencia de manera más barata y estable, obtendrá una ventaja real en las aplicaciones industriales.
DeepSeek V4 permite por primera vez que el despliegue de inferencia de modelos chinos de vanguardia cuente con una ruta que no tiene a CUDA de Nvidia como premisa predeterminada.
Este paso ya tiene suficiente peso.
El impacto de V4 en las aplicaciones industriales
Si la adaptación a chips nacionales responde a si se puede ejecutar, entonces el precio responde a otra pregunta más realista:
¿Pueden las empresas permitírselo?
El punto más fuerte de DeepSeek en el pasado era precisamente su capacidad de ofrecer capacidades cercanas a los modelos de vanguardia a un precio muy bajo.
Así fue en la era V3, R1, y así sigue siendo con V4.
La diferencia es que esta vez no libra una guerra de precios en ventanas de contexto ordinarias, sino que continúa presionando los precios bajo la premisa de contexto 1M + capacidad Agent.
Según el precio oficial de DeepSeek:
V4-Flash: entrada con acierto de caché 0.2 yuanes / millón de tokens, entrada sin acierto de caché 1 yuan / millón de tokens, salida 2 yuanes / millón de tokens;
V4-Pro: entrada con acierto de caché 1 yuan / millón de tokens, entrada sin acierto de caché 12 yuanes / millón de tokens, salida 24 yuanes / millón de tokens.
Comparándolo con modelos nacionales similares:
Frente a Ali Qwen3.6-Plus en el rango de 256K-1M, el precio de salida de V4-Pro es aproximadamente la mitad, y V4-Flash es aún más bajo.
Frente a Xiaomi MiMo Pro Series en el rango de 256K-1M, tanto V4-Flash como V4-Pro son significativamente más baratos.
El contexto de Kimi K2.6 es de 256K. En comparación, V4-Pro tiene un contexto más largo y un precio más bajo; V4-Flash directamente lleva el costo de llamadas de alta frecuencia a otro nivel.
Esto tiene un gran significado para las aplicaciones empresariales.
Porque un contexto de 1M significa que el modelo puede leer de una vez un repositorio de código completo, un grueso paquete de contratos, un prospecto de cientos de páginas, actas de reuniones extensas, o el estado histórico acumulado por un Agent al ejecutar tareas continuamente.
En el pasado, muchas aplicaciones empresariales se estancaban aquí: la capacidad del modelo era suficiente, pero el contexto no; el contexto era suficiente, pero el precio demasiado alto; el precio era aceptable, pero la capacidad del modelo no era lo suficientemente estable.
Por ejemplo, una empresa que desarrolla un Agent de investigación de inversiones quiere que el modelo lea simultáneamente informes anuales, conferencias telefónicas de resultados, informes sectoriales, noticias de la competencia y actas internas.
Con un contexto de solo 128K o 256K, el sistema often tiene que segmentar, recuperar y resumir constantemente, perdiéndose información en múltiples compresiones.
Un contexto de 1M permite al modelo retener más material original, reduciendo omisiones y lapsos.
Otro ejemplo es un Agent de código.
No se trata de escribir unas líneas de código de una vez, sino de leer repositorios, entender dependencias, modificar archivos, ejecutar pruebas, corregir según los errores. Este proceso consume tokens repetidamente.
Si cada paso es muy caro, el Agent solo puede servir para demostraciones, pero si los tokens son lo suficientemente baratos, entonces puede integrarse en flujos de desarrollo reales.
Este es también el valor industrial de V4.
Puede que no sea el modelo más potente, pero podría convertirse en el modelo de mayor frecuencia para las empresas.
DeepSeek vuelve a convertir la IA de un juguete exclusivo de unas pocas grandes empresas, en una herramienta de productividad que miles de industrias pueden desplegar a escala.
El verdadero valor de V4
Cuando el contexto de 1M llega a la primera línea industrial a un precio extremadamente bajo, es cuando el verdadero peso de DeepSeek V4 se revela.
Todo esto se construye sobre una base de capacidad de computación nacional aún inmadura.
Frente a la brecha sistémica del ecosistema de chips nacionales, el equipo de DeepSeek no optó por esperar a que el ecosistema madurara para lanzar.
Retrasaron repetidamente la ventana de lanzamiento, invirtieron meses de tiempo en realizar调试 (debugging) conjunto en profundidad con socios como Huawei. La dificultad de esta ingeniería supera con creces lo imaginable.
Precisamente por eso, que V4 logre en la capacidad de computación nacional una capacidad de inferencia y Agent cercana a los modelos cerrados de primer nivel, es doblemente meritorio.
V4 demuestra por sí mismo que, incluso frente a la brecha temporal del ecosistema de hardware, los equipos chinos aún pueden, mediante una inversión de ingeniería extrema y una innovación colaborativa software-hardware, lograr un rendimiento competitivo.
Por supuesto, aún queda distancia para la madurez total.
La完善度 (grado de perfección) de la cadena de herramientas de la plataforma Ascend, la estabilidad de los clústeres a超大规模 (gran escala), y la optimización profunda para más escenarios verticales, requieren el esfuerzo conjunto continuo de todas las partes de la industria.
Pero el éxito de V4 ha allanado un camino que puede servir de referencia para los modelos posteriores.
Ha inyectado un chute de confianza a la autonomía y control de toda la cadena de suministro de IA.
En el momento actual, lleno de incertidumbre en el entorno externo, esta resiliencia capaz de突破 (romper) limitaciones merece más respeto que los simples indicadores de parámetros.
"No seducido por la alabanza, no intimidado por la calumnia, actuar según el Tao, enderezarse rectamente".
Este texto, procedente de la官方 (oficial) de DeepSeek, es su mejor nota al pie.





