Por | Gao Heng (Miembro experto del Comité Especial de Difusión de Ciencia Ficción e Industria Futura de la Sociedad China de Periodismo de Ciencia y Tecnología)
Después del lanzamiento de DeepSeek V4, lo más interesante no son los puntos de referencia, sino la pequeña línea debajo de la tabla de precios.
En las especificaciones de precios de V4, DeepSeek menciona que, debido a la limitación de la potencia de cálculo de gama alta, el servicio de la versión Pro tiene actualmente un rendimiento muy limitado, y se espera que el precio de Pro baje significativamente en la segunda mitad del año, una vez que los supernodos Ascend 950 se lancen al mercado a gran escala.
Esta frase contiene más información que muchos parámetros técnicos. Indica que el bajo costo de DeepSeek ya no es solo el resultado de la optimización de la ingeniería del modelo, sino que comienza a estar vinculado al ritmo de suministro de la potencia de cálculo nacional. En el pasado, cuando una empresa de modelos bajaba los precios, normalmente se interpretaba como una mejora en la eficiencia del algoritmo, subsidios de los fabricantes o una nueva guerra de precios. Pero esta vez, DeepSeek condiciona directamente la futura reducción de precios al despliegue a gran escala de los supernodos Ascend 950.
Este es también el verdadero punto diferencial de este lanzamiento de V4. En superficie, es una actualización rutinaria del modelo: 1.6 billones de parámetros, contexto de 1 millón de tokens, capacidades más fuertes en código y Agent, y precios de API más bajos. Pero en profundidad, se parece más a Liang Wenfeng respondiendo simultáneamente a tres preguntas: ¿Puede DeepSeek seguir abaratando los modelos;¿Puede la potencia de cálculo nacional entrar en la ruta crítica de los modelos de vanguardia;¿Puede un equipo que durante mucho tiempo se ha mostrado como idealista tecnológico, aguantar la presión de la financiación, la retención de talento y la comercialización?
En el último año, DeepSeek ha cambiado la forma de fijar precios en la industria china de grandes modelos. Tras el lanzamiento de V3 y R1, los fabricantes de modelos nacionales e internacionales se vieron obligados a recalcular los precios de la API, los costes de entrenamiento y las rutas de comercialización. Con V4, el problema se vuelve más complejo. DeepSeek no solo continúa bajando los precios, sino que da el siguiente paso al vincular la próxima bajada de precios al despliegue a gran escala de la potencia de cálculo nacional.En mi opinión, esto significa que la competencia de los grandes modelos en China está pasando de "qué modelo tiene más capacidad" a la fase de "quién puede conectar el modelo, los chips, los sistemas de ingeniería y la organización comercial formando un ciclo cerrado".
01 DeepSeek ha abaratado el contexto largo
El 24 de abril por la mañana, DeepSeek anunció el lanzamiento oficial de la versión preliminar de la nueva serie de modelos DeepSeek-V4, que se publicó simultáneamente como código abierto.
Esta vez no es un modelo único, sino que se lanzan simultáneamente dos versiones: DeepSeek-V4-Pro y DeepSeek-V4-Flash. Según la información revelada por DeepSeek, V4-Pro tiene un total de 1.6 billones de parámetros, con 49 mil millones de parámetros activados, y está orientado a tareas de alto rendimiento; V4-Flash tiene un total de 284 mil millones de parámetros, con 13 mil millones de parámetros activados, y se centra en bajo coste y alto rendimiento. Ambos modelos adoptan la arquitectura MoE, es decir, "modelo de expertos mixtos".
El conocido comentarista de la industria tecnológica Peng Deyu me analizó: La lógica de MoE no es complicada. Un modelo grande puede tener muchos "expertos" internamente, pero cada vez que responde a una pregunta, no necesita que todos los expertos trabajen simultáneamente, solo llama a la parte más relevante. De esta manera, se puede aumentar la capacidad del modelo sin que cada llamada suponga la carga computacional de los parámetros completos. Para el usuario, lo que nota es que el modelo es más barato y rápido; para la empresa de modelos, la clave es que el coste unitario de inferencia se reduce.
Otro cambio de V4 es convertir el contexto de 1 millón de tokens en un servicio estándar oficial. Esta capacidad puede sonar abstracta para el usuario común, pero en el contexto de uso es muy clara: el usuario puede hacer que el modelo procese de una vez un libro entero, una base de código grande, un informe anual completo o un conjunto de documentos de proyecto complejos. En el pasado, este tipo de procesamiento de texto largo solía ser una capacidad adicional de modelos de gama alta, con precios altos, llamadas lentas y mucha presión en la memoria.En mi opinión, el punto clave de V4 no es ser el primero en lograr un contexto de un millón, sino intentar convertirlo en una capacidad básica de bajo coste.
Li Rui, director ejecutivo de Qishijie Beijing Technology Co., Ltd., me dijo: Este es también el cambio más significativo de V4 esta vez. El contexto de un millón ya no es una capacidad exclusiva hoy en día, modelos como Gemini y Qwen también han alcanzado este nivel. La pregunta que DeepSeek debe responder no es "si puede hacerlo", sino "una vez logrado, si el coste es sostenible". Si el contexto largo sigue siendo caro, solo será una función para unos pocos usuarios de gama alta; si el coste se reduce, entonces puede convertirse en una infraestructura diaria utilizable para empresas y desarrolladores.
Un investigador de la industria de grandes modelos me dijo: Detrás de esto se resuelve una contradicción que ha existido durante mucho tiempo en la industria de los grandes modelos: cuanto más largo es el contexto, mayor es el coste. Los modelos tradicionales, para entender texto largo, necesitan calcular una gran cantidad de interrelaciones entre tokens; cuanto más largo es el texto, más fácilmente aumentan el volumen de cálculo y el uso de memoria. DeepSeek V4 no enfrenta este problema de frente, sino que mediante atención dispersa y mecanismos de compresión, primero comprime el texto largo y luego extrae lo importante. En otras palabras, no hace que el modelo relea todo el contenido de principio a fin repetidamente, sino que primero organiza el contenido en una estructura de información más concentrada y luego razona en torno a los puntos clave.
El precio continúa la estrategia habitual de DeepSeek. Según la tarificación de la API anunciada para V4, la versión Pro tiene un precio de entrada con acierto en caché de 1 yuan por millón de tokens, y salida de 24 yuanes por millón de tokens; la versión Flash tiene un precio de entrada con acierto en caché de 0.2 yuanes por millón de tokens, y salida de 2 yuanes por millón de tokens.Resumiendo y comparando, actualmente el precio de entrada con acierto en caché de GLM-5.1 de Zhipu es de aproximadamente 1.3-2 yuanes por millón de tokens, y el precio de entrada con acierto en caché de Kimi-K2.6 es de aproximadamente 1.1 yuanes por millón de tokens. Es decir, el precio de entrada de V4 sigue estando en el nivel bajo de los modelos principales en China.
En mi opinión, lo que realmente es notable esta vez es que el bajo precio y el contexto largo se han unido. El contexto de un millón no es un parámetro aislado, determina si el modelo puede entrar en flujos de trabajo más pesados. Código, finanzas, derecho, investigación científica, bases de conocimiento empresarial, estas escenas requieren que el modelo lea materiales largos, procese estructuras complejas y retenga el contexto.
Los cambios de capacidad de V4 también giran en torno a estos escenarios. La información de evaluación revelada por DeepSeek muestra que V4-Pro supera a la mayoría de los modelos de código abierto en evaluaciones públicas en tareas como matemáticas, STEM y código de tipo competitivo; en Agentic Coding entra en el primer梯队 de modelos de código abierto, y es utilizado internamente por DeepSeek como herramienta de codificación para su equipo de ingeniería. También se ha adaptado a herramientas Agent主流 como Claude Code, OpenClaw, CodeBuddy, optimizando su rendimiento en escenarios de generación de código, procesamiento de documentos y uso de herramientas.
Pero esto no significa que V4 ya haya abierto una brecha general. El experto en posicionamiento estratégico empresarial Wu Yuxing me analizó así: El avance de rendimiento de V4 es algo menor comparado con el impacto que trajo R1 en su momento. Sigue estando en el primer梯队, pero en algunas tareas Agent complejas y en el conocimiento mundial más amplio, todavía hay una brecha con los modelos cerrados más顶尖.
El punto interesante de V4 no es "superar por goleada", sino ofrecer una capacidad de contexto largo y de tareas de producción suficientemente fuerte a un precio bajo. Este es el primer nivel de significado de DeepSeek V4: continúa bajando el umbral de uso de los modelos de alto rendimiento. Pero lo más importante es que DeepSeek comienza a explicar en qué más puede seguir sustentándose este bajo precio, y la respuesta apunta a la potencia de cálculo nacional.
02 El siguiente paso del bajo coste apunta a la potencia de cálculo nacional
El punto más crucial de V4 no está en la tabla de parámetros, sino en esa explicación sobre el Ascend 950.
DeepSeek menciona explícitamente en las especificaciones de precios que, debido a la limitación de la potencia de cálculo de gama alta, el servicio de la versión Pro tiene actualmente un rendimiento muy limitado, y se espera que el precio de Pro baje significativamente en la segunda mitad del año, una vez que los supernodos Ascend 950 se lancen al mercado a gran escala. Que una empresa de modelos vincule directamente una futura bajada de precios con el ritmo de lanzamiento de un determinado clúster de potencia de cálculo no es común en la industria. Indica que el precio del modelo comienza a estar determinado por la estructura de la potencia de cálculo.
En el pasado, que DeepSeek fuera barato se entendía más como una victoria de la arquitectura del modelo y la eficiencia de la ingeniería. V2 usó MoE para reducir la escala de los parámetros activados; R1 utilizó rutas de entrenamiento e inferencia más eficientes para impactar la dependencia de la industria del apilamiento de potencia de cálculo; entonces V3, con un control de costes extremo y optimización de ingeniería, desmanteló la lógica de precios tradicional de los modelos grandes generales. Después de V3 y R1, los grandes modelos nacionales se vieron obligados a entrar en una nueva reevaluación de precios. Pero lo diferente de V4 es que DeepSeek comienza a poner el siguiente paso del bajo precio en el despliegue a gran escala de la potencia de cálculo nacional.
Según el informe técnico de DeepSeek, V4 ha hecho un paralelismo de expertos de grano fino en el nivel inferior del sistema, es decir, el esquema EP. En términos sencillos, optimiza la forma en que el modelo se programa en los chips, superponiendo el cálculo y la comunicación como una línea de montaje, reduciendo el tiempo de espera de los chips. Con el mismo lote de chips, si pueden procesar más solicitudes, el coste unitario de inferencia naturalmente bajará.
El informe técnico menciona que este esquema EP ya ha sido verificado en dos sistemas: GPU de Nvidia y NPU Ascend de Huawei, y puede lograr una aceleración de 1.5-1.73 veces en tareas genéricas de inferencia, y en escenarios sensibles a la latencia (como inferencia RL y servicios de agente de alta velocidad) puede alcanzar hasta 1.96 veces. Huawei Ascend también anunció tras el lanzamiento de V4 que la serie completa de productos supernodo es compatible con la serie de modelos DeepSeek V4, Según se informa, Ascend 950, mediante la fusión de kernel y tecnología de paralelismo de múltiples flujos, reduce los costes de cálculo y acceso a memoria de Attention, mejorando significativamente el rendimiento de inferencia, y combinado con varios algoritmos de cuantificación, logra un despliegue de inferencia del modelo DeepSeek V4 con alto rendimiento y baja latencia.
Peng Deyu me dijo: El significado de esta información no es solo "inferencia más rápida". Significa que la optimización de ingeniería de DeepSeek comienza a tener capacidad multiplataforma. En el pasado, la mayoría de las empresas de grandes modelos desarrollaban en torno al sistema CUDA de Nvidia. CUDA no es solo una herramienta de programación, es más bien el sistema operativo subyacente de la era de la IA. Una gran cantidad de desarrolladores, bibliotecas de operadores, frameworks y código de modelo en todo el mundo se construyen alrededor de CUDA; una vez fuera de este sistema, mucho código de bajo nivel necesita reescribirse, con altos costes de ingeniería y pruebas. Esta es la verdadera fortaleza de Nvidia.
Lo que DeepSeek está haciendo ahora no es derrocar inmediatamente a CUDA, sino intentar abrirse un segundo camino. Resumiendo la información de los medios, DeepSeek, mediante TileLang, Tile Kernels y otras formas, abstrae parte de la lógica de los operadores de bajo nivel del单一 camino CUDA, expresando la lógica computacional en un lenguaje más universal, y luego hace que el compilador genere código de bajo nivel adaptado a diferentes hardware. De esta manera, los desarrolladores no tienen que reescribir completamente un conjunto de código para cada GPU o NPU, sino que pueden primero escribir lógica universal y luego optimizar para hardware específico.
Esto es importante para los chips nacionales. Los chips de IA nacionales enfrentaban en el pasado no solo problemas de potencia de cálculo en papel, sino también problemas de ecosistema de software y utilización efectiva. Que un chip se pueda usar bien depende de múltiples eslabones: modelo, operadores, compilador, comunicación, gestión de memoria, etc. Si DeepSeek puede hacer funcionar modelos de vanguardia en Huawei Ascend y reducir el coste de inferencia, lo que trae no es solo un caso de adaptación de un modelo, sino una verificación técnica de colaboración hardware-software.
Pero DeepSeek no se ha liberado inmediatamente de Nvidia, a corto plazo, CUDA sigue siendo el camino más maduro y estable. La señal que libera V4 es que la potencia de cálculo nacional ya ha comenzado a entrar en la estructura de costes clave de DeepSeek, y en cierta medida afecta a la futura fijación de precios. Aún no ha derrocado a CUDA, pero hace que CUDA ya no parezca completamente insustituible.
Esto es exactamente lo que preocupa a Jensen Huang. El fundador de Nvidia, Jensen Huang, dijo recientemente en una entrevista con Dwarkesh Patel que si DeepSeek lanzara primero en la plataforma Huawei, sería desastroso para Estados Unidos. Li Rui señaló que este juicio no se debe a que DeepSeek supere a alguien en una determinada puntuación, sino a que una vez que los modelos de código abierto de primer nivel puedan funcionar establemente en sistemas no-Nvidia, los desarrolladores podrían comenzar a cambiar sus hábitos. Si el modelo es suficientemente bueno, el precio suficientemente bajo y la cadena de herramientas madura gradualmente, la migración deja de ser solo una elección política o de cadena de suministro, y se convierte en una elección comercial.
Por lo tanto, el segundo nivel de significado de V4 es que la lógica de bajo precio de DeepSeek está pasando de "impulsada por la optimización del modelo" a "impulsada por la optimización del modelo + el sistema de potencia de cálculo". En el pasado, el precio de los grandes modelos estaba determinado principalmente por la eficiencia del algoritmo, el coste de entrenamiento y los subsidios de los fabricantes; ahora, el precio comienza a estar vinculado al suministro de chips, al despliegue de supernodos, y a la eficiencia de la colaboración hardware-software. Para DeepSeek, este es un camino hacia un coste aún menor; para Nvidia, es una grieta temporalmente pequeña, pero que debe vigilarse.
Sin embargo, la colaboración hardware-software no es un negocio de activos ligeros. Cuanto más se adentre el modelo en los chips y la infraestructura, mayor será el coste, la presión organizativa y la presión de comercialización que DeepSeek tendrá que asumir.
03 DeepSeek comienza a volverse pesado
Esta es también la razón por la que, alrededor del lanzamiento de V4, la noticia de que Liang Wenfeng comenzaba a contactar con financiación externa parecía igualmente importante.
Según informes de Sina Technology, recientemente DeepSeek también filtró planes para recaudar 50 mil millones de yuanes; una fuente cercana a DeepSeek reveló que la valoración previa a la financiación de DeepSeek es de 300 mil millones de yuanes, unos 440 mil millones de dólares, y que actualmente Tencent Holdings y Alibaba Group están negociando invertir en DeepSeek. Sin embargo, respecto a los asuntos relacionados con la financiación, DeepSeek no ha respondido positivamente a las consultas de los medios hasta ahora.
La valoración concreta no es lo más importante. Lo clave es que DeepSeek comienza a abrir una ventana de financiación externa. Esto significa que la competencia a la que se enfrenta ya no es solo la capacidad del modelo, sino que se extiende a la inversión en potencia de cálculo, la estabilidad del talento, los incentivos a los empleados y la capacidad de comercialización.
Esto es importante no por si el monto de la inversión es un número suficientemente grande. En el mercado actual de financiación de IA, no es exagerado. Lo importante es que la persona que abre la financiación es Liang Wenfeng. DeepSeek había sido considerada durante mucho tiempo una empresa rara de idealismo tecnológico, respaldada por幻方量化 (Huanfang Quantification), sin prisa por tomar capital externo ni por contar historias comerciales. Que comience a contactar con financiación externa indica que la forma de competencia después de V4 se ha vuelto más pesada y también con presión: la infraestructura de potencia de cálculo, los incentivos al talento y la implementación comercial requieren arreglos de capital más estables que en el pasado.
La primera presión proviene de la potencia de cálculo. Cuanto más avance V4 en la potencia de cálculo nacional, más necesitará invertir en infraestructura. Los parámetros del modelo pasan de miles de millones a billones, los costes de entrenamiento e inferencia aumentan. Si además hay que hacer más adaptaciones, ajustes y despliegues en torno al sistema Ascend, DeepSeek no puede ser solo una empresa de modelos de activos ligeros. Actualmente, DeepSeek ya está contratando ingenieros de operación y mantenimiento de centros de datos en Ulanqab, Mongolia Interior, esta es la primera vez que contrata personal directamente responsable de la operación de infraestructura de cálculo, lo que también es visto por el exterior como una señal de su movimiento hacia una infraestructura de potencia de cálculo más pesada.
La segunda presión proviene del talento. Múltiples informes de medios muestran que actualmente ya hay 5 expertos técnicos centrales confirmados que han dejado DeepSeek, y se han dirigido a empresas como ByteDance, Tencent, Xiaomi, Yuanrong Qixing, etc., involucrando direcciones como modelo base, aprendizaje por refuerzo de inferencia, multimodal y OCR. Entre ellos, se informa que Guo Daya (autor central de DeepSeek R1) se unió al equipo Seed de ByteDance; Wang Bingxuan (autor central de DeepSeek LLM) se unió a Hunyuan de Tencent; Ruan Chong (participó profundamente en el desarrollo de la serie de modelos multimodales DeepSeek-VL, VL2, Janus) se unió a Yuanrong Qixing; Luo Fuli (una de las desarrolladoras clave de DeepSeek-V2, y también contribuyente central de la tecnología MLA) se unió a Xiaomi; Wei Haoran (autor central de la serie DeepSeek OCR) aún no ha hecho público su destino.
Para una empresa con menos de 200 personas en total, este tipo de flujo no es un cambio de personal ordinario. Los informes de medios dicen que el equipo central de I+D de DeepSeek tiene unas 100 personas, casi no contrata externamente, principalmente depende de recién graduados y becarios que se quedan. En un equipo así, que un investigador central se vaya puede afectar no a un puesto, sino a la continuidad de una línea técnica.
Esto no significa que la organización de DeepSeek sea mala. Por el contrario, la impresión externa de DeepSeek a largo plazo es precisamente que tiene una forma de organización que las grandes empresas difícilmente pueden replicar: no fichar, no establecer KPI, los investigadores pueden formar equipos libremente o investigar nuevas ideas por su cuenta. Esta forma de organización es adecuada para avances técnicos tempranos, y explica por qué DeepSeek ha podido hacer constantemente innovaciones de ingeniería contraintuitivas en los últimos años. Pero cuando la industria entra en una fase más pesada, el problema cambia. El talento de primer nivel no solo mira la libertad de trabajo, sino también la dirección técnica, la inversión de recursos y los escenarios de implementación. Las grandes empresas pueden ofrecer simultáneamente dinero, potencia de cálculo, escenarios de producto y equipos más grandes.
La tercera presión proviene de la comercialización. Antes del lanzamiento de V4, la aplicación DeepSeek App se actualizó el 8 de abril, lanzando el "modo experto" compatible con razonamiento complejo y el "modo rápido" para tareas simples. Con el lanzamiento de V4, el exterior supo que el modo experto corresponde al V4-Pro de 1.6 billones de parámetros, y el modo rápido corresponde al V4-Flash de 284 mil millones de parámetros. Este cambio indica que DeepSeek ya no solo pone el modelo a disposición de los desarrolladores, sino que comienza a pulir una estratificación de productos orientada al usuario.
Peng Deyu señaló que existe una tensión natural con la ruta de código abierto. El código abierto puede establecer rápidamente notoriedad técnica y permitir que desarrolladores y socios del ecosistema reutilicen más rápido el camino de DeepSeek. Pero el código abierto通常 significa márgenes de beneficio más delgados, mayor sensibilidad al coste. Empresas cerradas como OpenAI, Anthropic pueden establecer ciclos comerciales más directos mediante suscripciones, API, servicios empresariales; Google, Amazon, Microsoft pueden digerir el coste del modelo en su ecosistema de computación en la nube. DeepSeek no tiene estas capas de amortiguación comercial listas. Si quiere continuar insistiendo en bajo precio, código abierto e I+D de modelos de vanguardia, debe encontrar nuevo capital, potencia de cálculo y soporte comercial.
Li Rui dijo: Por eso, el lanzamiento de V4 y la financiación no son dos cosas independientes. V4 es el examen que Liang Wenfeng entrega al mercado, demostrando que DeepSeek todavía puede hacer modelos fuertes, precios bajos, y llevar la potencia de cálculo nacional a la ruta crítica. La financiación es el examen que entrega al equipo, dando margen para la inversión en potencia de cálculo, opciones sobre acciones para empleados, estabilidad del talento y exploración comercial.
Wu Yuxing añadió: Aquí también hay una paradoja más realista. La financiación puede resolver la valoración de las acciones, puede aliviar la presión de la potencia de cálculo, y puede dar a la empresa más ventajas en la guerra por el talento. Pero la financiación no resuelve todos los problemas. Lo más escaso de DeepSeek en el pasado no era el dinero, sino ese temperamento organizativo dispuesto a apostar a largo plazo por la tecnología subyacente, dispuesto a evitar los caminos主流 para hacer innovación de ingeniería. Una vez que el capital, la comercialización y la guerra por el talento de las grandes empresas entran simultáneamente, lo que DeepSeek debe proteger no es solo el liderazgo del modelo, sino también su propia ruta técnica y cultura original.
En mi opinión, este es también el problema profundo que realmente expone V4. Demuestra que los grandes modelos en China ya tienen la capacidad de avanzar simultáneamente un paso en capacidad del modelo, precio de inferencia y adaptación de la potencia de cálculo nacional; pero también demuestra que la competencia de los grandes modelos ya no es una competición en la que unos pocos genios escriben mejores algoritmos. La siguiente fase compite por infraestructura de potencia de cálculo, sistemas de ingeniería, transformación de productos, capacidad de financiación y densidad de talento.
Liang Wenfeng ha apostado esta vez por la potencia de cálculo nacional. V4 mantiene a DeepSeek en el centro de la industria, y también permite al exterior ver que el ecosistema CUDA no es completamente inamovible. Pero el problema más difícil acaba de comenzar: cuando el modelo se vuelve más pesado, el talento más caro y la comercialización más urgente, ¿podrá DeepSeek, después de convertirse en una empresa de infraestructura de IA más pesada, mantener aún esa capacidad de cambiar las reglas que tenía en el pasado?





