DeepSeek ya no solo quiere hacer grandes modelos

marsbitPublicado a 2026-04-25Actualizado a 2026-04-25

Resumen

DeepSeek, la empresa china de modelos de inteligencia artificial, ha lanzado su nuevo modelo DeepSeek-V4, que incluye dos versiones: V4-Pro (1,6 billones de parámetros) y V4-Flash (284.000 millones de parámetros), ambas basadas en la arquitectura MoE. El modelo ofrece un contexto de 1 millón de tokens a un costo reducido, lo que permite procesar textos largos de manera más eficiente en áreas como código, finanzas y derecho. La principal novedad no es solo la mejora técnica, sino la estrategia de precios vinculada al hardware nacional. DeepSeek anunció que planea reducir aún más los precios una vez que se lancen a gran escala los nodos Ascend 950 de Huawei en la segunda mitad del año. Esto refleja un cambio en su enfoque: ya no depende solo de optimizaciones de software, sino también del ecosistema de chips chinos para abaratar costos. Además, DeepSeek está explorando una ruta de financiación externa, con rumores de una posible ronda de 50.000 millones de yuanes, lo que indicaría una transición hacia un modelo de negocio más pesado, con mayores inversiones en infraestructura, retención de talento y comercialización. Aunque el modelo mantiene un alto rendimiento en tareas técnicas, enfrenta presiones competitivas y desafíos para mantener su cultura de innovación en un entorno cada vez más comercial.

Por | Gao Heng (Miembro experto del Comité Especial de Difusión de Ciencia Ficción e Industria Futura de la Sociedad China de Periodismo de Ciencia y Tecnología)

Después del lanzamiento de DeepSeek V4, lo más interesante no son los puntos de referencia, sino la pequeña línea debajo de la tabla de precios.

En las especificaciones de precios de V4, DeepSeek menciona que, debido a la limitación de la potencia de cálculo de gama alta, el servicio de la versión Pro tiene actualmente un rendimiento muy limitado, y se espera que el precio de Pro baje significativamente en la segunda mitad del año, una vez que los supernodos Ascend 950 se lancen al mercado a gran escala.

Esta frase contiene más información que muchos parámetros técnicos. Indica que el bajo costo de DeepSeek ya no es solo el resultado de la optimización de la ingeniería del modelo, sino que comienza a estar vinculado al ritmo de suministro de la potencia de cálculo nacional. En el pasado, cuando una empresa de modelos bajaba los precios, normalmente se interpretaba como una mejora en la eficiencia del algoritmo, subsidios de los fabricantes o una nueva guerra de precios. Pero esta vez, DeepSeek condiciona directamente la futura reducción de precios al despliegue a gran escala de los supernodos Ascend 950.

Este es también el verdadero punto diferencial de este lanzamiento de V4. En superficie, es una actualización rutinaria del modelo: 1.6 billones de parámetros, contexto de 1 millón de tokens, capacidades más fuertes en código y Agent, y precios de API más bajos. Pero en profundidad, se parece más a Liang Wenfeng respondiendo simultáneamente a tres preguntas: ¿Puede DeepSeek seguir abaratando los modelos;¿Puede la potencia de cálculo nacional entrar en la ruta crítica de los modelos de vanguardia;¿Puede un equipo que durante mucho tiempo se ha mostrado como idealista tecnológico, aguantar la presión de la financiación, la retención de talento y la comercialización?

En el último año, DeepSeek ha cambiado la forma de fijar precios en la industria china de grandes modelos. Tras el lanzamiento de V3 y R1, los fabricantes de modelos nacionales e internacionales se vieron obligados a recalcular los precios de la API, los costes de entrenamiento y las rutas de comercialización. Con V4, el problema se vuelve más complejo. DeepSeek no solo continúa bajando los precios, sino que da el siguiente paso al vincular la próxima bajada de precios al despliegue a gran escala de la potencia de cálculo nacional.En mi opinión, esto significa que la competencia de los grandes modelos en China está pasando de "qué modelo tiene más capacidad" a la fase de "quién puede conectar el modelo, los chips, los sistemas de ingeniería y la organización comercial formando un ciclo cerrado".

01 DeepSeek ha abaratado el contexto largo

El 24 de abril por la mañana, DeepSeek anunció el lanzamiento oficial de la versión preliminar de la nueva serie de modelos DeepSeek-V4, que se publicó simultáneamente como código abierto.

Esta vez no es un modelo único, sino que se lanzan simultáneamente dos versiones: DeepSeek-V4-Pro y DeepSeek-V4-Flash. Según la información revelada por DeepSeek, V4-Pro tiene un total de 1.6 billones de parámetros, con 49 mil millones de parámetros activados, y está orientado a tareas de alto rendimiento; V4-Flash tiene un total de 284 mil millones de parámetros, con 13 mil millones de parámetros activados, y se centra en bajo coste y alto rendimiento. Ambos modelos adoptan la arquitectura MoE, es decir, "modelo de expertos mixtos".

El conocido comentarista de la industria tecnológica Peng Deyu me analizó: La lógica de MoE no es complicada. Un modelo grande puede tener muchos "expertos" internamente, pero cada vez que responde a una pregunta, no necesita que todos los expertos trabajen simultáneamente, solo llama a la parte más relevante. De esta manera, se puede aumentar la capacidad del modelo sin que cada llamada suponga la carga computacional de los parámetros completos. Para el usuario, lo que nota es que el modelo es más barato y rápido; para la empresa de modelos, la clave es que el coste unitario de inferencia se reduce.

Otro cambio de V4 es convertir el contexto de 1 millón de tokens en un servicio estándar oficial. Esta capacidad puede sonar abstracta para el usuario común, pero en el contexto de uso es muy clara: el usuario puede hacer que el modelo procese de una vez un libro entero, una base de código grande, un informe anual completo o un conjunto de documentos de proyecto complejos. En el pasado, este tipo de procesamiento de texto largo solía ser una capacidad adicional de modelos de gama alta, con precios altos, llamadas lentas y mucha presión en la memoria.En mi opinión, el punto clave de V4 no es ser el primero en lograr un contexto de un millón, sino intentar convertirlo en una capacidad básica de bajo coste.

Li Rui, director ejecutivo de Qishijie Beijing Technology Co., Ltd., me dijo: Este es también el cambio más significativo de V4 esta vez. El contexto de un millón ya no es una capacidad exclusiva hoy en día, modelos como Gemini y Qwen también han alcanzado este nivel. La pregunta que DeepSeek debe responder no es "si puede hacerlo", sino "una vez logrado, si el coste es sostenible". Si el contexto largo sigue siendo caro, solo será una función para unos pocos usuarios de gama alta; si el coste se reduce, entonces puede convertirse en una infraestructura diaria utilizable para empresas y desarrolladores.

Un investigador de la industria de grandes modelos me dijo: Detrás de esto se resuelve una contradicción que ha existido durante mucho tiempo en la industria de los grandes modelos: cuanto más largo es el contexto, mayor es el coste. Los modelos tradicionales, para entender texto largo, necesitan calcular una gran cantidad de interrelaciones entre tokens; cuanto más largo es el texto, más fácilmente aumentan el volumen de cálculo y el uso de memoria. DeepSeek V4 no enfrenta este problema de frente, sino que mediante atención dispersa y mecanismos de compresión, primero comprime el texto largo y luego extrae lo importante. En otras palabras, no hace que el modelo relea todo el contenido de principio a fin repetidamente, sino que primero organiza el contenido en una estructura de información más concentrada y luego razona en torno a los puntos clave.

El precio continúa la estrategia habitual de DeepSeek. Según la tarificación de la API anunciada para V4, la versión Pro tiene un precio de entrada con acierto en caché de 1 yuan por millón de tokens, y salida de 24 yuanes por millón de tokens; la versión Flash tiene un precio de entrada con acierto en caché de 0.2 yuanes por millón de tokens, y salida de 2 yuanes por millón de tokens.Resumiendo y comparando, actualmente el precio de entrada con acierto en caché de GLM-5.1 de Zhipu es de aproximadamente 1.3-2 yuanes por millón de tokens, y el precio de entrada con acierto en caché de Kimi-K2.6 es de aproximadamente 1.1 yuanes por millón de tokens. Es decir, el precio de entrada de V4 sigue estando en el nivel bajo de los modelos principales en China.

En mi opinión, lo que realmente es notable esta vez es que el bajo precio y el contexto largo se han unido. El contexto de un millón no es un parámetro aislado, determina si el modelo puede entrar en flujos de trabajo más pesados. Código, finanzas, derecho, investigación científica, bases de conocimiento empresarial, estas escenas requieren que el modelo lea materiales largos, procese estructuras complejas y retenga el contexto.

Los cambios de capacidad de V4 también giran en torno a estos escenarios. La información de evaluación revelada por DeepSeek muestra que V4-Pro supera a la mayoría de los modelos de código abierto en evaluaciones públicas en tareas como matemáticas, STEM y código de tipo competitivo; en Agentic Coding entra en el primer梯队 de modelos de código abierto, y es utilizado internamente por DeepSeek como herramienta de codificación para su equipo de ingeniería. También se ha adaptado a herramientas Agent主流 como Claude Code, OpenClaw, CodeBuddy, optimizando su rendimiento en escenarios de generación de código, procesamiento de documentos y uso de herramientas.

Pero esto no significa que V4 ya haya abierto una brecha general. El experto en posicionamiento estratégico empresarial Wu Yuxing me analizó así: El avance de rendimiento de V4 es algo menor comparado con el impacto que trajo R1 en su momento. Sigue estando en el primer梯队, pero en algunas tareas Agent complejas y en el conocimiento mundial más amplio, todavía hay una brecha con los modelos cerrados más顶尖.

El punto interesante de V4 no es "superar por goleada", sino ofrecer una capacidad de contexto largo y de tareas de producción suficientemente fuerte a un precio bajo. Este es el primer nivel de significado de DeepSeek V4: continúa bajando el umbral de uso de los modelos de alto rendimiento. Pero lo más importante es que DeepSeek comienza a explicar en qué más puede seguir sustentándose este bajo precio, y la respuesta apunta a la potencia de cálculo nacional.

02 El siguiente paso del bajo coste apunta a la potencia de cálculo nacional

El punto más crucial de V4 no está en la tabla de parámetros, sino en esa explicación sobre el Ascend 950.

DeepSeek menciona explícitamente en las especificaciones de precios que, debido a la limitación de la potencia de cálculo de gama alta, el servicio de la versión Pro tiene actualmente un rendimiento muy limitado, y se espera que el precio de Pro baje significativamente en la segunda mitad del año, una vez que los supernodos Ascend 950 se lancen al mercado a gran escala. Que una empresa de modelos vincule directamente una futura bajada de precios con el ritmo de lanzamiento de un determinado clúster de potencia de cálculo no es común en la industria. Indica que el precio del modelo comienza a estar determinado por la estructura de la potencia de cálculo.

En el pasado, que DeepSeek fuera barato se entendía más como una victoria de la arquitectura del modelo y la eficiencia de la ingeniería. V2 usó MoE para reducir la escala de los parámetros activados; R1 utilizó rutas de entrenamiento e inferencia más eficientes para impactar la dependencia de la industria del apilamiento de potencia de cálculo; entonces V3, con un control de costes extremo y optimización de ingeniería, desmanteló la lógica de precios tradicional de los modelos grandes generales. Después de V3 y R1, los grandes modelos nacionales se vieron obligados a entrar en una nueva reevaluación de precios. Pero lo diferente de V4 es que DeepSeek comienza a poner el siguiente paso del bajo precio en el despliegue a gran escala de la potencia de cálculo nacional.

Según el informe técnico de DeepSeek, V4 ha hecho un paralelismo de expertos de grano fino en el nivel inferior del sistema, es decir, el esquema EP. En términos sencillos, optimiza la forma en que el modelo se programa en los chips, superponiendo el cálculo y la comunicación como una línea de montaje, reduciendo el tiempo de espera de los chips. Con el mismo lote de chips, si pueden procesar más solicitudes, el coste unitario de inferencia naturalmente bajará.

El informe técnico menciona que este esquema EP ya ha sido verificado en dos sistemas: GPU de Nvidia y NPU Ascend de Huawei, y puede lograr una aceleración de 1.5-1.73 veces en tareas genéricas de inferencia, y en escenarios sensibles a la latencia (como inferencia RL y servicios de agente de alta velocidad) puede alcanzar hasta 1.96 veces. Huawei Ascend también anunció tras el lanzamiento de V4 que la serie completa de productos supernodo es compatible con la serie de modelos DeepSeek V4, Según se informa, Ascend 950, mediante la fusión de kernel y tecnología de paralelismo de múltiples flujos, reduce los costes de cálculo y acceso a memoria de Attention, mejorando significativamente el rendimiento de inferencia, y combinado con varios algoritmos de cuantificación, logra un despliegue de inferencia del modelo DeepSeek V4 con alto rendimiento y baja latencia.

Peng Deyu me dijo: El significado de esta información no es solo "inferencia más rápida". Significa que la optimización de ingeniería de DeepSeek comienza a tener capacidad multiplataforma. En el pasado, la mayoría de las empresas de grandes modelos desarrollaban en torno al sistema CUDA de Nvidia. CUDA no es solo una herramienta de programación, es más bien el sistema operativo subyacente de la era de la IA. Una gran cantidad de desarrolladores, bibliotecas de operadores, frameworks y código de modelo en todo el mundo se construyen alrededor de CUDA; una vez fuera de este sistema, mucho código de bajo nivel necesita reescribirse, con altos costes de ingeniería y pruebas. Esta es la verdadera fortaleza de Nvidia.

Lo que DeepSeek está haciendo ahora no es derrocar inmediatamente a CUDA, sino intentar abrirse un segundo camino. Resumiendo la información de los medios, DeepSeek, mediante TileLang, Tile Kernels y otras formas, abstrae parte de la lógica de los operadores de bajo nivel del单一 camino CUDA, expresando la lógica computacional en un lenguaje más universal, y luego hace que el compilador genere código de bajo nivel adaptado a diferentes hardware. De esta manera, los desarrolladores no tienen que reescribir completamente un conjunto de código para cada GPU o NPU, sino que pueden primero escribir lógica universal y luego optimizar para hardware específico.

Esto es importante para los chips nacionales. Los chips de IA nacionales enfrentaban en el pasado no solo problemas de potencia de cálculo en papel, sino también problemas de ecosistema de software y utilización efectiva. Que un chip se pueda usar bien depende de múltiples eslabones: modelo, operadores, compilador, comunicación, gestión de memoria, etc. Si DeepSeek puede hacer funcionar modelos de vanguardia en Huawei Ascend y reducir el coste de inferencia, lo que trae no es solo un caso de adaptación de un modelo, sino una verificación técnica de colaboración hardware-software.

Pero DeepSeek no se ha liberado inmediatamente de Nvidia, a corto plazo, CUDA sigue siendo el camino más maduro y estable. La señal que libera V4 es que la potencia de cálculo nacional ya ha comenzado a entrar en la estructura de costes clave de DeepSeek, y en cierta medida afecta a la futura fijación de precios. Aún no ha derrocado a CUDA, pero hace que CUDA ya no parezca completamente insustituible.

Esto es exactamente lo que preocupa a Jensen Huang. El fundador de Nvidia, Jensen Huang, dijo recientemente en una entrevista con Dwarkesh Patel que si DeepSeek lanzara primero en la plataforma Huawei, sería desastroso para Estados Unidos. Li Rui señaló que este juicio no se debe a que DeepSeek supere a alguien en una determinada puntuación, sino a que una vez que los modelos de código abierto de primer nivel puedan funcionar establemente en sistemas no-Nvidia, los desarrolladores podrían comenzar a cambiar sus hábitos. Si el modelo es suficientemente bueno, el precio suficientemente bajo y la cadena de herramientas madura gradualmente, la migración deja de ser solo una elección política o de cadena de suministro, y se convierte en una elección comercial.

Por lo tanto, el segundo nivel de significado de V4 es que la lógica de bajo precio de DeepSeek está pasando de "impulsada por la optimización del modelo" a "impulsada por la optimización del modelo + el sistema de potencia de cálculo". En el pasado, el precio de los grandes modelos estaba determinado principalmente por la eficiencia del algoritmo, el coste de entrenamiento y los subsidios de los fabricantes; ahora, el precio comienza a estar vinculado al suministro de chips, al despliegue de supernodos, y a la eficiencia de la colaboración hardware-software. Para DeepSeek, este es un camino hacia un coste aún menor; para Nvidia, es una grieta temporalmente pequeña, pero que debe vigilarse.

Sin embargo, la colaboración hardware-software no es un negocio de activos ligeros. Cuanto más se adentre el modelo en los chips y la infraestructura, mayor será el coste, la presión organizativa y la presión de comercialización que DeepSeek tendrá que asumir.

03 DeepSeek comienza a volverse pesado

Esta es también la razón por la que, alrededor del lanzamiento de V4, la noticia de que Liang Wenfeng comenzaba a contactar con financiación externa parecía igualmente importante.

Según informes de Sina Technology, recientemente DeepSeek también filtró planes para recaudar 50 mil millones de yuanes; una fuente cercana a DeepSeek reveló que la valoración previa a la financiación de DeepSeek es de 300 mil millones de yuanes, unos 440 mil millones de dólares, y que actualmente Tencent Holdings y Alibaba Group están negociando invertir en DeepSeek. Sin embargo, respecto a los asuntos relacionados con la financiación, DeepSeek no ha respondido positivamente a las consultas de los medios hasta ahora.

La valoración concreta no es lo más importante. Lo clave es que DeepSeek comienza a abrir una ventana de financiación externa. Esto significa que la competencia a la que se enfrenta ya no es solo la capacidad del modelo, sino que se extiende a la inversión en potencia de cálculo, la estabilidad del talento, los incentivos a los empleados y la capacidad de comercialización.

Esto es importante no por si el monto de la inversión es un número suficientemente grande. En el mercado actual de financiación de IA, no es exagerado. Lo importante es que la persona que abre la financiación es Liang Wenfeng. DeepSeek había sido considerada durante mucho tiempo una empresa rara de idealismo tecnológico, respaldada por幻方量化 (Huanfang Quantification), sin prisa por tomar capital externo ni por contar historias comerciales. Que comience a contactar con financiación externa indica que la forma de competencia después de V4 se ha vuelto más pesada y también con presión: la infraestructura de potencia de cálculo, los incentivos al talento y la implementación comercial requieren arreglos de capital más estables que en el pasado.

La primera presión proviene de la potencia de cálculo. Cuanto más avance V4 en la potencia de cálculo nacional, más necesitará invertir en infraestructura. Los parámetros del modelo pasan de miles de millones a billones, los costes de entrenamiento e inferencia aumentan. Si además hay que hacer más adaptaciones, ajustes y despliegues en torno al sistema Ascend, DeepSeek no puede ser solo una empresa de modelos de activos ligeros. Actualmente, DeepSeek ya está contratando ingenieros de operación y mantenimiento de centros de datos en Ulanqab, Mongolia Interior, esta es la primera vez que contrata personal directamente responsable de la operación de infraestructura de cálculo, lo que también es visto por el exterior como una señal de su movimiento hacia una infraestructura de potencia de cálculo más pesada.

La segunda presión proviene del talento. Múltiples informes de medios muestran que actualmente ya hay 5 expertos técnicos centrales confirmados que han dejado DeepSeek, y se han dirigido a empresas como ByteDance, Tencent, Xiaomi, Yuanrong Qixing, etc., involucrando direcciones como modelo base, aprendizaje por refuerzo de inferencia, multimodal y OCR. Entre ellos, se informa que Guo Daya (autor central de DeepSeek R1) se unió al equipo Seed de ByteDance; Wang Bingxuan (autor central de DeepSeek LLM) se unió a Hunyuan de Tencent; Ruan Chong (participó profundamente en el desarrollo de la serie de modelos multimodales DeepSeek-VL, VL2, Janus) se unió a Yuanrong Qixing; Luo Fuli (una de las desarrolladoras clave de DeepSeek-V2, y también contribuyente central de la tecnología MLA) se unió a Xiaomi; Wei Haoran (autor central de la serie DeepSeek OCR) aún no ha hecho público su destino.

Para una empresa con menos de 200 personas en total, este tipo de flujo no es un cambio de personal ordinario. Los informes de medios dicen que el equipo central de I+D de DeepSeek tiene unas 100 personas, casi no contrata externamente, principalmente depende de recién graduados y becarios que se quedan. En un equipo así, que un investigador central se vaya puede afectar no a un puesto, sino a la continuidad de una línea técnica.

Esto no significa que la organización de DeepSeek sea mala. Por el contrario, la impresión externa de DeepSeek a largo plazo es precisamente que tiene una forma de organización que las grandes empresas difícilmente pueden replicar: no fichar, no establecer KPI, los investigadores pueden formar equipos libremente o investigar nuevas ideas por su cuenta. Esta forma de organización es adecuada para avances técnicos tempranos, y explica por qué DeepSeek ha podido hacer constantemente innovaciones de ingeniería contraintuitivas en los últimos años. Pero cuando la industria entra en una fase más pesada, el problema cambia. El talento de primer nivel no solo mira la libertad de trabajo, sino también la dirección técnica, la inversión de recursos y los escenarios de implementación. Las grandes empresas pueden ofrecer simultáneamente dinero, potencia de cálculo, escenarios de producto y equipos más grandes.

La tercera presión proviene de la comercialización. Antes del lanzamiento de V4, la aplicación DeepSeek App se actualizó el 8 de abril, lanzando el "modo experto" compatible con razonamiento complejo y el "modo rápido" para tareas simples. Con el lanzamiento de V4, el exterior supo que el modo experto corresponde al V4-Pro de 1.6 billones de parámetros, y el modo rápido corresponde al V4-Flash de 284 mil millones de parámetros. Este cambio indica que DeepSeek ya no solo pone el modelo a disposición de los desarrolladores, sino que comienza a pulir una estratificación de productos orientada al usuario.

Peng Deyu señaló que existe una tensión natural con la ruta de código abierto. El código abierto puede establecer rápidamente notoriedad técnica y permitir que desarrolladores y socios del ecosistema reutilicen más rápido el camino de DeepSeek. Pero el código abierto通常 significa márgenes de beneficio más delgados, mayor sensibilidad al coste. Empresas cerradas como OpenAI, Anthropic pueden establecer ciclos comerciales más directos mediante suscripciones, API, servicios empresariales; Google, Amazon, Microsoft pueden digerir el coste del modelo en su ecosistema de computación en la nube. DeepSeek no tiene estas capas de amortiguación comercial listas. Si quiere continuar insistiendo en bajo precio, código abierto e I+D de modelos de vanguardia, debe encontrar nuevo capital, potencia de cálculo y soporte comercial.

Li Rui dijo: Por eso, el lanzamiento de V4 y la financiación no son dos cosas independientes. V4 es el examen que Liang Wenfeng entrega al mercado, demostrando que DeepSeek todavía puede hacer modelos fuertes, precios bajos, y llevar la potencia de cálculo nacional a la ruta crítica. La financiación es el examen que entrega al equipo, dando margen para la inversión en potencia de cálculo, opciones sobre acciones para empleados, estabilidad del talento y exploración comercial.

Wu Yuxing añadió: Aquí también hay una paradoja más realista. La financiación puede resolver la valoración de las acciones, puede aliviar la presión de la potencia de cálculo, y puede dar a la empresa más ventajas en la guerra por el talento. Pero la financiación no resuelve todos los problemas. Lo más escaso de DeepSeek en el pasado no era el dinero, sino ese temperamento organizativo dispuesto a apostar a largo plazo por la tecnología subyacente, dispuesto a evitar los caminos主流 para hacer innovación de ingeniería. Una vez que el capital, la comercialización y la guerra por el talento de las grandes empresas entran simultáneamente, lo que DeepSeek debe proteger no es solo el liderazgo del modelo, sino también su propia ruta técnica y cultura original.

En mi opinión, este es también el problema profundo que realmente expone V4. Demuestra que los grandes modelos en China ya tienen la capacidad de avanzar simultáneamente un paso en capacidad del modelo, precio de inferencia y adaptación de la potencia de cálculo nacional; pero también demuestra que la competencia de los grandes modelos ya no es una competición en la que unos pocos genios escriben mejores algoritmos. La siguiente fase compite por infraestructura de potencia de cálculo, sistemas de ingeniería, transformación de productos, capacidad de financiación y densidad de talento.

Liang Wenfeng ha apostado esta vez por la potencia de cálculo nacional. V4 mantiene a DeepSeek en el centro de la industria, y también permite al exterior ver que el ecosistema CUDA no es completamente inamovible. Pero el problema más difícil acaba de comenzar: cuando el modelo se vuelve más pesado, el talento más caro y la comercialización más urgente, ¿podrá DeepSeek, después de convertirse en una empresa de infraestructura de IA más pesada, mantener aún esa capacidad de cambiar las reglas que tenía en el pasado?

Preguntas relacionadas

Q¿Qué significa que DeepSeek V4 haya vinculado su futura reducción de precios al despliegue a gran escala de los nodos Ascend 950?

ASignifica que DeepSeek ya no depende únicamente de la optimización algorítmica o de subsidios para reducir costos, sino que está integrando estratégicamente la capacidad de computación nacional en su estructura de costos. Esto refleja un cambio en la industria de los modelos de lenguaje grandes (LLM) en China, donde la competitividad futura dependerá de la capacidad de conectar modelos, chips, sistemas de ingeniería y organización comercial en un ciclo cerrado, en lugar de solo la superioridad técnica del modelo.

Q¿Cómo logra DeepSeek V4 ofrecer un contexto de 1 millón de tokens a un bajo costo?

ADeepSeek V4 utiliza una arquitectura MoE (Mixture of Experts) que activa solo un subconjunto de parámetros por consulta, reduciendo la carga computacional. Además, incorpora mecanismos de atención eficiente y compresión de contexto, que el modelo no necesite reprocesar todo el texto repetidamente, sino que condense la información y se centre en los puntos clave, optimizando así el uso de memoria y el costo por token.

Q¿Por qué es significativo que DeepSeek haya optimizado V4 para funcionar en hardware de Ascend (NPU) además de en GPU de Nvidia?

AEs significativo porque demuestra que DeepSeek está desarrollando capacidades de ingeniería multiplataforma, reduciendo su dependencia del ecosistema CUDA de Nvidia. Esto no solo una adaptación técnica, sino una estrategia para abaratar costos a largo plazo mediante el uso de chips nacionales, y podría incentivar a más desarrolladores a migrar a alternativas no-Nvidia si el rendimiento y el precio son competitivos.

Q¿Qué presiones enfrenta DeepSeek según se desprende del lanzamiento de V4 y los reports de financiación?

ADeepSeek enfrenta presiones en tres frentes: 1) La necesidad de infraestructura de computación pesada y costosa, especialmente al profundizar en la integración con chips nacionales; 2) La retención de talento, tras la salida de varios investigadores clave hacia grandes tecnológicas; 3) La presión por comercializar sus modelos de manera efectiva, equilibrando su filosofía de código abierto y precios bajos con la necesidad de generar flujos de ingresos sostenibles.

Q¿Cómo impacta la estrategia de DeepSeek en la posición de Nvidia según el artículo?

ALa estrategia de DeepSeek representa una grieta potencial en el dominio de Nvidia y CUDA. Si un modelo de referencia como V4 puede funcionar de forma estable y económica en hardware alternativo (como Ascend), los desarrolladores podrían comenzar a considerar migrar por razones comerciales, no solo políticas o de suministro. Aunque Nvidia sigue siendo la opción más madura, DeepSeek está demostrando que su ecosistema no es insustituible a largo plazo.

Lecturas Relacionadas

Polymarket atascado: la verdadera prueba tras el auge de tráfico ha llegado

Polymarket, el principal mercado de predicciones, enfrenta problemas de rendimiento que afectan la experiencia del usuario, como retrasos en transacciones y fallos en órdenes. Su vicepresidente de ingeniería, Josh Stevens, reconoció que el crecimiento ha superado la capacidad de la infraestructura actual y anunció un plan de mejora que incluye una migración de cadena ("chain migration"). La plataforma, que opera actualmente en Polygon, ya no considera esta blockchain suficiente para su operación similar a un exchange, necesitando más espacio de bloques, gas más bajo y tiempos de confirmación más rápidos. El cambio no es una simple migración; implica reconstruir su sistema central de órdenes (CLOB), mejorar la API y el rendimiento del sitio, y lanzar contratos perpetuos (Perps). Varias cadenas como Solana, Sui y Algorand han mostrado interés en albergar la plataforma. Para Polygon, perder Polymarket sería un golpe significativo, ya que es una fuente importante de tarifas. El verdadero desafío para Polymarket no es solo elegir una nueva cadena, sino transformarse en una infraestructura de trading estable y confiable para retener a sus usuarios.

Odaily星球日报Hace 2 días 03:22

Polymarket atascado: la verdadera prueba tras el auge de tráfico ha llegado

Odaily星球日报Hace 2 días 03:22

El obstáculo clave para la designación de Warsh como presidente de la Fed el 15 de mayo ha sido despejado tras la concesión de un legislador clave

El obstáculo clave para la confirmación de Kevin Warsh como presidente de la Reserva Federal fue eliminado después de que el senador republicano Thom Tillis retirara su oposición. Tillis había bloqueado la nominación debido a una investigación penal contra el actual presidente, Jerome Powell, que consideraba una amenaza a la independencia de la Fed. Tras la retirada de la investigación por parte del Departamento de Justicia, Tillis acordó permitir la votación en el Comité Bancario del Senado, programada para el 29 de abril. Se espera que Warsh, quien cuenta con amplio apoyo republicano, sea confirmado cerca del fin del mandato de Powell el 15 de mayo. Su posible llegada podría significar reformas significativas, incluida la eliminación del "dot plot" (mapa de proyecciones de tasas) y una revisión de la orientación prospectiva de la Fed, lo que podría alterar los marcos de valoración de activos globales. Aunque la investigación penal contra Powell fue cerrada, persiste cierta incertidumbre sobre su futuro en la Junta de la Fed.

marsbitHace 2 días 02:58

El obstáculo clave para la designación de Warsh como presidente de la Fed el 15 de mayo ha sido despejado tras la concesión de un legislador clave

marsbitHace 2 días 02:58

Bajando las expectativas para el próximo ciclo alcista de BTC

**Resumen del artículo: "Bajar las expectativas para el próximo ciclo alcista de BTC" por Alex Xu** El autor, que tenía a Bitcoin como su mayor activo, ha reducido progresivamente su exposición durante el actual ciclo alcista: eliminó el apalancamiento a 70k y redujo su posición de un 100% a un 30% entre 100k-120k. Recientemente, vendió más a 78k-79k, argumentando una revisión a la baja de las expectativas para el próximo máximo alcista. Las razones principales son: 1. **Narrativa de adopción agotada:** El impulso de adopción masiva (de minorista a institucional vía ETFs) parece agotado. El siguiente paso, la adopción por bancos centrales o fondos soberanos importantes, se ve muy difícil a corto plazo. 2. **Coste de oportunidad:** El autor ha identificado otras oportunidades de inversión en empresas atractivas. 3. **Contracción del ecosistema crypto:** La mayoría de modelos de negocio Web3 (SocialFi, GameFi, DePIN) no han funcionado. Solo DeFi genera valor, pero se contrae por la falta de activos nativos de calidad, lo que reduce la base de usuarios y holders de BTC. 4. **Problemas del mayor comprador:** MicroStrategy, el mayor tenedor corporativo, enfrenta un coste de financiación creciente (11.5% para su préstamo perpetuo), lo que podría ralentizar su ritmo de compra y ejercer presión vendedora. 5. **Competencia del oro tokenizado:** El oro tokenizado ha cerrado la brecha en portabilidad y divisibilidad, erosionando la ventaja competitiva de BTC como "oro digital". 6. **Problema de seguridad:** La reducción de la recompensa por minado (halving) amenaza la seguridad de la red, ya que las nuevas fuentes de ingresos por fees (como las inscripciones) no han podido dar solución. Conclusión: El autor mantiene una posición significativa en BTC y espera que suba, pero es menos optimista sobre su potencial alcista. Vender en la reciente subida fue una decisión táctica. Si sus razones para ser bajista se invalidan, estaría abierto a recomprar, aceptando si se equivoca y el precio sube.

marsbitHace 2 días 02:49

Bajando las expectativas para el próximo ciclo alcista de BTC

marsbitHace 2 días 02:49

Los mercados de predicción no pueden prescindir del uso de información privilegiada, pero el uso de información privilegiada los está matando

El mercado de predicciones enfrenta una paradoja fundamental: depende de la información privilegiada (insider trading) para generar precios precisos, pero esta práctica aleja a los pequeños inversores al percibir el mercado como manipulado. Recientemente, un soldado estadounidense ganó 400.000 dólares en Polymarket usando información clasificada, lo que destaca el problema. Aunque plataformas como Polymarket y Kalshi prohíben el uso de información no pública, su valor social radica en incentivar a quienes poseen conocimientos exclusivos a compartirlos. Sin embargo, esto crea un ciclo destructivo: cuanta más información privilegiada hay, menos confianza tienen los pequeños inversores, reduciendo la liquidez. El desafío es encontrar un equilibrio entre eficiencia informativa y equidad percibida para que estos mercados sobrevivan a largo plazo.

marsbitHace 2 días 02:38

Los mercados de predicción no pueden prescindir del uso de información privilegiada, pero el uso de información privilegiada los está matando

marsbitHace 2 días 02:38

¿Puede Irán "controlar" el estrecho de Ormuz?

Según la agencia iraní Mehr, Irán ha elaborado un plan integral para gestionar el estrecho de Ormuz, que incluye exigir permisos y tarifas de paso a los buques, prohibir el acceso a barcos israelíes y de países "hostiles", y priorizar el pago en riales. Analistas señalan que el objetivo de Irán es presionar a EE.UU. e Israel, obtener nuevos ingresos y mantener abierta la posibilidad de negociaciones. Sin embargo, la implementación enfrenta obstáculos: dificultades operativas en un estrecho muy transitado, controversias legales internacionales, oposición global y las contramedidas de EE.UU., que bloquea puertos iraníes y amenaza con interceptar buques que paguen las tarifas. Por ello, aún es incierto si el plan se aplicará plenamente o servirá solo como moneda de cambio en las negociaciones.

marsbitHace 2 días 01:33

¿Puede Irán "controlar" el estrecho de Ormuz?

marsbitHace 2 días 01:33

Trading

Spot

Futuros