La nueva tecnología DeepSeek se adapta a los chips Apple, acelerando el modelo local en Mac un 60%

marsbitPublicado a 2026-07-03Actualizado a 2026-07-03

Resumen

El proyecto de código abierto DSpark de DeepSeek, originalmente diseñado para acelerar modelos de lenguaje en GPUs de centros de datos, ha sido adaptado por el ingeniero Abdur Rahim para funcionar de forma nativa en chips Apple (mlx-dspark). Esta adaptación logra aceleraciones de aproximadamente 1.6x para Gemma-4 12B y 1.4x para Qwen3-4B en un Mac con M4 Pro, manteniendo una precisión de salida idéntica al modelo original (byte por byte), incluso con muestreo por temperatura. La clave de DSpark es el "decodificado especulativo": un modelo pequeño y rápido (draft) genera varios tokens candidatos que luego son verificados de manera eficiente por el modelo principal (target). Rahim optimizó este proceso para la arquitectura Apple Silicon, utilizando cuantización de 4 bits para el modelo draft (1.8 GB) y 8 bits para el target, logrando una tasa de aceptación del 82%. Posteriormente, el proyecto integró también DFlash, una técnica alternativa de decodificación especulativa que genera bloques de tokens en paralelo. DFlash mostró un rendimiento superior (hasta ~2.1x de aceleración) en tareas estructuradas como código y matemáticas, mientras que DSpark es más eficaz en conversaciones abiertas. La versión mlx-dspark v0.0.3 ahora permite elegir entre ambos métodos según la tarea. Este trabajo demuestra la viabilidad de ejecutar eficientemente LLMs avanzados localmente en hardware Apple, combinando velocidad y precisión.

Crixi desde Feisi
QubitAI | Cuenta pública QbitAI

Una semana después de que DSpark se hiciera de código abierto, ya ha sido portado a ordenadores Apple.

La versión adaptada se llama mlx-dspark y ejecuta los modelos Gemma-4 12B y Qwen3-4B.

Después de instalarla, la velocidad de generación de estos dos modelos en Mac aumentó 1.6 y 1.4 veces respectivamente.

Lo más difícil es que logró algo que la mayoría de las versiones adaptadas no consiguen: la salida es idéntica byte a byte al modelo original, sin una sola letra de diferencia.

Es decir, se gana velocidad sin perder nada de calidad.

El responsable es Abdur Rahim, un ingeniero que dedica su tiempo libre a proyectos de código abierto. La primera versión nativa para Mac desde que DSpark se hizo de código abierto fue obra suya en solitario.

Ejecutar modelos grandes en Mac, acelerados un 60%

Para DSpark, hecho de código abierto por DeepSeek el 27 de junio, las cifras oficiales indican una aceleración del 60% al 85% en escenarios de servidor.

Sin embargo, esta tecnología solo tenía implementación para GPUs en centros de datos, sin una versión adaptada a los chips Apple.

mlx-dspark es la primera versión nativa para chips Apple de esta tecnología.

La idea de DSpark es asignar un modelo más pequeño como asistente al modelo objetivo. El modelo pequeño primero genera varios tokens candidatos de una vez, y luego el modelo objetivo los verifica en bloque, aceptando los correctos y rechazando los erróneos para volver a intentarlo.

El coste de este paso varía entre los centros de datos y los ordenadores Apple.

En las GPUs de los centros de datos, verificar un lote de tokens candidatos es como alquilar un autobús: el precio es fijo sin importar cuántos pasajeros, y la decodificación ya es un cuello de botella de memoria, por lo que verificar unos pocos tokens más apenas consume tiempo extra.

Los chips Apple son más como un taxi con taxímetro: cuantos más tokens candidatos se verifiquen, más sube la tarifa.

Rahim probó que para Gemma-4 12B, cada token adicional verificado añade unos 14 milisegundos. Calculó estos costes en un modelo y concluyó que el límite máximo de velocidad en chips Apple está alrededor de 2.2 veces.

En resumen, Rahim trasladó este modelo pequeño asistente desde el checkpoint de HuggingFace y lo asignó a los modelos objetivo Gemma-4 12B y Qwen3-4B.

También reconstruyó el flujo de verificación en el framework MLX y cuantificó los pesos a 4 bits.

Como resultado, en un M4 Pro, comparado con la herramienta oficial MLX de Apple, la velocidad de generación de Gemma-4 12B aumentó de 18.4 tok/s a aproximadamente 30 tok/s, unas 1.6 veces más rápida; Qwen3-4B pasó de 52.9 tok/s a aproximadamente 73 tok/s, unas 1.4 veces más rápida.

Además, en mlx-dspark, Rahim hizo algo que la mayoría de los trabajos de portabilidad no hacen.

Versiones adaptadas también pueden lograr una alta fidelidad

La mayoría de las versiones que portan modelos grandes a entorno local solo admiten decodificación codiciosa (greedy decoding), es decir, en cada paso eligen el token con mayor probabilidad.

En mlx-dspark, Rahim también implementó el método de muestreo con temperatura descrito originalmente en el artículo de DSpark: el modelo borrador proporciona tokens candidatos, la probabilidad de aceptación es min(1, p/q), y las partes no aceptadas se vuelven a muestrear a partir del residual.

Él mismo verificó que la distribución de salida generada por este flujo es estrictamente igual a la distribución exacta que produciría el modelo objetivo a la misma temperatura, no es una versión aproximada reducida.

La mayoría de las decodificaciones especulativas solo implementan la versión codiciosa porque verificar su corrección es sencillo: basta con comparar palabra por palabra.

El paso extra que dio Rahim fue verificar personalmente la distribución de salida generada en el modo de muestreo, confirmando que no se distorsiona.

Determinar qué precisión debía tener el modelo objetivo responsable de la verificación fue un obstáculo que superó probando.

Si el modelo pequeño se emparejaba con una versión base del modelo objetivo sin ajuste por instrucciones, solo el 47% de los tokens candidatos generados pasaban la verificación; al cambiar a la versión correspondiente ajustada por instrucciones, esta proporción aumentó al 82%.

También probó cambiar el modelo objetivo a precisión bf16, y el coste de verificación aumentó más que la tasa de aceptación, resultando incluso más lento, por lo que mantener el modelo objetivo por defecto en 8 bits es la opción más rentable.

El modelo pequeño responsable de generar los tokens candidatos preliminares utiliza otro esquema de precisión.

El modelo borrador en sí fue comprimido por él, y después de la cuantificación a 4 bits ocupa solo 1.8 GB, cabe en la memoria sin problemas y se ejecuta sin pérdidas.

El resultado es que DSpark no solo logró la aceleración, sino que también replicó en el dispositivo la mejora del 16% al 18% en la tasa de aceptación mencionada en el artículo.

DFlash también se integró, las tareas de código son más rápidas

Después de publicar el tuit, un comentario apareció: Jian Chen, uno de los autores del artículo de DFlash, preguntó si podían probar el modelo de su equipo.

DFlash es otro esquema de decodificación especulativa propuesto en un artículo publicado por z-lab en mayo. El líder del equipo de autores es Zhijian Liu, profesor asistente en UCSD e investigador científico en NVIDIA.

El enfoque de DFlash es diferente al de DSpark: utiliza una "difusión en bloque" paralela para denoizar un bloque completo de 16 tokens de una vez, en lugar de adivinarlos paso a paso con dependencias como hace DSpark.

Rahim actuó rápidamente.

Utilizando el script de portabilidad escrito por Jian, conectó gemma4-12B-it-DFlash publicado por z-lab al modelo objetivo Gemma-4 de mlx-vlm, y en el mismo Mac realizó una comparación directa con DSpark, que acababa de probar.

En tareas de código y matemáticas, la longitud de aceptación de la decodificación por bloques de DFlash alcanzó de 5.95 a 6.20, con una velocidad de aproximadamente 36 tok/s, logrando aproximadamente 2.1 veces más velocidad, superando a DSpark.

Sin embargo, DFlash genera un bloque completo de 16 tokens de una vez, pero el modelo objetivo puede no aprobarlos todos; en la práctica, solo una parte pasa la verificación. En la industria, a esto se le llama "longitud de aceptación", y no siempre se llenan los 16.

Por lo tanto, en escenarios como el chat abierto, donde el contenido es difícil de predecir, la longitud de aceptación no sube, los bloques no se llenan y la ventaja de DFlash no se aprovecha.

La cabeza de Markov de DSpark existe precisamente para abordar este mismo problema: generar un bloque completo de tokens en paralelo, donde las posiciones posteriores se calculan de forma independiente y pueden no encajar bien entre sí. La cabeza de Markov agrega una capa de dependencia entre estas posiciones para corregir específicamente este problema.

Como resultado, en escenarios de chat, DSpark es incluso más rápido que DFlash.

La posterior actualización mlx-dspark v0.0.3 integró oficialmente la versión original de DFlash de z-lab en el paquete, y agregó un parámetro para ajustar manualmente la longitud efectiva del bloque de DFlash: usar bloques cortos para escenarios de chat, y seguir usando bloques completos de 16 para escenarios de código y matemáticas.

Después de esto, el mismo Mac y el mismo paquete pueden realizar tanto tareas de chat como de código y matemáticas, sin necesidad de moverse entre los proyectos DSpark y DFlash.

Rahim dijo en su tuit que el mismo método debería funcionar en modelos borrador más grandes como Qwen3-8B y 14B.

Enlaces de referencia:[1]https://x.com/_ARahim_/status/2072021710602432577[2]https://github.com/ARahim3/mlx-dspark

Este artículo proviene de la cuenta pública de WeChat "Qubit", autor: Atención a la tecnología de vanguardia

Criptos en tendencia

Preguntas relacionadas

Q¿Qué es mlx-dspark y qué logra específicamente en modelos ejecutándose en Mac?

Amlx-dspark es la primera versión nativa para chips Apple de la tecnología DSpark de DeepSeek. Acelera la generación de modelos como Gemma-4 12B y Qwen3-4B en un 60% y 40% respectivamente en Mac, manteniendo una salida idéntica byte a byte al modelo original, sin pérdida de calidad.

Q¿Cómo funciona el método de decodificación especulativa DSpark para lograr la aceleración?

ADSpark emplea un modelo más pequeño (modelo "borrador") que genera rápidamente varios tokens candidatos. Luego, el modelo principal verifica todos los candidatos de una vez, aceptando los correctos y rechazando los erróneos para que el borrador intente nuevamente. Esto reduce el tiempo de decodificación secuencial.

Q¿Qué diferencia clave hay entre DFlash y DSpark en su enfoque de decodificación especulativa?

ADFlash genera un bloque completo de 16 tokens en paralelo mediante un proceso de "difusión de bloques", mientras que DSpark genera tokens candidatos de manera secuencial pero con dependencias (usando una cabeza Markov). DFlash es más rápido en tareas estructuradas como código, mientras que DSpark se desempeña mejor en conversación abierta.

Q¿Qué ajuste realizó Abdur Rahim en mlx-dspark para manejar diferentes tipos de tareas (chat vs. código)?

AEn mlx-dspark v0.0.3, Rahim integró DFlash y añadió un parámetro para ajustar manualmente la longitud efectiva del bloque. Se pueden usar bloques más cortos para chat y el bloque completo de 16 tokens para tareas de código y matemáticas, optimizando el rendimiento para cada escenario dentro del mismo paquete.

Q¿Qué precisión utilizó Rahim para los modelos objetivo y borrador en mlx-dspark para lograr un equilibrio óptimo entre velocidad y precisión?

AEl modelo objetivo principal se mantuvo en precisión de 8 bits, ya que usar bfloat16 incrementaba el costo de verificación. El modelo borrador se cuantificó a 4 bits (ocupando solo 1.8 GB), lo que permitió una ejecución eficiente sin pérdida de precisión y manteniendo una alta tasa de aceptación de tokens candidatos.

Lecturas Relacionadas

Se acumulan nubes bajistas mientras expiran opciones de Bitcoin y Ethereum por valor de 2.130 millones de dólares

El mercado de criptomonedas enfrentó una sesión crucial el 3 de julio con el vencimiento de opciones por un valor combinado de 2.130 millones de dólares en Bitcoin y Ethereum, lo que ofrece una visión de la posición de los inversores en un entorno desafiante. Vencieron aproximadamente 31.000 opciones de Bitcoin (valor nocional: 1.900 millones de dólares) con un ratio put-call de 0,70 y un "punto máximo de dolor" de 61.000 dólares. Paralelamente, expiraron 135.000 opciones de Ethereum (valor: 230 millones de dólares) con un ratio put-call de 1,29 y un nivel máximo de dolor de 1.650 dólares. El elevado ratio put-call de Ethereum, superior a 1, indica que las opciones de venta superan a las de compra, lo que sugiere que los operadores se cubren ante posibles caídas o mantienen una perspectiva cautelosa. El posicionamiento cerca de niveles clave de exposición a gamma (GEX), alrededor de 60.000 dólares para Bitcoin y 1.700 dólares para Ethereum, refuerza esta actitud defensiva. Aunque Bitcoin recuperó el nivel psicológico de 60.000 dólares, el sentimiento del mercado sigue siendo mixto. Los datos de vencimiento sugieren que los operadores se mantienen prudentes de cara al tercer trimestre, preparándose más para una volatilidad elevada que para un repunte alcista decisivo. Al momento de la información, Bitcoin cotizaba alrededor de 61.932 dólares y Ethereum cerca de 1.738 dólares, ambos con una disminución en el volumen de operaciones y liquidaciones significativas en las últimas 24 horas.

TheNewsCryptoHace 42 min(s)

Se acumulan nubes bajistas mientras expiran opciones de Bitcoin y Ethereum por valor de 2.130 millones de dólares

TheNewsCryptoHace 42 min(s)

De SpaceX a facturas comerciales: Cómo la tokenización está cambiando la forma en que el mundo mueve dinero

¿No te molestaría que un mensaje de WhatsApp llegara dos días después por tener que verificarse, autorizarse y pasar por tres etapas? Esperamos comunicación en tiempo real. ¿Por qué no exigimos lo mismo de los mercados financieros? Hoy, cambiar una acción por otra aún implica vender, esperar la liquidación y luego comprar. Las acciones tokenizadas podrían cambiar esto. Tras la OPI histórica de SpaceX (75.000 millones de dólares), plataformas blockchain comenzaron a ofrecer exposición tokenizada a SpaceX, NVIDIA, Google y otras grandes empresas. La NASDAQ también busca aprobación regulatoria para operar valores tokenizados. Una acción tokenizada es una acción en blockchain: misma empresa, mismo valor, mismos derechos, pero se opera a cualquier hora, liquida en segundos, puede fraccionarse y transfiere sin las capas intermedias tradicionales. Aunque las acciones dominan, otros activos se tokenizan: el crédito privado supera los 10.000 millones de dólares en blockchain, y bienes inmuebles, materias primas y deuda estructurada avanzan. Juntos, representan cientos de billones en valor global. Pero no todas las blockchains sirven para liquidación institucional. La tokenización regulada requiere tarifas predecibles, liquidación determinista e infraestructura de grado bancario. XDC Network, por ejemplo, ha procesado más de 1.100 millones de dólares en tokenización de créditos, commodities y deuda. En Brasil, Liqi Digital Assets reportó 1.200 millones de BRL (unos 230 millones USD) en operaciones tokenizadas acumuladas hasta inicios de 2026. Según Atul Khekade, cofundador de XDC Network, "La conversación sobre tokenización se ha centrado en activos ya fáciles de mover. El verdadero desafío son los nunca accesibles. Esos mercados valen órdenes de magnitud más, y la brecha de infraestructura es lo único que nos separa. Estamos al inicio de la verdadera década de la tokenización". BCG y Ripple proyectan un mercado de activos tokenizados de 18,9 billones de dólares para 2033; Standard Chartered lo extiende a 30 billones para 2034 incluyendo crédito transfronterizo. La brecha con la actualidad depende de la infraestructura: qué redes pueden manejar el volumen, cumplimiento y expectativas institucionales. El marco regulatorio también avanza: Brasil, Singapur, Reino Unido y la UE tienen marcos para instrumentos financieros tokenizados. La Ley GENIUS de EE.UU. (julio 2025) creó infraestructura federal para stablecoins. Ya no se cuestiona si la tokenización será permitida, sino qué tan rápido se adoptará a escala. La OPI de SpaceX dio visibilidad a la tokenización, pero la infraestructura para escalarla se construyó durante años, en partes del mercado que nunca fueron noticia. En eso se basará la próxima década financiera.

ambcryptoHace 1 hora(s)

De SpaceX a facturas comerciales: Cómo la tokenización está cambiando la forma en que el mundo mueve dinero

ambcryptoHace 1 hora(s)

¿Cuánto falta para que termine el cripto mercado bajista?

El artículo analiza cuánto falta para el final del actual mercado bajista de criptomonedas, destacando varios indicadores y eventos clave. Desde mediados de mayo, el índice de prima de Bitcoin en Coinbase ha mantenido una racha récord de 46 días en negativo, reflejando una presión vendedora sostenida. La venta de Bitcoin por parte de MicroStrategy en junio actuó como un catalizador significativo para la caída de precios, llevando a BTC a su peor semana desde 2022 y rompiendo la media móvil de 200 semanas, señal considerada por algunos como confirmación de un mercado bajista. A pesar de predicciones anteriores que sugerían un posible fondo cerca de los $53,600 o un final del ciclo en verano, la continua depreciación de BTC y ETH ha invalidado estos pronósticos. La desvinculación de la acción preferente de MicroStrategy (STRC) de los $100 y el aumento récord de bitcoins en pérdida, especialmente entre los tenedores a largo plazo, son vistos como síntomas del actual entorno. Respecto al momento del fondo, algunas perspectivas sugieren que julio-agosto podría ser una ventana de oportunidad de compra, mientras que otras predicen un mínimo entre $42,000 y $44,000 para octubre-diciembre. Indicadores como el precio promedio de 4 años de BTC y su relación con la media móvil de 200 semanas también se analizan para buscar señales de agotamiento de la venta. En conclusión, en ausencia de catalizadores alcistas externos, se estima que este mercado bajista podría extenderse al menos otros 2-3 meses, siendo finales de septiembre o principios de octubre un período crucial para observar una posible reversión.

marsbitHace 2 hora(s)

¿Cuánto falta para que termine el cripto mercado bajista?

marsbitHace 2 hora(s)

Trading

Spot

Artículos destacados

Cómo comprar ONE

¡Bienvenido a HTX.com! Hemos hecho que comprar Harmony (ONE) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Harmony (ONE) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Harmony (ONE)Después de comprar tu Harmony (ONE), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Harmony (ONE)Tradear fácilmente con Harmony (ONE) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

545 Vistas totalesPublicado en 2024.12.12Actualizado en 2026.06.02

Cómo comprar ONE

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de ONE (ONE).

活动图片