DeepSeek accélère le traitement local des grands modèles sur puces Apple, une amélioration de 60%

marsbitPublié le 2026-07-03Dernière mise à jour le 2026-07-03

Résumé

La technologie DSpark de DeepSeek, initialement conçue pour les GPU de centres de données, a été adaptée pour les puces Apple par l'ingénieur Abdur Rahim. Cette version native, nommée mlx-dspark, accélère considérablement l'exécution de modèles de langage sur Mac. En utilisant un petit modèle "ébauche" pour générer des tokens candidats que le modèle principal vérifie ensuite par lot, mlx-dspark augmente la vitesse de génération de Gemma-4 12B et Qwen3-4B d'environ 1,6 et 1,4 fois respectivement sur un M4 Pro. L'innovation de Rahim réside dans la préservation de la sortie exacte du modèle original, même avec un décodage par échantillonnage, et non pas seulement avec un décodage glouton. Le projet intègre également DFlash, une autre technique de décodage spéculatif qui génère des blocs de tokens en parallèle. DFlash excelle dans les tâches de code et de mathématiques (accélération ~2,1x), tandis que DSpark, avec sa tête Markovienne, reste plus efficace pour le chat général. La version mlx-dspark v0.0.3 permet désormais de choisir entre les deux méthodes au sein d'un même package. Ce portage démontre l'optimisation efficace des LLMs pour le matériel Apple, en combinant accélération significative, précision des sorties et flexibilité méthodologique.

Keleixi depuis QFeiSI | Compte public QbitAI

Une semaine seulement après son ouverture, DSpark a été adapté aux ordinateurs Apple.

La version adaptée s'appelle mlx-dspark et exécute les modèles Gemma-4 12B et Qwen3-4B.

Après installation, la vitesse de génération de ces deux modèles sur Mac a été augmentée respectivement de 1,6 fois et de 1,4 fois.

Le plus difficile est qu'il a réussi une chose que la plupart des versions adaptées ne parviennent pas à faire – la sortie est identique octet par octet au modèle original, sans la moindre différence.

En d'autres termes, la vitesse est gagnée sans aucune perte de qualité.

La personne qui s'est attelée à cette tâche est Abdur Rahim, un ingénieur qui bricole des projets open source sur son temps libre. La première version native pour Mac de DSpark depuis son ouverture a été entièrement réalisée par lui seul.

Exécution de grands modèles sur Mac, accélération de 60%

Concernant DSpark, open source de DeepSeek le 27 juin, les chiffres officiels indiquent une accélération de 60% à 85% dans les scénarios côté serveur.

Cependant, cette technologie n'était alors disponible que pour les GPU des centres de données, sans version adaptée aux puces Apple.

mlx-dspark est la première version native pour puces Apple de cette technologie.

L'idée de DSpark est de fournir un modèle plus petit pour assister le modèle cible. Le petit modèle génère d'abord plusieurs candidats d'un coup, puis le modèle cible les vérifie en une seule fois, gardant les bons et renvoyant les mauvais pour une nouvelle tentative.

Le coût de cette étape diffère entre les centres de données et les ordinateurs Apple.

Sur les GPU des centres de données, vérifier un lot de candidats ressemble plus à un forfait, un prix fixe quel que soit le nombre de personnes, le décodage étant déjà un goulot d'étranglement mémoire, vérifier quelques candidats supplémentaires ne prend presque pas plus de temps.

Les puces Apple ressemblent plus à un taxi avec compteur, plus on vérifie de candidats, plus le coût augmente.

Rahim a mesuré que pour Gemma-4 12B, chaque token vérifié en plus coûte environ 14 millisecondes. Il a modélisé ce coût et a conclu que le plafond de vitesse sur puce Apple se situe autour de 2,2 fois.

En bref, Rahim a adapté ce petit modèle assistant à partir du checkpoint HuggingFace et l'a associé aux modèles cibles Gemma-4 12B et Qwen3-4B.

Il a également reconstruit le processus de vérification dans le framework MLX et quantifié les poids en 4-bit.

Résultat, sur M4 Pro, comparé aux outils officiels MLX d'Apple, la vitesse de génération de Gemma-4 12B est passée de 18,4 tok/s à environ 30 tok/s, soit environ 1,6 fois plus rapide ; celle de Qwen3-4B est passée de 52,9 tok/s à environ 73 tok/s, soit environ 1,4 fois plus rapide.

De plus, dans mlx-dspark, Rahim a également accompli quelque chose que la plupart des travaux d'adaptation ne font pas.

Version adaptée, également capable d'une restitution haute précision

La plupart des versions adaptées de grands modèles pour exécution locale ne prennent en charge que le décodage glouton, c'est-à-dire choisir le mot le plus probable à chaque étape.

Dans mlx-dspark, Rahim a également implémenté la méthode d'échantillonnage avec température décrite à l'origine dans le papier DSpark. Le modèle brouillon propose des candidats, la probabilité d'acceptation est min(1, p/q), et les parties non acceptées sont rééchantillonnées à partir du résidu.

Il a vérifié lui-même que la distribution de sortie produite par ce processus est strictement égale à la distribution exacte que le modèle cible donnerait à la même température, ce n'est pas une version approximative dégradée.

La plupart des décodages spéculatifs ne font qu'une version gloutonne car la validation de la version gloutonne est simple, il suffit de comparer mot par mot.

L'étape supplémentaire de Rahim a consisté à vérifier lui-même la distribution de sortie en mode échantillonnage, confirmant qu'elle n'était pas déformée.

La précision à attribuer au modèle cible responsable de la vérification a été un piège qu'il a découvert par essais.

Si le petit modèle est associé à une version de base du modèle cible non affinée par instructions, seulement 47% des candidats proposés passent la vérification ; avec la version affinée par instructions correspondante, ce taux monte à 82%.

Il a également testé de passer le modèle cible en précision bf16, le coût de vérification augmentant plus que le taux d'acceptation, ralentissant même le processus, donc garder le modèle cible par défaut en 8-bit est le plus optimal.

Le petit modèle responsable de proposer les candidats utilise une autre précision.

Le modèle brouillon lui-même a été compressé, après quantification 4-bit il ne fait que 1,8 Go, il rentre sans problème en mémoire et fonctionne toujours de manière non destructive.

Le résultat est que DSpark a non seulement réalisé l'accélération, mais a également bien répliqué sur l'appareil l'augmentation du taux d'acceptation de 16% à 18% mentionnée dans l'article.

DFlash également intégré, les tâches de code plus rapides

Après la publication du tweet, un commentaire est apparu. Jian Chen, l'un des auteurs de l'article DFlash, a demandé s'ils pouvaient essayer le modèle de leur équipe.

DFlash est un autre schéma de décodage spéculatif proposé dans un article publié par z-lab en mai de cette année. Le chef d'équipe des auteurs, Zhijian Liu, est professeur assistant à l'UCSD et également chercheur scientifique chez NVIDIA.

L'approche de DFlash est différente de celle de DSpark. Il utilise une « diffusion de bloc » parallèle pour débruiter un bloc entier de 16 tokens en une fois, au lieu de deviner pas à pas avec des dépendances comme DSpark.

Rahim s'est rapidement mis au travail.

Utilisant le script d'adaptation écrit par Jian lui-même, il a connecté gemma4-12B-it-DFlash publié par z-lab au modèle cible Gemma-4 de mlx-vlm. Sur le même Mac, il a effectué une nouvelle comparaison directe avec DSpark qu'il venait de tester.

Sur les tâches de code et de mathématiques, la longueur d'acceptation du décodage par bloc de DFlash pouvait atteindre 5,95 à 6,20, à une vitesse d'environ 36 tok/s, atteignant environ 2,1 fois, battant ainsi DSpark.

Cependant, DFlash doit générer un bloc entier de 16 tokens en une fois, mais le modèle cible ne les approuve pas nécessairement tous. En réalité, seule une partie passe la vérification. Le secteur appelle cela la « longueur d'acceptation », et il n'est pas toujours possible de remplir les 16 à chaque fois.

Donc, dans des scénarios de conversation ouverte où le contenu est difficile à prédire, la longueur d'acceptation ne monte pas, le bloc n'est pas rempli, et l'avantage de DFlash ne se manifeste pas.

La tête Markov de DSpark existe précisément pour résoudre ce même problème. Générer un bloc entier de mots en parallèle, les positions plus éloignées étant calculées indépendamment, peuvent facilement ne pas s'emboîter. La tête Markov ajoute une couche de dépendance entre ces positions pour corriger ce problème.

Le résultat est que, dans les scénarios de discussion, DSpark est même plus rapide que DFlash.

La version mise à jour ensuite, mlx-dspark v0.0.3, a officiellement intégré la version originale DFlash de z-lab dans le package. Elle a également ajouté un paramètre permettant de raccourcir manuellement la longueur effective du bloc pour DFlash, utilisant des blocs courts pour les scénarios de discussion, et conservant les blocs entiers de 16 pour les scénarios de code et de mathématiques.

Après cela, le même Mac, avec le même package, peut accomplir simultanément les tâches de discussion et celles de code/mathématiques, sans avoir à faire des allers-retours entre les projets DSpark et DFlash.

Rahim a déclaré dans son tweet que la même méthode devrait également fonctionner sur des modèles brouillons plus grands comme Qwen3-8B et 14B.

Liens de référence : [1]https://x.com/_ARahim_/status/2072021710602432577[2]https://github.com/ARahim3/mlx-dspark

Cet article provient du compte public WeChat "Quantum Bit", auteur : Suivi des technologies de pointe.

Cryptos en tendance

Questions liées

QQuelle est la technologie récemment adaptée aux puces Apple pour accélérer les grands modèles de langage sur Mac, et quel est le gain de vitesse annoncé ?

ALa technologie adaptée est DeepSeek DSpark, portée sous le nom mlx-dspark. Elle accélère la génération de modèles comme Gemma-4 12B et Qwen3-4B sur Mac, avec des gains allant jusqu'à 60% (1,6x pour Gemma-4 12B et 1,4x pour Qwen3-4B).

QQui a développé la première version native pour puces Apple de DSpark, et quelle est sa particularité par rapport à d'autres portages ?

AAbdur Rahim a développé mlx-dspark, la première version native pour puces Apple de DSpark. Sa particularité est qu'elle produit une sortie identique octet par octet au modèle original, sans perte de qualité, et implémente également l'échantillonnage avec température (pas seulement le décodage glouton).

QComment fonctionne la méthode de décodage spéculatif DSpark pour accélérer la génération de texte ?

ADSpark utilise un petit modèle 'brouillon' pour générer rapidement plusieurs tokens candidats. Le modèle cible vérifie ensuite ces candidats en parallèle, accepte ceux qui sont corrects et rejette les autres. Cela réduit le nombre d'appels coûteux au grand modèle, accélérant ainsi la génération.

QQuelle autre technique de décodage spéculatif a été intégrée à mlx-dspark, et dans quels cas surpasse-t-elle DSpark ?

ALa technique DFlash de z-lab a également été intégrée. Elle surpasse DSpark principalement pour les tâches de code et de mathématiques, avec une longueur d'acceptation plus élevée (environ 6 tokens) et une vitesse d'environ 36 tok/s (soit 2,1x l'accélération) sur ces tâches.

QQuel ajustement a été apporté dans mlx-dspark v0.0.3 pour mieux gérer différents types de tâches (chat vs code/maths) ?

ADans la version v0.0.3, un paramètre a été ajouté pour ajuster manuellement la longueur effective des blocs pour DFlash. Pour le chat, on utilise des blocs plus courts, tandis que pour le code et les maths, on utilise des blocs pleins de 16 tokens. Cela permet au même package de bien performer sur les deux types de tâches.

Lectures associées

Un sentiment baissier s'intensifie à l'expiration d'options Bitcoin et Ethereum d'une valeur de 2,13 milliards de dollars

Le marché des cryptomonnaies a connu une session cruciale le 3 juillet avec l'expiration d'options sur Bitcoin et Ethereum pour une valeur nominale combinée de 2,13 milliards de dollars. Environ 31 000 options Bitcoin (1,9 milliard de dollars) ont expiré avec un ratio put/call de 0,70 et un point de douleur maximal à 61 000$. Parallèlement, 135 000 options Ethereum (230 millions de dollars) ont expiré avec un ratio put/call de 1,29 et un niveau de douleur maximal de 1 650$. Le ratio put/call élevé d'Ethereum, supérieur à 1, indique un nombre plus important d'options de vente (put), reflétant une attitude défensive des traders qui se couvrent contre d'éventuelles baisses ou restent prudents. Les positions d'expiration restent concentrées près des niveaux clés d'exposition Gamma (GEX), autour de 60 000$ pour le Bitcoin et 1 700$ pour l'Ethereum. Si le Bitcoin a réussi à retrouver le seuil psychologique de 60 000$, le sentiment de marché demeure mitigé. Les analystes débattent pour savoir si la récente reprise marque le début d'un rebond durable. Au-delà des options, l'attention se porte également sur les marchés financiers traditionnels et les actifs tokenisés. Les données suggèrent que les traders abordent le troisième trimestre avec prudence. Malgré le regain du Bitcoin, le positionnement défensif sur l'Ethereum et l'activité de couverture montrent que de nombreux participants se préparent à une volatilité accrue plutôt qu'à une franche hausse. Au moment de l'analyse, le Bitcoin se négociait autour de 61 932$ et l'Ethereum vers 1 738$.

TheNewsCryptoIl y a 42 mins

Un sentiment baissier s'intensifie à l'expiration d'options Bitcoin et Ethereum d'une valeur de 2,13 milliards de dollars

TheNewsCryptoIl y a 42 mins

De SpaceX aux factures commerciales : Voici comment la tokenisation transforme la circulation de l'argent dans le monde

Vous détestez recevoir un message WhatsApp avec deux jours de retard ? Nous exigeons une communication en temps réel, alors pourquoi pas pour les marchés financiers ? Aujourd'hui, échanger des actions implique toujours des ventes, des attentes de règlement et de nouveaux achats. Mais la tokenisation est en train de tout changer. Cette tendance a pris de l'ampleur après l'introduction en Bourse record de SpaceX (75 milliards de dollars). Des plateformes basées sur la blockchain proposent désormais des expositions tokenisées à SpaceX, Nvidia ou Google. Le Nasdaq cherche même l'accord de la SEC pour trader des titres tokenisés. Une action tokenisée est une action classique, mais sur une blockchain. Elle peut être tradée 24h/24, réglée en secondes, fractionnée et transférée sans les lourdeurs des systèmes traditionnels. Au-delà des actions, le crédit privé tokenisé dépasse 10 milliards de dollars. L'immobilier, les matières premières et la dette structurée suivent le mouvement, représentant des centaines de milliers de milliards de valeur. Cependant, pour monter en puissance, cette tendance nécessite des infrastructures adaptées aux institutions : frais prévisibles, règlement déterministe et conformité. Le réseau XDC, par exemple, a déjà traité plus de 1,1 milliard de dollars d'avoirs tokenisés. Les prévisions sont ambitieuses : BCG et Ripple anticipent un marché de 18 900 milliards de dollars d'ici 2033. L'écart avec la situation actuelle tient principalement aux infrastructures. Le cadre réglementaire évolue également pour soutenir cette adoption, avec des lois au Brésil, à Singapour, au Royaume-Uni, dans l'UE et aux États-Unis. L'IPO de SpaceX a mis la tokenisation sous les projecteurs, mais les fondations de son adoption à grande échelle se construisent depuis des années, dans les coulisses des marchés. C'est sur cela que reposera la finance de la prochaine décennie.

ambcryptoIl y a 1 h

De SpaceX aux factures commerciales : Voici comment la tokenisation transforme la circulation de l'argent dans le monde

ambcryptoIl y a 1 h

Trading

Spot

Articles tendance

Comment acheter ONE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Harmony (ONE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Harmony (ONE).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Harmony (ONE)Après avoir acheté vos Harmony (ONE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Harmony (ONE)Tradez facilement Harmony (ONE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

452 vues totalesPublié le 2024.12.12Mis à jour le 2026.06.02

Comment acheter ONE

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de ONE (ONE) sont présentées ci-dessous.

活动图片