Il y a quelques instants, DeepSeek V4 a mis à jour DSpark, augmentant la vitesse d'inférence de 80 %

marsbitPublié le 2026-06-27Dernière mise à jour le 2026-06-27

Résumé

DeepSeek a annoncé une mise à jour majeure de son modèle DeepSeek-V4-Pro avec le lancement de DSpark, un nouveau cadre de décodage spéculatif (Speculative Decoding) open source, accompagné de l'infrastructure complète DeepSpec. Cette mise à jour, axée sur l'ingénierie et non sur les capacités fondamentales du modèle, vise à accélérer considérablement l'inférence des LLM en production. Le cœur de DSpark est l'introduction d'une **génération semi-autorégressive**. Cela combine la génération parallèle à haut débit d'un modèle "brouillon" léger avec une modélisation des dépendances entre tokens pour améliorer le taux d'acceptation. De plus, un système de **vérification planifiée par confiance et conscient du matériel** (Confidence-Scheduled Verification) évalue dynamiquement la probabilité que chaque token généré soit accepté par le modèle cible. Il adapte ainsi la longueur de vérification en temps réel pour optimiser l'utilisation des ressources GPU, notamment en charge élevée. Les résultats sont significatifs : face aux méthodes de pointe comme Eagle3 et DFlash, DSpark augmente la longueur moyenne de tokens acceptés de 26.7% à 30.9% et de 16.3% à 18.4% respectivement sur les modèles Qwen3. En déploiement réel, par rapport à la génération token par token précédente (MTP-1), **DSpark améliore la vitesse de génération pour l'utilisateur de 60% à 85% pour le modèle Flash et de 57% à 78% pour le modèle Pro**, à débit total constant. Le projet open source **DeepSpec** fournit une ...

Il y a quelques instants, DeepSeek V4 a effectué une mise à jour.

Il a introduit un nouveau cadre de décodage spéculatif (Speculative Decoding) nommé DSpark, et a rendu open source en parallèle la pile complète du cadre de décodage spéculatif DeepSpec qui le soutient.

DeepSeek-V4-Pro-DSpark n'est pas un modèle architectural entièrement nouveau, mais plutôt DeepSeek-V4-Pro doté d'un module de décodage spéculatif. L'accent de cette mise à jour porte sur la mise en œuvre technique et non sur une évolution des capacités intrinsèques du modèle.

DSpark a déjà été déployé sur les flux de trafic en ligne réels de DeepSeek-V4 (Flash et Pro), accélérant considérablement la vitesse d'inférence des grands modèles de langage (LLM).

Rapport technique : « DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation »

Lien vers le rapport technique : https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

L'objectif central de DSpark est de résoudre les goulets d'étranglement de latence et de débit auxquels est confrontée l'inférence des LLM dans des environnements de production (en particulier dans des scénarios à forte concurrence). En bref, DSpark combine avec succès une « génération parallèle » à haut débit avec une « validation adaptative à la charge ».

Le décodage spéculatif est une technique qui accélère l'inférence des grands modèles de langage sans modifier leur distribution de sortie. L'idée principale est d'introduire un « modèle de brouillon » (draft model) léger, qui prédit plusieurs tokens candidats, puis de faire valider et accepter par lots ces candidats par le modèle cible (target model). Cela transforme la génération token par token séquentielle en une vérification par lots parallèle, réduisant considérablement la latence de bout en bout.

Sur cette base, l'innovation de DSpark réside dans l'introduction d'une architecture de génération semi-autorégressive (Semi-Autoregressive Generation) : elle conserve l'avantage du haut débit du modèle de brouillon parallèle, tout en ajoutant un module séquentiel léger qui modélise les dépendances entre les tokens à l'intérieur d'un bloc, afin d'atténuer le problème de la dégradation du taux d'acceptation que rencontre souvent le modèle de brouillon parallèle pour les positions ultérieures.

En outre, il y a la vérification planifiée par confiance avec conscience matérielle (Confidence-Scheduled Verification) : les approches précédentes de décodage spéculatif envoyaient souvent tous les tokens de brouillon générés pour validation de manière aveugle. En cas de charge système élevée, ces derniers tokens, très susceptibles d'être rejetés, gaspillaient sérieusement la précieuse puissance de calcul du traitement par lots. DSpark introduit une tête de confiance (Confidence Head) pour évaluer la probabilité de survie de chaque token. En combinaison avec un planificateur de préfixe conscient du matériel, le système peut, en fonction des caractéristiques de débit en temps réel du moteur, définir dynamiquement la longueur de validation optimale pour chaque requête, en allouant la puissance de calcul uniquement aux tokens ayant la meilleure récompense attendue.

Pour être déployé dans une infrastructure en ligne réelle, le planificateur de DSpark adopte un mécanisme asynchrone, compatible avec le « zéro-overhead scheduling » (ZOS) et la relecture continue de graphes CUDA. Il utilise les prédictions historiques des deux étapes précédentes pour décider de la longueur de troncature dynamique actuelle, masquant ainsi la latence de planification, évitant les pauses dans le pipeline GPU, tout en garantissant une restitution parfaite et sans perte de la distribution de sortie du modèle cible.

Dans des tests couvrant plusieurs domaines comme le raisonnement mathématique, la génération de code et les dialogues quotidiens, DSpark a largement surpassé les modèles autorégressifs (Eagle3) et les modèles de brouillon parallèles (DFlash) les plus avancés actuels. Par exemple, sur des modèles cibles de la série Qwen3 (4B, 8B, 14B), la longueur moyenne d'acceptation a été améliorée de 26,7 % à 30,9 % par rapport à Eagle3, et de 16,3 % à 18,4 % par rapport à DFlash.

Par rapport à la référence de production single-token précédemment déployée (MTP-1), tout en maintenant le même débit global, DSpark a augmenté la vitesse de génération pour les utilisateurs de 60 % à 85 % (modèle Flash) et de 57 % à 78 % (modèle Pro).

Outre DSpark, DeepSpec a également été rendu open source. Il s'agit d'une base de code complète pour entraîner et évaluer les modèles de brouillon pour le décodage spéculatif. C'est « l'infrastructure open source » qui porte cette solution ainsi que d'autres implémentations d'algorithmes de pointe, comprenant des outils de préparation de données, des implémentations de modèles de brouillon, du code d'entraînement et des scripts d'évaluation.

DeepSpec divise le flux global en trois phases : préparation des données, entraînement et évaluation. Les trois phases doivent être exécutées dans l'ordre, les sorties d'une phase servant d'entrées à la suivante.

Lors de la phase de préparation des données, il faut télécharger les données de prompts, regénérer les réponses en utilisant un moteur d'inférence sur le modèle cible, et construire un cache cible (target cache). Il est à noter qu'avec la configuration par défaut de Qwen/Qwen3-4B, le volume du cache cible peut atteindre environ 38 To ; une évaluation adéquate des ressources de stockage est nécessaire avant utilisation.

La phase d'entraînement peut être lancée via `bash scripts/train/train.sh`. Ce script appellera `train.py` et lancera un worker pour chaque GPU visible. Les utilisateurs peuvent choisir différentes configurations d'algorithmes et de modèles cibles dans le répertoire `config/` en spécifiant `config_path`. Le projet permet également d'ajuster les paramètres d'entraînement en modifiant `config_path`, `target_cache_dir`, ainsi qu'en utilisant `--opts` pour modifier un champ de configuration individuel.

En termes de matériel, la configuration et les scripts par défaut de DeepSpec sont conçus pour un environnement à un seul nœud avec 8 GPU. Si le nombre de GPU est inférieur, l'utilisateur doit réduire en conséquence le nombre de GPU visibles dans `CUDA_VISIBLE_DEVICES`.

La phase d'évaluation est lancée via `bash scripts/eval/eval.sh`. Le script d'évaluation utilisera le checkpoint du modèle de brouillon entraîné pour mesurer les acceptations sur plusieurs tâches de référence de décodage spéculatif. Les ensembles de données d'évaluation actuellement listés dans le projet incluent GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca et Arena-Hard-v2, couvrant différents types de tâches comme le raisonnement mathématique, la génération de code, les capacités de dialogue et les questions-réponses générales.

En termes d'algorithmes, DeepSpec inclut actuellement trois modèles de brouillon : DSpark, DFlash et Eagle3. En ce qui concerne les familles de modèles cibles, le projet prend actuellement en charge Qwen3 et Gemma.

La mise en open source de DeepSpec intègre la pratique technique du décodage spéculatif, auparavant dispersée au sein de différentes équipes de recherche, en un ensemble standardisé d'outils reproductible et extensible. Pour les chercheurs et ingénieurs souhaitant accélérer l'inférence de leurs propres grands modèles, cela signifie qu'ils peuvent directement entraîner des modèles de brouillon personnalisés sur un cadre mature, en sautant une grande partie du travail de construction d'infrastructure de base répétitif.

Liens de référence :

https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

https://github.com/deepseek-ai/DeepSpec

Cet article est issu du compte WeChat public « Machine Heart » (ID:almosthuman2014), auteurs : Zenan, Yang Wen

Questions liées

QQuel est le nom du nouveau cadre de décodage spéculatif introduit par DeepSeek V4 ?

ALe nouveau cadre de décodage spéculatif s'appelle DSpark.

QQuels sont les deux principaux concepts innovants de DSpark pour améliorer la vitesse d'inférence ?

ADSpark introduit deux concepts innovants : la génération semi-autorégressive et la vérification par ordonnancement basée sur la confiance avec conscience matérielle.

QDans quelle mesure DSpark a-t-il amélioré la vitesse de génération pour les modèles Flash et Pro par rapport à la référence MTP-1 ?

APar rapport à la référence MTP-1, DSpark a augmenté la vitesse de génération de 60% à 85% pour le modèle Flash et de 57% à 78% pour le modèle Pro.

QQuel est le nom du projet open-source publié avec DSpark qui fournit une infrastructure complète pour l'entraînement et l'évaluation des modèles de brouillon ?

ALe projet open-source publié avec DSpark s'appelle DeepSpec.

QQuelles sont les trois phases principales du processus de DeepSpec pour travailler avec les modèles de décodage spéculatif ?

ALes trois phases principales de DeepSpec sont : la préparation des données, l'entraînement et l'évaluation.

Lectures associées

Ethereum a perdu 45% depuis le début de l'année – Alors pourquoi SharpLink et les baleines continuent-ils d'acheter ?

Malgré une baisse de 45% depuis le début de l'année, Ethereum (ETH) continue d'attirer l'intérêt institutionnel. Le trésor de SharpLink a repris ses achats après huit mois, ajoutant 5 000 ETH et des tokens stakés, portant ses réserves totales à plus de 876 000 ETH. Cette accumulation, malgré des pertes latentes, témoigne d'une conviction en l'utilité à long terme et aux revenus du staking d'Ethereum. Parallèlement, les portefeuilles de baleines montrent un schéma similaire, avec une nouvelle adresse accumulant plus de 18 000 ETH en neuf jours, indiquant une stratégie d'exposition anticipée plutôt qu'une réaction aux mouvements quotidiens. Cependant, la confiance retrouvée ne se traduit pas encore par une demande institutionnelle plus large. Les ETF spot ont subi d'importantes sorties de fonds, avec un retrait net récent de 12,85 millions de dollars. Cette divergence suggère que les acheteurs directs (trésors, baleines) et les investisseurs ETF réagissent à des conditions de marché différentes. En résumé, l'accumulation persistante par des acteurs clés signale un soutien sous-jacent, mais une reprise durable d'Ethereum nécessitera un renforcement des entrées dans les ETF pour contrebalancer les sorties institutionnelles.

ambcryptoIl y a 1 h

Ethereum a perdu 45% depuis le début de l'année – Alors pourquoi SharpLink et les baleines continuent-ils d'acheter ?

ambcryptoIl y a 1 h

Aavenomics 3.0 peut-il soutenir la reprise de AAVE malgré les rumeurs de rachat par Kraken ?

Le PDG d'Aave Labs, Stani Kulechov, a démenti les récentes rumeurs de rachat par Kraken, affirmant qu'Aave ne vendrait jamais ses tokens avec une décote de 70%. Il a précisé que le protocole génère 134 millions de dollars de revenus annualisés pour sa DAO et vise le marché total de la finance, incluant la tokenisation. Kulechov a également annoncé le plan Aavenomics 3.0, qui inclura un nouveau mécanisme automatique de rachat de tokens. Ces développements ont soutenu la reprise du prix d'AAVE, qui a augmenté de 12% suite aux clarifications et a enregistré une hausse de plus de 50% en juin, atteignant environ 88 dollars. Cette remontée coïncide avec une réduction notable de la pression de vente sur les plateformes d'échange depuis fin mai. Cependant, le token reste en baisse d'environ 77% par rapport à son sommet de 2025. Le marché observe maintenant si le plan Aavenomics 3.0 pourra consolider cette reprise, après une période de tensions liées à la gouvernance et à la macroéconomie.

ambcryptoIl y a 3 h

Aavenomics 3.0 peut-il soutenir la reprise de AAVE malgré les rumeurs de rachat par Kraken ?

ambcryptoIl y a 3 h

La méthode de Karpathy pour utiliser Claude était donc celle-ci ?

Depuis son arrivée chez Anthropic, Andrej Karpathy est moins actif en open source. Une documentation supposément utilisée par lui, nommée CLAUDE.md, circule. Il s'agit d'un guide pour optimiser l'utilisation de Claude en tant qu'assistant de programmation. Le fichier énonce des règles strictes pour éviter les erreurs récurrentes des LLM lors de l'écriture de code. Les principaux conseils sont : lire attentivement le code existant avant d'écrire pour respecter le style du projet, clarifier les hypothèses et les compromis, privilégier la simplicité et éviter le sur-conception, effectuer des modifications chirurgicales sans reformater inutilement, valider systématiquement par des tests, être méthodique pour le débogage, ajouter des dépendances avec parcimonie, et communiquer clairement sur les changements apportés. Le document détaille aussi des échecs courants comme les abstractions prématurées, les décisions invisibles ou les modifications incontrôlées. Bien que son authenticité soit incertaine, le contenu s'inspire directement des réflexions de Karpathy sur le "Vibe Coding". Un projet GitHub reprenant ces principes a montré une réduction significative du taux d'erreur du code généré par Claude.

marsbitIl y a 3 h

La méthode de Karpathy pour utiliser Claude était donc celle-ci ?

marsbitIl y a 3 h

BIT Recherche : La réduction de moitié en 2028 n'est pas une fin en soi, le véritable remodelage de l'industrie minière du Bitcoin ne fait que commencer

L'industrie du minage de Bitcoin traverse actuellement l'ajustement structurel le plus complexe depuis la création du protocole. Malgré un prix du Bitcoin d'environ 61 000 $ et une puissance de calcul (hashrate) proche du record historique à 1 ZH/s, la rentabilité des mineurs se détériore. Plusieurs indicateurs montrent que le secteur fonctionne près du seuil de rentabilité, et le prochain halving de 2028 pourrait accélérer la consolidation. Les problèmes ne viennent pas seulement de la future réduction des récompenses de bloc, mais aussi de la transition incomplète vers un modèle de revenus basé sur les frais de transaction. De plus en plus d'entreprises minières évoluent de simples producteurs de Bitcoin vers des opérateurs d'infrastructures, d'énergie et de calcul pour l'IA/le HPC. La compétition se déplace ainsi de l'expansion de la puissance de calcul vers l'innovation des modèles économiques. Le modèle de coût de production indique un plancher actuel d'environ 46 744 $. Fait notable, les revenus des mineurs divergent historiquement du prix du Bitcoin. Alors que les revenus théoriques journaliers devraient être d'environ 78 millions de $, ils ne sont en réalité que de 33 millions de $. Les revenus provenant des frais sont également bas, à environ 220 000 $ par jour. En 2025, le coût de l'électricité a représenté 71,5% des revenus totaux des mineurs. Le prix d'équilibre pour le secteur est estimé à environ 65 000 $, rendant le minage seul peu rentable au prix actuel. Après le halving de 2028, le coût de production plancher pourrait atteindre ~93 289 $, favorisant les grandes entreprises aux ressources diversifiées. En conclusion, le secteur transforme son modèle fondamental : du "minage" vers les "infrastructures". La rentabilité future dépendra de la diversification des revenus, notamment via la gestion énergétique et l'hébergement de calcul IA/HPC. Pour les investisseurs, l'enjeu clé est d'identifier les entreprises capables de réussir cette transition et de bâtir un avantage compétitif résilient.

marsbitIl y a 4 h

BIT Recherche : La réduction de moitié en 2028 n'est pas une fin en soi, le véritable remodelage de l'industrie minière du Bitcoin ne fait que commencer

marsbitIl y a 4 h

Jito atteint le cap des 1,75 milliard de dollars de revenus, mais qu'est-ce que cela signifie pour son rebond de prix ?

Jito a atteint le seuil de 1,75 milliard de dollars de revenus totaux, principalement tirés (81%) des récompenses MEV, le reste provenant du staking. Cette performance solide au sein de l'écosystème Solana s'accompagne d'une activité réseau croissante : une hausse significative des adresses actives et un volume de trading en hausse de près de 90% à 102 millions de dollars sur 24 heures. Sur le plan technique, le cours du JTO a récemment franchi une configuration graphique haussière (bullish flag) après une phase de consolidation. Ces indicateurs fondamentaux et techniques suggèrent que la récente remontée des prix pourrait refléter la reconnaissance par le marché de la croissance soutenue de l'activité et de l'adoption du protocole Jito.

ambcryptoIl y a 4 h

Jito atteint le cap des 1,75 milliard de dollars de revenus, mais qu'est-ce que cela signifie pour son rebond de prix ?