Il y a quelques instants, DeepSeek V4 a mis à jour DSpark, augmentant la vitesse d'inférence de 80 %

marsbitPublié le 2026-06-27Dernière mise à jour le 2026-06-27

Résumé

DeepSeek a annoncé une mise à jour majeure de son modèle DeepSeek-V4-Pro avec le lancement de DSpark, un nouveau cadre de décodage spéculatif (Speculative Decoding) open source, accompagné de l'infrastructure complète DeepSpec. Cette mise à jour, axée sur l'ingénierie et non sur les capacités fondamentales du modèle, vise à accélérer considérablement l'inférence des LLM en production. Le cœur de DSpark est l'introduction d'une **génération semi-autorégressive**. Cela combine la génération parallèle à haut débit d'un modèle "brouillon" léger avec une modélisation des dépendances entre tokens pour améliorer le taux d'acceptation. De plus, un système de **vérification planifiée par confiance et conscient du matériel** (Confidence-Scheduled Verification) évalue dynamiquement la probabilité que chaque token généré soit accepté par le modèle cible. Il adapte ainsi la longueur de vérification en temps réel pour optimiser l'utilisation des ressources GPU, notamment en charge élevée. Les résultats sont significatifs : face aux méthodes de pointe comme Eagle3 et DFlash, DSpark augmente la longueur moyenne de tokens acceptés de 26.7% à 30.9% et de 16.3% à 18.4% respectivement sur les modèles Qwen3. En déploiement réel, par rapport à la génération token par token précédente (MTP-1), **DSpark améliore la vitesse de génération pour l'utilisateur de 60% à 85% pour le modèle Flash et de 57% à 78% pour le modèle Pro**, à débit total constant. Le projet open source **DeepSpec** fournit une ...

Il y a quelques instants, DeepSeek V4 a effectué une mise à jour.

Il a introduit un nouveau cadre de décodage spéculatif (Speculative Decoding) nommé DSpark, et a rendu open source en parallèle la pile complète du cadre de décodage spéculatif DeepSpec qui le soutient.

DeepSeek-V4-Pro-DSpark n'est pas un modèle architectural entièrement nouveau, mais plutôt DeepSeek-V4-Pro doté d'un module de décodage spéculatif. L'accent de cette mise à jour porte sur la mise en œuvre technique et non sur une évolution des capacités intrinsèques du modèle.

DSpark a déjà été déployé sur les flux de trafic en ligne réels de DeepSeek-V4 (Flash et Pro), accélérant considérablement la vitesse d'inférence des grands modèles de langage (LLM).

Rapport technique : « DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation »

Lien vers le rapport technique : https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

L'objectif central de DSpark est de résoudre les goulets d'étranglement de latence et de débit auxquels est confrontée l'inférence des LLM dans des environnements de production (en particulier dans des scénarios à forte concurrence). En bref, DSpark combine avec succès une « génération parallèle » à haut débit avec une « validation adaptative à la charge ».

Le décodage spéculatif est une technique qui accélère l'inférence des grands modèles de langage sans modifier leur distribution de sortie. L'idée principale est d'introduire un « modèle de brouillon » (draft model) léger, qui prédit plusieurs tokens candidats, puis de faire valider et accepter par lots ces candidats par le modèle cible (target model). Cela transforme la génération token par token séquentielle en une vérification par lots parallèle, réduisant considérablement la latence de bout en bout.

Sur cette base, l'innovation de DSpark réside dans l'introduction d'une architecture de génération semi-autorégressive (Semi-Autoregressive Generation) : elle conserve l'avantage du haut débit du modèle de brouillon parallèle, tout en ajoutant un module séquentiel léger qui modélise les dépendances entre les tokens à l'intérieur d'un bloc, afin d'atténuer le problème de la dégradation du taux d'acceptation que rencontre souvent le modèle de brouillon parallèle pour les positions ultérieures.

En outre, il y a la vérification planifiée par confiance avec conscience matérielle (Confidence-Scheduled Verification) : les approches précédentes de décodage spéculatif envoyaient souvent tous les tokens de brouillon générés pour validation de manière aveugle. En cas de charge système élevée, ces derniers tokens, très susceptibles d'être rejetés, gaspillaient sérieusement la précieuse puissance de calcul du traitement par lots. DSpark introduit une tête de confiance (Confidence Head) pour évaluer la probabilité de survie de chaque token. En combinaison avec un planificateur de préfixe conscient du matériel, le système peut, en fonction des caractéristiques de débit en temps réel du moteur, définir dynamiquement la longueur de validation optimale pour chaque requête, en allouant la puissance de calcul uniquement aux tokens ayant la meilleure récompense attendue.

Pour être déployé dans une infrastructure en ligne réelle, le planificateur de DSpark adopte un mécanisme asynchrone, compatible avec le « zéro-overhead scheduling » (ZOS) et la relecture continue de graphes CUDA. Il utilise les prédictions historiques des deux étapes précédentes pour décider de la longueur de troncature dynamique actuelle, masquant ainsi la latence de planification, évitant les pauses dans le pipeline GPU, tout en garantissant une restitution parfaite et sans perte de la distribution de sortie du modèle cible.

Dans des tests couvrant plusieurs domaines comme le raisonnement mathématique, la génération de code et les dialogues quotidiens, DSpark a largement surpassé les modèles autorégressifs (Eagle3) et les modèles de brouillon parallèles (DFlash) les plus avancés actuels. Par exemple, sur des modèles cibles de la série Qwen3 (4B, 8B, 14B), la longueur moyenne d'acceptation a été améliorée de 26,7 % à 30,9 % par rapport à Eagle3, et de 16,3 % à 18,4 % par rapport à DFlash.

Par rapport à la référence de production single-token précédemment déployée (MTP-1), tout en maintenant le même débit global, DSpark a augmenté la vitesse de génération pour les utilisateurs de 60 % à 85 % (modèle Flash) et de 57 % à 78 % (modèle Pro).

Outre DSpark, DeepSpec a également été rendu open source. Il s'agit d'une base de code complète pour entraîner et évaluer les modèles de brouillon pour le décodage spéculatif. C'est « l'infrastructure open source » qui porte cette solution ainsi que d'autres implémentations d'algorithmes de pointe, comprenant des outils de préparation de données, des implémentations de modèles de brouillon, du code d'entraînement et des scripts d'évaluation.

DeepSpec divise le flux global en trois phases : préparation des données, entraînement et évaluation. Les trois phases doivent être exécutées dans l'ordre, les sorties d'une phase servant d'entrées à la suivante.

Lors de la phase de préparation des données, il faut télécharger les données de prompts, regénérer les réponses en utilisant un moteur d'inférence sur le modèle cible, et construire un cache cible (target cache). Il est à noter qu'avec la configuration par défaut de Qwen/Qwen3-4B, le volume du cache cible peut atteindre environ 38 To ; une évaluation adéquate des ressources de stockage est nécessaire avant utilisation.

La phase d'entraînement peut être lancée via `bash scripts/train/train.sh`. Ce script appellera `train.py` et lancera un worker pour chaque GPU visible. Les utilisateurs peuvent choisir différentes configurations d'algorithmes et de modèles cibles dans le répertoire `config/` en spécifiant `config_path`. Le projet permet également d'ajuster les paramètres d'entraînement en modifiant `config_path`, `target_cache_dir`, ainsi qu'en utilisant `--opts` pour modifier un champ de configuration individuel.

En termes de matériel, la configuration et les scripts par défaut de DeepSpec sont conçus pour un environnement à un seul nœud avec 8 GPU. Si le nombre de GPU est inférieur, l'utilisateur doit réduire en conséquence le nombre de GPU visibles dans `CUDA_VISIBLE_DEVICES`.

La phase d'évaluation est lancée via `bash scripts/eval/eval.sh`. Le script d'évaluation utilisera le checkpoint du modèle de brouillon entraîné pour mesurer les acceptations sur plusieurs tâches de référence de décodage spéculatif. Les ensembles de données d'évaluation actuellement listés dans le projet incluent GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca et Arena-Hard-v2, couvrant différents types de tâches comme le raisonnement mathématique, la génération de code, les capacités de dialogue et les questions-réponses générales.

En termes d'algorithmes, DeepSpec inclut actuellement trois modèles de brouillon : DSpark, DFlash et Eagle3. En ce qui concerne les familles de modèles cibles, le projet prend actuellement en charge Qwen3 et Gemma.

La mise en open source de DeepSpec intègre la pratique technique du décodage spéculatif, auparavant dispersée au sein de différentes équipes de recherche, en un ensemble standardisé d'outils reproductible et extensible. Pour les chercheurs et ingénieurs souhaitant accélérer l'inférence de leurs propres grands modèles, cela signifie qu'ils peuvent directement entraîner des modèles de brouillon personnalisés sur un cadre mature, en sautant une grande partie du travail de construction d'infrastructure de base répétitif.

Liens de référence :

https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

https://github.com/deepseek-ai/DeepSpec

Cet article est issu du compte WeChat public « Machine Heart » (ID:almosthuman2014), auteurs : Zenan, Yang Wen

Questions liées

QQuel est le nom du nouveau cadre de décodage spéculatif introduit par DeepSeek V4 ?

ALe nouveau cadre de décodage spéculatif s'appelle DSpark.

QQuels sont les deux principaux concepts innovants de DSpark pour améliorer la vitesse d'inférence ?

ADSpark introduit deux concepts innovants : la génération semi-autorégressive et la vérification par ordonnancement basée sur la confiance avec conscience matérielle.

QDans quelle mesure DSpark a-t-il amélioré la vitesse de génération pour les modèles Flash et Pro par rapport à la référence MTP-1 ?

APar rapport à la référence MTP-1, DSpark a augmenté la vitesse de génération de 60% à 85% pour le modèle Flash et de 57% à 78% pour le modèle Pro.

QQuel est le nom du projet open-source publié avec DSpark qui fournit une infrastructure complète pour l'entraînement et l'évaluation des modèles de brouillon ?

ALe projet open-source publié avec DSpark s'appelle DeepSpec.

QQuelles sont les trois phases principales du processus de DeepSpec pour travailler avec les modèles de décodage spéculatif ?

ALes trois phases principales de DeepSpec sont : la préparation des données, l'entraînement et l'évaluation.

Lectures associées

BIT Recherche : La réduction de moitié en 2028 n'est pas une fin en soi, le véritable remodelage de l'industrie minière du Bitcoin ne fait que commencer

L'industrie du minage de Bitcoin traverse actuellement l'ajustement structurel le plus complexe depuis la création du protocole. Malgré un prix du Bitcoin d'environ 61 000 $ et une puissance de calcul (hashrate) proche du record historique à 1 ZH/s, la rentabilité des mineurs se détériore. Plusieurs indicateurs montrent que le secteur fonctionne près du seuil de rentabilité, et le prochain halving de 2028 pourrait accélérer la consolidation. Les problèmes ne viennent pas seulement de la future réduction des récompenses de bloc, mais aussi de la transition incomplète vers un modèle de revenus basé sur les frais de transaction. De plus en plus d'entreprises minières évoluent de simples producteurs de Bitcoin vers des opérateurs d'infrastructures, d'énergie et de calcul pour l'IA/le HPC. La compétition se déplace ainsi de l'expansion de la puissance de calcul vers l'innovation des modèles économiques. Le modèle de coût de production indique un plancher actuel d'environ 46 744 $. Fait notable, les revenus des mineurs divergent historiquement du prix du Bitcoin. Alors que les revenus théoriques journaliers devraient être d'environ 78 millions de $, ils ne sont en réalité que de 33 millions de $. Les revenus provenant des frais sont également bas, à environ 220 000 $ par jour. En 2025, le coût de l'électricité a représenté 71,5% des revenus totaux des mineurs. Le prix d'équilibre pour le secteur est estimé à environ 65 000 $, rendant le minage seul peu rentable au prix actuel. Après le halving de 2028, le coût de production plancher pourrait atteindre ~93 289 $, favorisant les grandes entreprises aux ressources diversifiées. En conclusion, le secteur transforme son modèle fondamental : du "minage" vers les "infrastructures". La rentabilité future dépendra de la diversification des revenus, notamment via la gestion énergétique et l'hébergement de calcul IA/HPC. Pour les investisseurs, l'enjeu clé est d'identifier les entreprises capables de réussir cette transition et de bâtir un avantage compétitif résilient.

marsbitIl y a 4 h

BIT Recherche : La réduction de moitié en 2028 n'est pas une fin en soi, le véritable remodelage de l'industrie minière du Bitcoin ne fait que commencer

marsbitIl y a 4 h

Trading

Spot
活动图片