Il y a quelques instants, DeepSeek V4 a mis à jour DSpark, augmentant la vitesse d'inférence de 80 %
DeepSeek a annoncé une mise à jour majeure de son modèle DeepSeek-V4-Pro avec le lancement de DSpark, un nouveau cadre de décodage spéculatif (Speculative Decoding) open source, accompagné de l'infrastructure complète DeepSpec. Cette mise à jour, axée sur l'ingénierie et non sur les capacités fondamentales du modèle, vise à accélérer considérablement l'inférence des LLM en production.
Le cœur de DSpark est l'introduction d'une **génération semi-autorégressive**. Cela combine la génération parallèle à haut débit d'un modèle "brouillon" léger avec une modélisation des dépendances entre tokens pour améliorer le taux d'acceptation. De plus, un système de **vérification planifiée par confiance et conscient du matériel** (Confidence-Scheduled Verification) évalue dynamiquement la probabilité que chaque token généré soit accepté par le modèle cible. Il adapte ainsi la longueur de vérification en temps réel pour optimiser l'utilisation des ressources GPU, notamment en charge élevée.
Les résultats sont significatifs : face aux méthodes de pointe comme Eagle3 et DFlash, DSpark augmente la longueur moyenne de tokens acceptés de 26.7% à 30.9% et de 16.3% à 18.4% respectivement sur les modèles Qwen3. En déploiement réel, par rapport à la génération token par token précédente (MTP-1), **DSpark améliore la vitesse de génération pour l'utilisateur de 60% à 85% pour le modèle Flash et de 57% à 78% pour le modèle Pro**, à débit total constant.
Le projet open source **DeepSpec** fournit une stack complète pour entraîner et évaluer des modèles brouillons pour le décodage spéculatif, supportant actuellement les algorithmes DSpark, DFlash et Eagle3, ainsi que les familles de modèles cibles Qwen3 et Gemma.
marsbitIl y a 6 h