DeepSeek accélère le traitement local des grands modèles sur puces Apple, une amélioration de 60%
La technologie DSpark de DeepSeek, initialement conçue pour les GPU de centres de données, a été adaptée pour les puces Apple par l'ingénieur Abdur Rahim. Cette version native, nommée mlx-dspark, accélère considérablement l'exécution de modèles de langage sur Mac.
En utilisant un petit modèle "ébauche" pour générer des tokens candidats que le modèle principal vérifie ensuite par lot, mlx-dspark augmente la vitesse de génération de Gemma-4 12B et Qwen3-4B d'environ 1,6 et 1,4 fois respectivement sur un M4 Pro. L'innovation de Rahim réside dans la préservation de la sortie exacte du modèle original, même avec un décodage par échantillonnage, et non pas seulement avec un décodage glouton.
Le projet intègre également DFlash, une autre technique de décodage spéculatif qui génère des blocs de tokens en parallèle. DFlash excelle dans les tâches de code et de mathématiques (accélération ~2,1x), tandis que DSpark, avec sa tête Markovienne, reste plus efficace pour le chat général. La version mlx-dspark v0.0.3 permet désormais de choisir entre les deux méthodes au sein d'un même package.
Ce portage démontre l'optimisation efficace des LLMs pour le matériel Apple, en combinant accélération significative, précision des sorties et flexibilité méthodologique.
marsbitIl y a 2 h