En juin 2026, AMD a confirmé le planning d'expédition d'un nouvel appareil lors de l'AI DevDay de San Francisco. Cette machine, de taille comparable à un Mac mini d'Apple, embarque 128 Go de mémoire unifiée et est officiellement positionnée comme une plateforme de développement d'IA en local. Quelques mois plus tôt, le DGX Spark de Nvidia faisait déjà son apparition sur les bureaux des développeurs, lui aussi une boîte métallique pas plus grande qu'une main, avec également 128 Go de mémoire unifiée, et promettant lui aussi d'exécuter en local des modèles de grande taille de 200 milliards de paramètres.
Plateforme développeur AMD Ryzen AI Halo, équipée du processeur Ryzen AI Max+ 395
Des reportages de Tom's Hardware basés sur des tests réels du HP Z2 Mini G1a donnent un prix de référence pour le camp AMD : entre $2,949 et $3,999. Le site officiel de Nvidia indique un prix de départ de $3,999 pour le DGX Spark, et des versions OEM ont fait l'objet de discussions en février 2026 pour une augmentation jusqu'à $4,679. AMD fait baisser la pression sur les prix, mais ce n'est que la surface des chiffres.
Les mêmes 128 Go, deux approches différentes
Le cœur du Ryzen AI Halo d'AMD est un processeur Ryzen AI Max+ 395, 16 cœurs Zen 5, 40 unités de calcul GPU d'architecture RDNA 3.5, accompagné d'un NPU XDNA 2 d'une puissance de 50 TOPS. La documentation matérielle officielle de NVIDIA décrit le DGX Spark selon une autre logique : un Superchip GB10 Grace Blackwell, combinant un CPU ARM à 20 cœurs avec un GPU d'architecture Blackwell, sans NPU, mais intégrant une carte réseau ConnectX-7 200 Gbps. Le périphérique AMD propose un port réseau 2.5GbE et le WiFi 7 ; chez Nvidia, c'est du 10GbE plus WiFi 7, en plus de cette carte réseau haute vitesse coûteuse.
Les spécifications mémoire semblent proches en surface. Les deux ont 128 Go de LPDDR5x. La page produit d'AMD indique une bande passante mémoire de 256 Go/s, tandis que NVIDIA donne officiellement le chiffre de 273 Go/s. Un écart inférieur à 7%, quasiment imperceptible dans la plupart des tâches d'inférence.
Le choix du système d'exploitation révèle une divergence plus fondamentale entre les deux entreprises. Le Ryzen AI Halo d'AMD est préinstallé avec Windows 11 Pro, avec Ubuntu 24.04 en option. Au démarrage, on trouve un bureau PC standard, des ports Thunderbolt, et un support complet des périphériques génériques. Le DGX Spark exécute le DGX OS, basé sur Ubuntu, et la première chose à faire après le démarrage est de configurer l'environnement CUDA et la chaîne d'outils de conteneurs NVIDIA.
The Register a effectué une comparaison détaillée en décembre 2025. La conclusion est que : pour l'inférence de modèles de langage en lot unique, la vitesse de génération de tokens des deux machines est très proche. Mais lors de la phase de traitement du prompt, le DGX Spark est 2 à 3 fois plus rapide. Cet écart provient du support de l'architecture Blackwell pour le calcul en basse précision, et des années d'optimisation du pipeline d'inférence par NVIDIA. L'évaluation de ServeTheHome souligne une autre dimension : la carte réseau ConnectX-7 du DGX Spark, dont le prix de détail seul dépasse $900, offre une valeur potentielle dans les scénarios de clusters multi-machines bien au-delà de la simple inférence sur une seule machine.
Selon des tests réels rapportés par Tom's Hardware et d'autres médias, le Ryzen AI Halo mesure 85 mm de haut, 168 mm de large, 200 mm de profondeur, et pèse 2,3 kg, se rapprochant plus de l'encombrement d'une station de travail mini traditionnelle. La documentation officielle de NVIDIA indique que le DGX Spark fait 150 mm de côté, 50,5 mm d'épaisseur, et pèse 1,2 kg. L'un ressemble à des boîtiers de disque durs empilés, l'autre à un routeur.
La barre de progression de ROCm, plus seulement "ça marche tant bien que mal"
La note de publication officielle d'AMD indique que ROCm 7.2 est arrivé en janvier 2026, et la version 7.2.4 qui a suivi a spécifiquement optimisé la stabilité et les performances pour les charges de travail d'inférence d'IA. Phoronix a publié un article détaillé le jour du lancement.
Pour les développeurs sous environnement Linux, le processus d'installation de ROCm est désormais bien plus simplifié qu'il y a deux ans. En mars 2026, l'auteur de blog technique Kunal Ganglani écrivait dans un guide détaillé sur l'utilisation de ROCm qu'il avait mis environ 30 minutes pour passer de la configuration système à l'exécution d'un modèle PyTorch sur une RX 7900 XTX, "alors qu'en 2024, la même chose nécessitait une demi-journée de bricolage". Son blog confirme que ROCm supporte désormais les quatre principaux frameworks d'apprentissage profond : PyTorch, TensorFlow, JAX, DGL, et que les moteurs d'inférence comme vLLM, Ollama, llama.cpp ont tous un backend ROCm disponible.
Mais ces progrès ne suffisent pas à contrer l'inertie de CUDA. La pile logicielle de Nvidia accumule 17 ans d'avance, et le nombre de questions/réponses liées à CUDA sur Stack Overflow est plusieurs dizaines de fois supérieur à celui de ROCm. Les nouvelles versions de bibliothèques de pointe comme FlashAttention ou xFormers sortent généralement d'abord en version CUDA, et les versions portées pour ROCm mettent des semaines ou des mois à arriver. Tout noyau CUDA personnalisé allant au-delà de l'API standard de PyTorch nécessite une adaptation manuelle sur la plateforme AMD. La matrice de compatibilité officielle d'AMD liste les combinaisons de frameworks et GPU vérifiées, mais "vérifié" et "pouvoir trouver suffisamment de discussions communautaires en cas de problème" sont deux choses différentes.
Sur le subreddit r/LocalLLaMA, les discussions sur le choix de l'appareil n'ont pas cessé depuis fin 2025. Le résumé le plus souvent cité provient de la fin du blog de Ganglani : "Si vous avez besoin que tout fonctionne parfaitement dès le premier jour, achetez NVIDIA. Si vous êtes prêt à passer un après-midi à résoudre des problèmes pour économiser $800, ROCm est prêt."
AMD semble en avoir bien conscience. L'année dernière, les actions de l'entreprise ne visaient pas à copier frontalement le fossé concurrentiel de Nvidia, mais à construire une alternative à côté de ce fossé.
En août 2024, AMD annonçait l'acquisition de ZT Systems pour $49 milliards. Le Wall Street Journal confirmait la finalisation de la transaction en mars 2025. L'activité de ZT Systems est de concevoir et assembler des systèmes de serveurs IA à l'échelle du rack pour des clients de centres de données hyperscale, dont des géants comme Microsoft et Meta qui achètent des dizaines de milliers de GPU chaque année. AMD a acquis la capacité de concevoir des systèmes, du GPU individuel au rack complet.
Mais AMD a rapidement pris une décision en apparence paradoxale. En mai 2025, selon un communiqué officiel de Sanmina, AMD a cédé les activités de fabrication de serveurs de centre de données de ZT Systems à ce fournisseur de services de fabrication électronique, ne conservant pour elle-même que l'équipe de conception. La logique est claire : AMD ne veut pas devenir un concurrent de ses propres clients OEM. Si AMD fabriquait elle-même des serveurs IA, les constructeurs de serveurs vendant des cartes AMD se méfieraient immédiatement. Conserver la capacité de conception et externaliser la fabrication, cette manœuvre équilibre le renforcement des compétences et les relations avec l'écosystème.
Deux événements encore plus cruciaux se sont produits au cours des six mois suivants.
En octobre 2025, un communiqué de presse officiel d'AMD annonçait un partenariat stratégique avec OpenAI pour déployer 6 GW de GPU AMD Instinct. Une première tranche de 1 GW était prévue pour expédition au second semestre 2026. Cet accord cachait une clause : OpenAI avait la possibilité d'acquérir jusqu'à 10% des actions d'AMD. Reuters et CNBC ont tous deux souligné ce détail dans leurs reportages du jour. Les GPU Instinct de nouvelle génération, dont AMD n'a pas divulgué le modèle exact, alimenteraient OpenAI.
En février 2026, AMD publiait à nouveau un communiqué officiel, annonçant une collaboration étendue avec Meta, portant également sur le déploiement de 6 GW de GPU. Les puces cette fois étaient des variantes MI450 personnalisées pour Meta, prévues pour une expédition débutant au second semestre 2026. Le reportage de CNBC ce jour-là soulignait un détail : quelques jours seulement avant la divulgation de cet accord, Meta avait également annoncé un protocole d'accord élargi d'achat de puces IA avec Nvidia.
Le fait que Meta signe des contrats à long terme avec les deux entreprises en même temps est en soi plus parlant que n'importe quelle comparaison technique. Pour une entreprise qui investit des dizaines de milliards de dollars chaque année dans les infrastructures d'IA, mettre tous ses œufs dans le même panier est un risque inacceptable. AMD n'a pas besoin de dépasser Nvidia sur tous les plans, il lui suffit de fournir une option utilisable en dehors de Nvidia pour obtenir des commandes dans la logique d'un "double approvisionnement". L'ampleur des deux contrats de 6 GW suggère qu'au moins OpenAI et Meta ont inclus AMD sur leur liste.
La réponse simultanée de Nvidia est une combinaison de coups
Sur la même période, Nvidia déployait une combinaison de mesures sur le marché professionnel. Le DGX Spark est positionné comme un appareil de bureau pour développeurs, mais sa carte réseau ConnectX-7 détermine qu'il n'est pas une station de travail isolée. L'évaluation de ServeTheHome a analysé en détail la valeur de cette carte dans le prototypage et le débogage d'entraînement distribué, concluant que, bien que bien plus lente que le NVLink de niveau centre de données, elle était suffisante pour les scénarios de clusters à petite échelle. Cette conception ancre le DGX Spark dans la gamme de produits professionnels plus large de Nvidia : les développeurs utilisent le Spark pour le prototypage, puis migrent le code vers une DGX Station ou des instances DGX cloud, avant de le déployer sur des clusters de serveurs équipés de H200 ou B200. Une chaîne d'outils cohérente, du bureau au centre de données, logicielle et matérielle, est soudée à CUDA.
Nvidia a simultanément lancé la suite logicielle en abonnement AI Enterprise, regroupant des outils comme TensorRT, RAPIDS, le serveur d'inférence Triton, facturés par nœud. La page produit officielle de NVIDIA liste l'ensemble complet des outils inclus dans AI Enterprise. Il ne s'agit pas de vendre du matériel, mais de transformer, une fois que les développeurs sont habitués à CUDA, le déploiement et l'exploitation professionnels en une affaire de paiement continu.
En comparant les deux approches, la divergence est suffisamment claire.
Nvidia construit une boucle fermée complète, de la puce au système, au logiciel et aux services cloud. Les développeurs peuvent utiliser des outils optimisés dès leur entrée dans cet écosystème, au prix d'être liés à l'écosystème d'un seul fournisseur. AMD suit une voie d'alternative ouverte : utiliser l'architecture x86 standard, supporter les systèmes Windows et Linux, faire de ROCm une pile open source compatible avec les principaux frameworks, et viser avec des prix plus bas les clients sensibles aux coûts ou ayant déjà décidé de diversifier leur risque fournisseur.
Le produit Ryzen AI Halo lui-même est l'expression matérielle la plus concise de cette voie. Il n'a pas de carte réseau personnalisée, pas d'OS dédié, pas d'unité d'accélération d'entraînement en basse précision. C'est un PC générique, qui se trouve juste à contenir une mémoire unifiée capable d'exécuter des modèles de 200B paramètres et un GPU plutôt correct. Vous pouvez l'utiliser pour l'inférence de grands modèles, ou fermer le terminal pour lancer Photoshop. Le prix de $2,949 du HP Z2 Mini G1a cité par Tom's Hardware dans son reportage est bien inférieur au prix de départ de $3,999 du DGX Spark, et avec d'autres versions OEM, l'écart de prix pourrait dépasser les $1,000.
Mais cette flexibilité a un revers : le compromis. Les données de test de The Register l'ont montré, dès que l'on s'éloigne de l'inférence en lot unique pour entrer dans des scénarios nécessitant beaucoup de calcul parallèle, les avantages de l'architecture Blackwell en basse précision et la pile logicielle optimisée depuis des années creusent rapidement l'écart. Si vous avez besoin d'une boîte de bureau capable de générer des images avec Stable Diffusion, l'écosystème CUDA de Nvidia offre un ensemble complet d'outils prêts à l'emploi. L'architecture RDNA 3.5 d'AMD ne supporte pas les formats de basse précision FP4 et FP8, ce qui la pénalise en performance sur des charges de travail comme la génération d'images, une limitation inhérente à la conception de l'architecture RDNA, qu'une mise à jour de pilote ne peut résoudre.
Le destin de la boîte n'est pas dans la boîte
En revenant sur la ligne temporelle, les actions d'AMD cette dernière année tracent une voie assez claire.
Au niveau matériel, les Instinct MI300 et MI325X sont en production, les MI350 et MI450 progressent selon la feuille de route, le Ryzen AI Max+ 395 est passé d'une puce pour ordinateurs portables à un APU de bureau intégré dans une plateforme de développement. Au niveau système, l'acquisition de ZT Systems a apporté la capacité de conception à l'échelle du rack, puis la fabrication a été externalisée pour conserver la R&D. Au niveau client, deux contrats à long terme de 6 GW chacun lient les deux plus grands consommateurs mondiaux de puissance de calcul IA, en attirant également OpenAI parmi ses actionnaires. Au niveau logiciel, ROCm évolue au rythme d'environ une version par trimestre, rattrapant le support des frameworks principaux, mais la portabilité des bibliothèques de pointe et l'accumulation communautaire nécessiteront encore du temps.
Aucune de ces étapes n'est isolée. L'acquisition de ZT Systems vise à pouvoir concevoir les clusters IA à très grande échelle dont OpenAI et Meta ont besoin, et pas seulement à vendre des GPU aux constructeurs de serveurs. L'évolution rapide de ROCm vise à fournir une pile logicielle utilisable aux clients signataires des contrats de 6 GW au moment du déploiement, et non une livraison sur machine nue. Le lancement du Ryzen AI Halo vise à étendre ce même écosystème ROCm jusqu'au poste de travail, permettant aux développeurs d'utiliser une machine à $3,000 pour le débogage local, avant de déployer les modèles sur des clusters cloud MI450.
Mais cela ne signifie pas qu'AMD a rattrapé Nvidia. Les deux contrats de 6 GW sont des promesses de déploiement futur ; la capacité énergétique exprimée en gigawatts reflète une planification d'infrastructure, pas le nombre de puces déjà expédiées. Les spécifications exactes du MI450 n'ont toujours pas été divulguées, les performances réelles de la puce, son rendement, sa stabilité après déploiement à grande échelle sont inconnus. ROCm a atteint le stade "fonctionnel" sur les frameworks principaux, mais l'état "la communauté peut vous aider en cas de problème" nécessitera un temps d'accumulation plus long. Et les 17 ans d'accumulation de CUDA ne seront pas digérés en quelques trimestres d'évolution rapide.
Le fossé concurrentiel de Nvidia ne réside pas seulement dans le logiciel. La carte réseau ConnectX-7 du DGX Spark suggère une autre dimension de la concurrence : pendant qu'AMD séduit les développeurs avec son rapport qualité-prix et son ouverture, Nvidia verrouille les équipes ayant besoin de faire de l'entraînement distribué et des pipelines d'inférence à grande échelle avec sa capacité d'extension en cluster. Acheter un DGX Spark coûte $3,999, en acheter deux avec un câble réseau permet de faire du prototypage distribué. Dans ce scénario, l'avantage de ROCm à égalité en inférence mono-machine est annulé.
Lorsque la divergence des deux entreprises sur l'IA se concrétise dans cette petite boîte, elle se transforme en un choix bien spécifique. Vous ouvrez la boîte AMD, vous obtenez un environnement PC familier, vous installez PyTorch avec des commandes presque identiques, vous chargez le modèle, vous commencez l'inférence, le processus est fluide, jusqu'à ce que vous ayez besoin d'une bibliothèque qui n'a qu'un backend CUDA. Vous ouvrez la boîte Nvidia, vous obtenez un environnement dédié optimisé du matériel au pilote en passant par la chaîne d'outils de conteneurs, au démarrage tout se passe comme prévu, sauf que la facture est supérieure de plus de mille dollars, et le coût de migration pour changer de fournisseur à l'avenir est déjà verrouillé à l'avance.
AMD ne défie pas frontalement l'empire full-stack de Nvidia. Il a choisi une voie plus pragmatique : être une option de remplacement suffisante lorsque la tarification de Nvidia et sa capacité de livraison en chaîne d'approvisionnement ne parviennent pas à satisfaire toute la demande des clients. Les deux contrats de 6 GW sont à ce jour la preuve la plus tangible de cette stratégie. Le Ryzen AI Halo est l'extension de cette stratégie sur le poste de travail, ce n'est pas suivre la mode des mini-boîtes d'IA, mais avancer d'un pas sur la voie qui consiste à "séduire les développeurs qui ne veulent pas être verrouillés avec un écosystème ouvert et un avantage de coût".






