Pourquoi la capitalisation boursière de Zhipu a-t-elle bondi de près de 30% en une seule journée ?
Le titre "智谱凭什么一天暴涨近30% ?" (Pourquoi les actions de Zhipu AI ont-elles grimpé de près de 30 % en une journée ?) répond à une annonce technique majeure. Le 22 mai, l'entreprise a lancé son API GLM-5.1-highspeed, dont le paramètre clé est une vitesse de génération atteignant **400 tokens par seconde**, un record mondial pour une API de grand modèle linguistique de taille standard.
Cette vitesse, équivalant à environ 200 caractères chinois par seconde, est cruciale pour l'ère des **agents IA**. Contrairement aux simples chatbots, les agents effectuent des tâches complexes nécessitant de nombreux appels successifs au modèle. Chaque réduction de latence est donc amplifiée, améliorant radicalement l'expérience utilisateur pour des applications comme l'assistance à la programmation ou les systèmes de décision.
Cette performance, estimée à 3-5 fois plus rapide que les modèles phares d'OpenAI ou d'Anthropic, repose sur une innovation profonde en matière d'infrastructure logicielle et matérielle, et non sur un simple ajout de puissance de calcul brute.
L'article détaille trois innovations principales :
1. **TileRT (Moteur d'inférence)** : Un nouvel moteur qui compile le modèle entier en un pipeline d'exécution unique et continu sur le GPU, éliminant les temps d'attente entre les opérations. Il utilise une "spécialisation Warp" pour orchestrer efficacement les différents types de calculs.
2. **Adaptation au mécanisme d'attention MLA** : Pour le mécanisme d'attention MLA (inspiré de DeepSeek), TileRT utilise une exécution hétérogène sur plusieurs GPU. Un GPU sert de "routeur" pour les opérations de recherche clairsemée, tandis que les autres traitent les calculs denses en parallèle, optimisant ainsi l'ensemble du processus.
3. **ZCube (Architecture réseau)** : Une nouvelle topologie réseau qui supprime la couche centrale "Spine" traditionnelle. En interconnectant directement les commutateurs d'accès ("Leaf") et en concevant un chemin réseau unique et optimal entre toutes les paires de GPU, ZCube élimine fondamentalement les risques d'encombrement du réseau. Les résultats sont significatifs : **+15% de débit, -40.6% de latence de queue, et une réduction d'un tiers du coût des équipements réseau** pour un cluster donné.
En conclusion, cette avancée démontre que les mêmes ressources matérielles (GPU) peuvent produire **plus de résultats**, repoussant les limites de l'efficacité de l'infrastructure logicielle autour du GPU. Cela pourrait, à terme, remodeler la chaîne de valeur des infrastructures IA (bénéficiant potentiellement aux fabricants de commutateurs haute densité et de modules optiques) et abaisser la barrière d'entrée pour les puces alternatives, comme celles d'Huawei.
marsbitIl y a 2 h