# Architecture Articles associés

Le Centre d'actualités HTX fournit les derniers articles et analyses approfondies sur "Architecture", couvrant les tendances du marché, les mises à jour des projets, les développements technologiques et les politiques réglementaires dans l'industrie crypto.

Pourquoi la capitalisation boursière de Zhipu a-t-elle bondi de près de 30% en une seule journée ?

Le titre "智谱凭什么一天暴涨近30% ?" (Pourquoi les actions de Zhipu AI ont-elles grimpé de près de 30 % en une journée ?) répond à une annonce technique majeure. Le 22 mai, l'entreprise a lancé son API GLM-5.1-highspeed, dont le paramètre clé est une vitesse de génération atteignant **400 tokens par seconde**, un record mondial pour une API de grand modèle linguistique de taille standard. Cette vitesse, équivalant à environ 200 caractères chinois par seconde, est cruciale pour l'ère des **agents IA**. Contrairement aux simples chatbots, les agents effectuent des tâches complexes nécessitant de nombreux appels successifs au modèle. Chaque réduction de latence est donc amplifiée, améliorant radicalement l'expérience utilisateur pour des applications comme l'assistance à la programmation ou les systèmes de décision. Cette performance, estimée à 3-5 fois plus rapide que les modèles phares d'OpenAI ou d'Anthropic, repose sur une innovation profonde en matière d'infrastructure logicielle et matérielle, et non sur un simple ajout de puissance de calcul brute. L'article détaille trois innovations principales : 1. **TileRT (Moteur d'inférence)** : Un nouvel moteur qui compile le modèle entier en un pipeline d'exécution unique et continu sur le GPU, éliminant les temps d'attente entre les opérations. Il utilise une "spécialisation Warp" pour orchestrer efficacement les différents types de calculs. 2. **Adaptation au mécanisme d'attention MLA** : Pour le mécanisme d'attention MLA (inspiré de DeepSeek), TileRT utilise une exécution hétérogène sur plusieurs GPU. Un GPU sert de "routeur" pour les opérations de recherche clairsemée, tandis que les autres traitent les calculs denses en parallèle, optimisant ainsi l'ensemble du processus. 3. **ZCube (Architecture réseau)** : Une nouvelle topologie réseau qui supprime la couche centrale "Spine" traditionnelle. En interconnectant directement les commutateurs d'accès ("Leaf") et en concevant un chemin réseau unique et optimal entre toutes les paires de GPU, ZCube élimine fondamentalement les risques d'encombrement du réseau. Les résultats sont significatifs : **+15% de débit, -40.6% de latence de queue, et une réduction d'un tiers du coût des équipements réseau** pour un cluster donné. En conclusion, cette avancée démontre que les mêmes ressources matérielles (GPU) peuvent produire **plus de résultats**, repoussant les limites de l'efficacité de l'infrastructure logicielle autour du GPU. Cela pourrait, à terme, remodeler la chaîne de valeur des infrastructures IA (bénéficiant potentiellement aux fabricants de commutateurs haute densité et de modules optiques) et abaisser la barrière d'entrée pour les puces alternatives, comme celles d'Huawei.

marsbitHier 01:28

Pourquoi la capitalisation boursière de Zhipu a-t-elle bondi de près de 30% en une seule journée ?

marsbitHier 01:28

Dix ans de pari sur Cerebras : Comment la « puce IA à l'échelle d'une tranche de silicium » est arrivée sur le Nasdaq

Le 14 mai, Cerebras a fait son entrée au Nasdaq, clôturant sa première journée avec une hausse de 68%. Cet article, écrit par l'investisseur early Steve Vassallo, retrace un partenariat de dix-neuf ans avec le fondateur Andrew Feldman, depuis SeaMicro jusqu'à l'IPO de Cerebras. L'histoire dépasse un simple récit financier. Elle raconte comment Cerebras a parié, contre le consensus de l'époque, sur une refonte fondamentale de l'architecture de calcul pour l'IA. Alors que les GPU s'imposaient, l'équipe a identifié le goulet d'étranglement de la bande passante mémoire et a choisi de concevoir un ordinateur spécifiquement pour l'IA, reposant sur une puce à l'échelle de la tranche de silicium (wafer-scale). Cette puce, 58 fois plus grande que les plus grosses puces traditionnelles, a nécessité de réinventer presque tous les aspects : alimentation, refroidissement, continuité électrique, logiciels. Le chemin a été semé d'échecs, comme le premier prototype qui a pris feu ("événement thermique"). La clé a été la persévérance, la discipline et une relation de confiance à long terme entre l'équipe fondatrice et ses investisseurs. Le moment décisif est survenu en août 2019, lorsque leur ordinateur révolutionnaire a fonctionné pour la première fois. L'article souligne la vision et le caractère d'Andrew Feldman, motivé par des améliorations de 1000x, et son aptitude à s'entourer d'une équipe soudée et talentueuse. Pour Vassallo, soutenir ce type de fondateurs, qui s'attaquent à des problèmes fondamentaux avec une ambition démesurée, justifie tous les efforts, quitte à franchir une clôture un samedi après-midi pour remettre un term sheet. L'IPO de Cerebras rappelle que la révolution de la puissance de calcul peut naître d'une réimagination de l'architecture elle-même, et pas seulement de l'accumulation de GPU.

marsbit05/15 04:01

Dix ans de pari sur Cerebras : Comment la « puce IA à l'échelle d'une tranche de silicium » est arrivée sur le Nasdaq

marsbit05/15 04:01

Ant Digital Sciences présente pour la première fois une nouvelle architecture économique des agents intelligents, couvrant quatre aspects : identité, paiement, gestion des risques et conformité

Lors du Hong Kong Web3 Festival, Ant Digital Technologies a dévoilé pour la première fois son architecture « 4R Full-Stack » pour l'économie des agents intelligents. Cette structure comprend quatre couches : Agentic Runtime (exécution des agents), Payment Rails (canaux de paiement), Agent Registry (enregistrement des agents) et Root Infrastructure (infrastructure de base). Elle vise à fournir une infrastructure technique couvrant l'identité, le paiement, la gestion des risques et la conformité pour les agents IA. Selon Yan Ying, CTO d'Ant Digital, l'économie des agents actuelle présente « quatre fractures » : des vulnérabilités logiques dans les invites, un manque d'identité fiable pour l'IA, des barrières transactionnelles dues à des systèmes de paiement conçus pour les humains, et des risques de collaboration entre agents non familiers. Pour y remédier, une refonte des infrastructures fondamentales est nécessaire. La couche Agentic Runtime intègre DTClaw avec le modèle de sécurité CARLI pour un contrôle renforcé des comportements des agents. Payment Rails construit des canaux de paiement natifs sur chaîne, combinant prise de décision intelligente et technologies vérifiables, tout en garantissant transparence et sécurité. Agent Registry attribue une identité basée sur DID et ERC-8004 pour tracer les collaborations. Enfin, Root Infrastructure utilise Jovay Layer2 et ZKVM pour des micro-paiements rapides et une confiance computationnelle. Yan Ying souligne que l'IA évolue vers une ère économique où les agents possèdent des actifs et des droits transactionnels. L'architecture 4R s'appuie sur une décennie d'expertise d'Ant en sécurité financière, calcul confidentiel et blockchain.

marsbit04/20 09:27

Ant Digital Sciences présente pour la première fois une nouvelle architecture économique des agents intelligents, couvrant quatre aspects : identité, paiement, gestion des risques et conformité

marsbit04/20 09:27

Harness Mince, Compétences Épaisses : La véritable source d'une productivité IA multipliée par 100

Basé sur l'article, l'auteur Garry Tan (PDG de Y Combinator) affirme que la véritable productivité de l'IA ne provient pas des modèles eux-mêmes, mais de la conception systémique qui les entoure. Il introduit le cadre « Thin Harness, Fat Skills » (Harnais mince, Compétences épaisses), qui décompose les applications d'IA en cinq composants clés : 1. **Skill File** : Un document markdown réutilisable qui enseigne à un modèle « comment » accomplir une tâche, comme une méthode invocable avec des paramètres. 2. **Harness** : Une couche logicielle mince qui exécute le modèle, gère les entrées/sorties et applique des contraintes, sans logique métier lourde. 3. **Resolver** : Un système de routage contextuel qui charge la documentation ou les instructions pertinentes au bon moment. 4. **Latent vs. Deterministic** : Une séparation stricte entre le traitement intelligent (jugement, synthèse) et les opérations déterministes fiables (requêtes, calculs). 5. **Diarization** : La capacité du modèle à lire de nombreux documents sur un sujet et à en synthétiser une analyse structurée. L'article illustre ceci avec un exemple concret de matching pour un événement Y Combinator, où le système apprend et s'améliore automatiquement en réécrivant ses propres fichiers de compétences basé sur les retours, sans réécriture de code. La conclusion est que l'avantage décisif (10x à 100x) vient de cette capacité à construire des systèmes qui capitalisent et améliorent continuellement leurs compétences, et non simplement d'utiliser le modèle le plus récent.

marsbit04/13 04:27

Harness Mince, Compétences Épaisses : La véritable source d'une productivité IA multipliée par 100

marsbit04/13 04:27

活动图片