Pourquoi la capitalisation boursière de Zhipu a-t-elle bondi de près de 30% en une seule journée ?

marsbitPublié le 2026-05-23Dernière mise à jour le 2026-05-23

Résumé

Le titre "智谱凭什么一天暴涨近30% ?" (Pourquoi les actions de Zhipu AI ont-elles grimpé de près de 30 % en une journée ?) répond à une annonce technique majeure. Le 22 mai, l'entreprise a lancé son API GLM-5.1-highspeed, dont le paramètre clé est une vitesse de génération atteignant **400 tokens par seconde**, un record mondial pour une API de grand modèle linguistique de taille standard. Cette vitesse, équivalant à environ 200 caractères chinois par seconde, est cruciale pour l'ère des **agents IA**. Contrairement aux simples chatbots, les agents effectuent des tâches complexes nécessitant de nombreux appels successifs au modèle. Chaque réduction de latence est donc amplifiée, améliorant radicalement l'expérience utilisateur pour des applications comme l'assistance à la programmation ou les systèmes de décision. Cette performance, estimée à 3-5 fois plus rapide que les modèles phares d'OpenAI ou d'Anthropic, repose sur une innovation profonde en matière d'infrastructure logicielle et matérielle, et non sur un simple ajout de puissance de calcul brute. L'article détaille trois innovations principales : 1. **TileRT (Moteur d'inférence)** : Un nouvel moteur qui compile le modèle entier en un pipeline d'exécution unique et continu sur le GPU, éliminant les temps d'attente entre les opérations. Il utilise une "spécialisation Warp" pour orchestrer efficacement les différents types de calculs. 2. **Adaptation au mécanisme d'attention MLA** : Pour le mécanisme d'attention MLA (inspiré de...

Article  | AIDeepDive

Aujourd'hui, le titre de "première action mondiale de grand modèle linguistique", Zhipu (02513.HK), a de nouveau connu une envolée.

Les gains en séance ont brièvement dépassé les 30%. Il a clôturé à 1 282 dollars de Hong Kong, affichant une hausse de plus de 26% sur la journée, pour une capitalisation boursière atteignant 571,57 milliards de dollars de Hong Kong, établissant un nouveau record historique.

Ce qui a déclenché cette flambée, c'est un indicateur technique précis : 400 tokens/s.

Le 22 mai, Zhipu a officiellement ouvert aux clients entreprises l'API version haute vitesse de GLM-5.1 (GLM-5.1-highspeed). Le paramètre clé le plus crucial est unique : la vitesse de génération du modèle atteint 400 tokens par seconde, repoussant la limite supérieure de vitesse des API des principaux fournisseurs de grands modèles linguistiques dans le monde.

Je pensais initialement qu'il s'agissait encore d'une opération de relations publiques pour les grands modèles linguistiques chinois, mais après avoir examiné les détails techniques, j'ai fini par comprendre la logique sous-jacente des marchés financiers.

Que représente 400 tokens/s ?

Cela signifie que le modèle peut générer environ 200 caractères chinois par seconde, ce qui équivaut à la production intensive d'une minute d'un écrivain professionnel, compressée en une seule seconde.

La quantité de texte qu'un créateur peut produire après plusieurs jours de travail acharné, GLM-5.1 haute vitesse peut la livrer en 1 minute ; une tâche de refonte système qu'un ingénieur peut accomplir en 3 jours de travail concentré, elle peut l'exécuter pendant le temps de boire un café.

01 La vitesse, plus importante qu'on ne le pense

La vitesse a toujours été la dimension la plus négligée dans la compétition des modèles d'IA.

Au cours des trois dernières années, la course aux armements des grands modèles s'est concentrée sur deux axes : l'échelle des paramètres (des modèles plus grands et plus intelligents) et la guerre des prix (des Tokens moins chers et plus accessibles). La "rapidité" n'a jamais été le protagoniste.

Parce qu'auparavant, la "rapidité" était généralement obtenue en réduisant la taille des paramètres du modèle. Pour accélérer, il fallait utiliser un modèle plus petit et plus léger, au prix d'une perte de capacités.

La signification de cette version haute vitesse de GLM-5.1 réside dans le fait qu'elle préserve les capacités complètes de la base de taille normale phare, tout en poussant la vitesse à 400 tokens/s.

Que ce soit pour les modèles chinois ou à l'échelle internationale, c'est la première fois que "capacités phares" et "latence extrêmement basse" sont atteintes sans compromis.

Pourquoi la vitesse est-elle si cruciale ? Parce que le champ de bataille principal de l'IA est en train de migrer fondamentalement.

Lorsque l'IA passe de l'ère du ChatBot à celle des Agents, les questions-réponses ne sont plus le scénario principal de l'IA. Pour accomplir une tâche, un Agent a souvent besoin que le modèle s'appelle lui-même des dizaines, voire des centaines de fois : écrire du code, appeler des interfaces, rechercher des informations, utiliser des outils...

Dans ce mode de travail, les délais entre chaque appel s'accumulent et s'amplifient impitoyablement. Pour une tâche nécessitant 50 appels, si on économise 1 seconde à chaque fois, la tâche entière est terminée près d'une minute plus tôt. Pour les assistants de programmation IA, les interactions vocales, les systèmes d'aide à la décision commerciale, cet écart peut être une question de vie ou de mort.

À un niveau plus profond, dans un budget temps fixe, une inférence plus rapide signifie que le modèle peut accomplir des chemins de raisonnement plus profonds, et plus de cycles d'auto-vérification. La vitesse est en train de passer d'un indicateur système à une limite intrinsèque de l'intelligence.

02 À quel point est-ce difficile d'atteindre une telle vitesse ?

Alors, quel est approximativement le niveau actuel de l'industrie en matière de vitesse ?

Parmi les principaux acteurs, GPT-4o d'OpenAI se situe autour de 100–150 tokens/s, la série Claude Sonnet d'Anthropic autour de 80–120 tokens/s, et les API des principaux modèles phares chinois se situent majoritairement dans la fourchette de 50–100 tokens/s. 400 tokens/s représente environ 3 à 5 fois la moyenne du secteur.

Plus crucial encore, cet écart ne peut pas être comblé simplement en injectant plus de puissance de calcul.

Un serveur équipé de 8 cartes graphiques H200 peut théoriquement transférer jusqu'à 38 To de données par seconde. Pour GLM-5.1, la génération d'un seul token ne nécessite de lire qu'environ 42 Go de paramètres d'activation. En théorie pure, on devrait pouvoir approcher les 1000 tokens/s.

Mais dans la réalité, les systèmes existants atteignent souvent seulement quelques dizaines de tokens/s.

C'est un gouffre d'un ordre de grandeur. Les GPU ne sont pas trop lents, mais une grande partie du temps est gaspillée dans l'attente, l'inactivité et la planification inefficace.

Cette fois-ci, Zhipu a justement innové simultanément sur trois niveaux : le moteur d'inférence, les stratégies de parallélisation et l'architecture réseau, pour réaliser une percée sur la vitesse finale.

03 Superposition de trois couches technologiques, approchant les limites physiques du matériel

Auparavant, les grands modèles fonctionnaient ainsi : le grand modèle était décomposé en opérateurs indépendants, chaque opérateur lançait un noyau de calcul (kernel) séparément, s'arrêtait après calcul, attendait la synchronisation, puis lançait le suivant.

Pendant la phase d'entraînement, chaque calcul prenait plusieurs secondes, voire plusieurs minutes, ces coûts de lancement et d'attente étaient parfaitement négligeables. Mais lors de l'inférence, la génération d'un seul token, une étape clé peut ne nécessiter que quelques dizaines de microsecondes, les coûts de lancement et d'attente deviennent alors relativement non négligeables.

L'idée centrale de TileRT : compiler l'ensemble du modèle en un moteur fonctionnant en continu, lancé une fois, sans jamais s'arrêter.

TileRT déploie statiquement à l'avance, lors de la phase de compilation du code, toute la logique de calcul du modèle en un pipeline continu. Pendant l'exécution, le GPU maintient constamment un fonctionnement à grande vitesse, les calculs, le transfert de données et la communication avancent en parallèle, les résultats intermédiaires restent autant que possible dans le cache haute vitesse interne du GPU, sans être réécrits de manière répétée dans la mémoire vidéo lente puis relus.

Il y a un détail de conception clé ici : la spécialisation des Warps.

Pour comprendre les Warps, il faut d'abord comprendre le mode de fonctionnement des GPU. La plus grande différence entre un GPU et un CPU est que le GPU dispose de milliers d'unités de calcul relativement simples en son sein. Ces unités sont regroupées par lots de 32, ce groupe s'appelle un Warp.

Les 32 unités d'un même Warp doivent toujours agir de manière synchronisée, exécuter la même instruction, comme une escouade dans l'armée, où le chef donne l'ordre à tout le monde de faire le même mouvement en même temps.

Dans les frameworks traditionnels, tous les Warps exécutent la même séquence d'instructions ; TileRT fait assumer des responsabilités différentes à différents groupes de Warps : une partie est spécialement chargée de transférer à l'avance le prochain lot de données, une autre partie est spécialement chargée des calculs mathématiques, une autre partie est spécialement chargée de la communication avec d'autres GPU. Les trois groupes travaillent simultanément, en coordination fluide, sans s'attendre mutuellement.

C'est comme passer d'"un ouvrier transportant les briques, les posant, vérifiant en série" à "un groupe transportant les briques, un groupe les posant, un groupe vérifiant, tous tournant en même temps".

Une fois l'efficacité interne d'une seule carte résolue, le parallélisme multi-cartes présente de nouveaux défis.

La pratique courante dans l'industrie est le parallélisme tensoriel (Tensor Parallel) : Diviser la matrice des poids du modèle en plusieurs parts, chaque GPU étant responsable d'une part, calculant séparément, puis rassemblant les résultats via une interconnexion haute vitesse (NVLink).

Cette solution fonctionne très bien pour des calculs denses et réguliers comme la multiplication matricielle, c'est actuellement la solution multi-cartes standard pour presque tous les frameworks d'inférence de grands modèles.

GLM-5.1 utilise **MLA (Multi-head Latent Attention, attention potentielle à plusieurs têtes), un mécanisme d'attention proposé par DeepSeek.

Les mécanismes d'attention traditionnels nécessitent de sauvegarder intégralement de grandes quantités de données intermédiaires (KV Cache) générées à chaque étape pour une utilisation ultérieure, ce qui est très gourmand en mémoire vidéo. L'approche de MLA consiste d'abord à compresser ces données intermédiaires en un "vecteur latent" compact à stocker, puis à les décompresser et les restaurer lors de l'utilisation, réduisant considérablement les besoins en mémoire vidéo et améliorant l'efficacité de l'inférence.

Mais le flux de calcul de MLA comporte une étape particulière : il nécessite un indexation parcimonieuse parmi une grande quantité d'informations historiques : c'est un peu comme trouver rapidement les livres les plus pertinents dans une immense bibliothèque, puis les lire attentivement.

L'étape de "recherche des livres" dépend d'informations globales et ne se prête pas bien à une répartition multi-cartes ; la "lecture attentive" est le calcul dense adapté au parallélisme multi-cartes. Si on force les 8 GPU à participer tous à la "recherche des livres", beaucoup de temps sera gaspillé dans la communication de synchronisation entre les GPU.

La solution de TileRT est de faire fonctionner les GPU de manière hétérogène : le GPU 0 est spécialement désigné comme "bibliothécaire de recherche", responsable de l'indexation parcimonieuse et des décisions de routage ; les GPU 1–7 sont désignés comme "analystes lecteurs", responsables des calculs d'attention denses et des opérations matricielles. Les deux types de travailleurs collaborent en utilisant chacun la stratégie de parallélisation qui leur convient le mieux pour accomplir l'ensemble de la couche de calcul.

Ensuite, TileRT intègre également directement les opérations de communication entre GPU dans le pipeline d'exécution, ne les traitant plus comme des étapes indépendantes. Vu de l'extérieur, l'ensemble du système à 8 cartes n'a besoin de lancer qu'une seule fois un noyau pour accomplir une couche de calcul d'attention, toute la communication et les calculs internes étant achevés de manière transparente à l'intérieur du pipeline continu.

Les deux couches ci-dessus résolvent les problèmes au sein d'une seule machine. Lorsque le cluster s'étend à des centaines, voire des milliers de GPU, la transmission des données entre GPU devient elle-même le nouveau plafond.

La pratique courante dans l'industrie est ROFT (Rail-Optimized Fat-Tree), la solution recommandée officiellement par NVIDIA, le standard absolu du secteur.

Sa structure est arborescente : les serveurs se connectent d'abord aux commutateurs de couche feuille (Leaf) (couche d'accès, directement face aux serveurs), les Leaf se connectent ensuite vers le haut aux commutateurs de couche épine (Spine) (couche dorsale, responsable de l'interconnexion entre différents Leaf, comme un carrefour d'autoroutes). Les données transmises entre deux GPU doivent "monter d'abord vers le Spine, puis redescendre vers le Leaf cible", passant par au moins 3 sauts.

Pour éviter que le trafic ne se concentre sur quelques liaisons, cette architecture s'appuie sur l'algorithme ECMP pour répartir les données entre plusieurs chemins, fonctionnant bien sous la prémisse d'un trafic Internet "statistiquement uniforme".

Mais le trafic des scénarios d'inférence est complètement inégal. Les longueurs de contexte des différentes requêtes peuvent varier de plusieurs dizaines de fois, la direction de transmission du KV Cache entre GPU est presque aléatoire, quelques commutateurs Leaf deviennent périodiquement des points chauds, déclenchant des mécanismes de backpressure, qui propagent la congestion d'une zone locale à l'ensemble des liaisons. Cette congestion ne peut pas être résolue en ajustant les paramètres de protocole, c'est un produit de la structure topologique elle-même.

La percée fondamentale de ZCube : rendre ce type de congestion physiquement impossible au niveau de l'architecture.

La conception centrale se fait en deux étapes :

Première étape, supprimer la couche dorsale Spine, aplatir l'ensemble du réseau. Diviser tous les commutateurs Leaf en deux groupes selon leur numéro pair ou impair, les deux groupes étant entièrement interconnectés, tout commutateur impair se connectant à tous les commutateurs pairs, et vice versa. Entre deux GPU quelconques, il faut traverser au maximum deux commutateurs pour s'atteindre, réduisant les sauts de 3 à 2.

La deuxième étape, et la plus ingénieuse : chaque carte réseau GPU se connecte aux deux groupes de commutateurs de deux manières radicalement différentes. Cette topologie spéciale apporte une propriété mathématique clé : entre deux GPU quelconques dans l'ensemble du réseau, il existe une et une seule trajectoire optimale.

La "trajectoire unique" élimine directement la racine de la congestion. L'architecture traditionnelle génère facilement des points chauds précisément parce qu'il y a plusieurs chemins possibles, si l'algorithme d'équilibrage de charge choisit mal, cela entraîne une concentration du trafic. ZCube élimine au niveau de la conception le "choix" lui-même : pas besoin d'équilibrage, car il n'y a tout simplement pas d'embranchement.

04 Dans les mêmes conditions matérielles, comment se font les calculs ?

Après avoir mis à niveau le cluster de production de GLM-5.1 de Zhipu du ROFT traditionnel à ZCube, trois chiffres ont été obtenus :

Pour résumer, avec le même investissement en GPU, le cluster peut servir plus d'utilisateurs ; avec les mêmes exigences d'expérience utilisateur, le cluster peut acheter un tiers d'équipements réseau en moins. L'efficacité et les coûts s'améliorent dans les deux sens.

Concrètement, le débit augmente de 15%, équivalant à une puissance de calcul gratuite supplémentaire de 15%. À nombre de GPU constant, un débit supérieur de 15% équivaut à une baisse du coût matériel moyen par token d'environ 13%, ou à la possibilité de servir 15% d'utilisateurs en plus à coût égal.

Si un cluster dispose de 1000 GPU, cette mise à niveau équivaut à obtenir gratuitement la capacité de 150 cartes supplémentaires. Au prix actuel du marché des cartes d'inférence haut de gamme, cela représente une valeur de puissance de calcul de plusieurs centaines de millions de yuans.

La réduction de 40,6% de la latence de queue (tail latency) résout un problème de stabilité plutôt que de vitesse moyenne. Une tâche d'Agent nécessitant 50 appels, si la latence de queue est réduite de 1 seconde à chaque fois, le pire temps d'achèvement de la tâche entière est compressé de près d'une minute.

La réduction d'un tiers des coûts est une économie directe au niveau de la construction. ZCube supprime la couche Spine, pour une échelle de cluster identique, le nombre requis de commutateurs et de modules optiques diminue directement d'un tiers. Selon les estimations de Zhipu, dans un cluster à l'échelle de dix mille cartes, cet aspect seul pourrait permettre d'économiser entre 210 et 640 millions de yuans.

À long terme, avec l'expansion exponentielle des clusters, la complexité de la communication entre GPU augmente de plusieurs fois, la probabilité et l'impact des congestions s'amplifient également. Cela signifie que la valeur des innovations architecturales comme ZCube se manifestera de manière accélérée avec l'expansion continue des clusters d'inférence. Les gains pour un cluster de dix mille cartes demain pourraient dépasser les 15% d'aujourd'hui.

05 Pour conclure

Après avoir lu le rapport technique de Zhipu, je me demande si cela va, comme l'émergence soudaine de DeepSeek, apporter une tempête à l'industrie ?

En y réfléchissant bien, leurs impacts semblent être sur des aspects différents. Lorsque DeepSeek est apparu, il a prouvé que la même intelligence pouvait être réalisée avec beaucoup moins de puissance de calcul. Le marché s'inquiétait que "le nombre de GPU nécessaires diminue", ce qui a fait perdre près de 600 milliards de dollars de capitalisation boursière à NVIDIA ce jour-là.

Mais la technologie de Zhipu prouve aujourd'hui : avec la même puissance de calcul, on peut produire plus. Elle restructure "ce à quoi devraient ressembler les autres infrastructures en dehors des GPU".

À court terme, NVIDIA ne sera pas affecté, mais à long terme, les remparts de l'écosystème GPU + interconnexion NVLink + réseau InfiniBand + logiciel CUDA sont en train d'être "détrempés", en particulier l'InfiniBand que NVIDIA a acquis en 2019 pour 6,9 milliards de dollars avec le rachat de Mellanox, la prime de NVIDIA sur le côté réseau sera fortement érodée.

De plus, ZCube supprime la couche Spine, mais il impose en contrepartie des exigences de densité de ports plus élevées sur les commutateurs Leaf. Les bénéficiaires sont les fabricants capables de produire des commutateurs Leaf à haute densité et à grand nombre de ports (Ruijie, Arista, puces de commutation Broadcom), les perdants sont les fabricants qui dépendent principalement de la prime sur les commutateurs Spine haut de gamme.

En 2025, Celestica et NVIDIA détenaient ensemble environ 50% des parts de marché des commutateurs réseau backend pour l'IA, cette configuration risque d'être remaniée avec la diffusion du paradigme ZCube.

Les modules optiques sont la direction de la chaîne d'approvisionnement la plus directement bénéficiaire de ce changement, la logique est très claire. Pour les fabricants chinois de modules optiques (Zhongji Innolight, TFC Optical Comm, etc.), c'est une opportunité structurelle favorable : non seulement le volume total augmente, mais la demande en modules optiques à haute vitesse (800G, 1.6T) sous le paradigme ZCube est plus concentrée et plus pressante que dans l'architecture traditionnelle.

Que ce soit l'architecture TileRT ou ZCube, il s'agit d'un moteur d'inférence logiciel pur fonctionnant sur des GPU standard, ne dépendant pas de caractéristiques matérielles privées de NVIDIA, et pouvant théoriquement être porté sur des puces chinoises comme les Ascend de Huawei. Si cette direction est empruntée avec succès, cela réduira considérablement le seuil de la pile logicielle pour les puces IA chinoises dans les scénarios d'inférence.

C'est peut-être là la plus grande signification derrière cette innovation technologique.

Questions liées

QPourquoi l'action de Zhipu AI a-t-elle augmenté de près de 30 % en une journée ?

AL'action de Zhipu AI a fortement augmenté en raison du lancement de son API GLM-5.1 "highspeed", qui a atteint une vitesse de sortie de 400 tokens par seconde. Cette performance, supérieure à la plupart des modèles concurrents, a été perçue comme une avancée technique significative, capable d'améliorer l'efficacité des tâches complexes comme le développement de logiciels et la création de contenu, ce qui a suscité l'enthousiasme des investisseurs.

QQu'est-ce que la vitesse de 400 tokens par seconde représente dans le contexte des modèles d'IA ?

AUne vitesse de 400 tokens par seconde signifie que le modèle peut générer environ 200 caractères chinois par seconde. Cela équivaut à la production d'un écrivain professionnel en une minute, condensée en une seule seconde. Cela permet d'effectuer en une minute des tâches qui prendraient normalement plusieurs jours, comme écrire un long texte ou restructurer un système informatique.

QQuelles sont les innovations techniques clés derrière la vitesse de GLM-5.1-highspeed ?

ALes innovations techniques clés sont : 1) TileRT, un moteur d'inférence qui compile le modèle en un pipeline continu pour éviter les temps d'attente ; 2) Une parallélisation hétérogène des GPU pour optimiser le traitement de mécanismes d'attention spécifiques comme le MLA ; 3) ZCube, une nouvelle architecture réseau qui élimine les goulots d'étranglement en supprimant la couche "Spine" et en créant des chemins de données uniques entre les GPU, réduisant ainsi la latence et les coûts.

QQuels sont les avantages concrets de l'architecture ZCube pour un cluster d'IA ?

AL'architecture ZCube offre trois avantages principaux : 1) Une augmentation du débit de 15 %, ce qui équivaut à une puissance de calcul supplémentaire sans coût supplémentaire en GPU. 2) Une réduction de 40,6 % de la latence de queue, améliorant la stabilité et la prédictibilité des performances. 3) Une réduction d'environ un tiers des coûts d'infrastructure réseau, en éliminant le besoin de commutateurs "Spine" coûteux et en nécessitant moins de modules optiques, ce qui représente des économies de plusieurs milliards à grande échelle.

QQuelles pourraient être les implications à long terme de ces innovations sur l'industrie des puces et du matériel IA ?

AÀ long terme, ces innovations pourraient : 1) Éroder l'avantage concurrentiel de solutions propriétaires comme InfiniBand de NVIDIA, en démontrant qu'une architecture réseau logicielle efficace peut être construite sur du matériel standard. 2) Réduire la dépendance à l'écosystème CUDA de NVIDIA, ouvrant la voie à une adoption plus facile de puces alternatives (comme Huawei Ascend) pour l'inférence. 3) Redessiner le paysage des fournisseurs de matériel réseau, favorisant les fabricants de commutateurs "Leaf" à haute densité et de modules optiques haut débit, au détriment des spécialistes des commutateurs "Spine" haut de gamme.

Lectures associées

Trois ans plus tard : Retour sur mon jugement de 2023 concernant ChatGPT

Trois ans après ses prédictions sur ChatGPT en mars 2023, Wang Jianshuo revient sur ses vingt affirmations initiales, évaluées en mai 2026 par des agents IA. Sur les vingt points, la majorité des tendances de fond étaient correctes : l'essor du RAG comme architecture dominante pour l'injection de connaissances, le rôle central de l'interface utilisateur en langage naturel (LUI), l'émergence de protocoles pour un "réseau d'agents", et le rattrapage technologique rapide des modèles chinois. Des erreurs notables portent sur des chiffres précis, comme les 100 billions de paramètres supposés de GPT-4 (en réalité environ 1,8 billion) ou une estimation trop basse des coûts de formation des grands modèles. Certaines prévisions se sont révélées trop absolues ("l'IA ne fera jamais de mathématiques pures") ou ont négligé les disparités (aucune vague de chômage massif, mais un impact sévère sur les jeunes diplômés). L'analyse révèle que les intuitions sur les mécanismes et les directions se sont avérées bien plus fiables que les prédictions numériques ou temporelles, souvent trop optimistes à court terme. La prudence dans les formulations et la reconnaissance des incertitudes se sont montrées précieuses avec le recul. Ce bilan offre des leçons pour les futurs pronostics : privilégier les tendances aux chiffres, anticiper les effets distributifs et accepter que certaines questions demandent plus de trois ans pour être tranchées.

marsbitIl y a 4 h

Trois ans plus tard : Retour sur mon jugement de 2023 concernant ChatGPT

marsbitIl y a 4 h

Trois ans plus tard : un retour sur mes prédictions de 2023 concernant ChatGPT

Trois ans après ses prédictions sur le ChatGPT en mars 2023, Wang Jianshuo revient sur ses 20 affirmations initiales. Évaluées en mai 2026 par des agents IA, la plupart de ses intuitions sur les grandes tendances se sont révélées justes : le RAG est devenu l'architecture standard pour intégrer des connaissances, l'Interface Utilisateur en Langage Naturel (LUI) a créé un nouvel écosystème, et les modèles chinois ont presque rattrapé les leaders mondiaux. Des concepts comme les réseaux d'agents et la nature limitée du test de Turing se sont également matérialisés. Cependant, les prévisions quantitatives et les affirmations trop absolues ont souvent échoué. Le paramétrage supposé du GPT-4 (100T) était inexact, et les coûts de développement des modèles ont dépassé les estimations. Il a sous-estimé la vitesse de personnalisation des IA et l'impact distribué sur l'emploi des jeunes. La capture de valeur a surtout bénéficié à la couche matérielle (comme Nvidia), et non aux seules applications. Les leçons clés sont que les mécanismes et les directions sont plus fiables que les chiffres précis, que l'optimisme à court terme doit être tempéré, et que les nuances ("peut-être", "pour l'instant") rendent les prédictions plus robustes. Cette rétrospective souligne l'importance de distinguer les tendances confirmées des questions toujours ouvertes.

链捕手Il y a 6 h

Trois ans plus tard : un retour sur mes prédictions de 2023 concernant ChatGPT

链捕手Il y a 6 h

Du Token à la main-d'œuvre machine : l'IA passe d'outil à « travailleur »

Alors que l'IA écrit du code, traite des tickets clients et révise des documents juridiques, elle ne se contente plus d'être un outil mais devient une source directe de travail. La commercialisation de l'IA évolue ainsi d'un marché de « jetons » (tokens) ou d'heures de GPU vers un nouveau marché : celui de la « main-d'œuvre machine ». Dans ce marché, le jeton n'est qu'une unité de mesure, le GPU un intrant, et le modèle un outil de production. L'objet véritablement tarifé et échangé est le travail économique accompli directement par le logiciel. Le mécanisme de prix de l'IA devrait évoluer des jetons bruts vers des capacités de modèles standardisées, puis vers une main-d'œuvre sectorielle, et enfin vers un marché de résultats programmables. À l'avenir, les entreprises pourraient ne plus se soucier du modèle ou du GPU spécifique utilisé, mais uniquement du fait que la tâche soit livrée dans des délais, avec un taux de précision, une fiabilité et un coût conformes aux standards. Ce changement ne signifie pas un simple remplacement du travail humain. Alors que la machine assume des tâches standardisées et vérifiables, le rôle humain pourrait se déplacer vers la supervision, la responsabilité finale, la gestion du contexte et les jugements critiques. Dans certains cas, les 1% de jugement humain final pourraient gagner en valeur, car ils permettent de débloquer les 99% d'automatisation à grande échelle. Le marché évolue donc vers une couche où le « travail » lui-même devient l'unité stable, standardisée, vérifiable et négociable. La prochaine phase de concurrence ne portera pas seulement sur la puissance des modèles ou le prix du calcul, mais sur la capacité à standardiser, vérifier et tarifer le « travail » accompli, faisant de la main-d'œuvre machine une nouvelle ressource productive que l'on peut acheter, facturer et échanger.

marsbitIl y a 7 h

Du Token à la main-d'œuvre machine : l'IA passe d'outil à « travailleur »

marsbitIl y a 7 h

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

Dans un article intitulé "La réduction de 99% du prix de MiMo de Xiaomi n'est pas du marketing ! Luo Fuli répond aux détracteurs sur X", Luo Fuli, responsable de MiMo, a publié un billet de blog technique de 5000 mots pour expliquer la baisse drastique des prix de l'API MiMo-V2.5. Contrairement aux interprétations initiales d'une guerre des prix ou d'une stratégie de perte, cette réduction de 99% concerne spécifiquement le coût des entrées en cache ("Input Cache Hit"), c'est-à-dire la relecture du contexte historique dans les conversations longues. Le billet détaille six piliers d'ingénierie ayant permis cette réduction : 1. **Architecture Hybride SWA** : Réduction du volume de la mémoire cache (KVCache) à 1/7 grâce à une attention par fenêtre glissante sur 60 des 70 couches du modèle. 2. **Gestion en double pool** : Allocation efficace de la mémoire pour matérialiser les gains théoriques du SWA, multipliant par 5 le nombre d'utilisateurs simultanés par GPU. 3. **Cache de préfixe optimisé** : Augmentation du taux de réussite du cache à 93-95% en moyenne, évitant de recalculer les contextes répétés. 4. **Système de cache distribué GCache** : Stockage des données sur les SSD des machines GPU existantes, réduisant les coûts de stockage additionnels à zéro. 5. **Système de routage LLM-Router** : Optimisation de l'acheminement des requêtes pour maximiser l'utilisation du cache et améliorer les performances. 6. **Prédiction Multi-Token (MTP)** : Accélération de la génération des réponses du modèle, réduisant également les coûts de sortie. Cette chaîne d'optimisations systémiques a réduit le temps GPU par requête d'un ordre de grandeur, permettant une baisse de prix de 99% tout en maintenant une marge positive. Luo Fuli souligne qu'il s'agit d'un accomplissement d'ingénierie validé en production, et non d'une simple manœuvre marketing, offrant une référence pour réduire les coûts dans le secteur de l'IA.

marsbitIl y a 9 h

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

marsbitIl y a 9 h

Analyse rétrospective des opérations magistrales de Cathie Wood sur Circle

Cathy Wood (ARK) a réalisé une opération exemplaire sur l'action Circle, démontrant une maîtrise des mouvements de marché à court terme malgré son approche d'investissement habituellement tournée vers le très long terme. Elle a d'abord acquis près de 4,5 millions d'actions au prix d'introduction de 31 dollars, profitant ainsi de l'envolée initiale due à une faible offre flottante et une forte demande. Lorsque le titre a été propulsé à près de 300 dollars en juin 2025, porté par l'adoption du projet de loi sur les stablecoins (GENIUS Act), Wood a systématiquement vendu par tranches environ 1,7 million d'actions à un prix moyen d'environ 210 dollars, réalisant ainsi des plus-values substantielles. Cette décision était motivée à la fois par des règles internes de rééquilibrage de portefeuille et par l'anticipation de l'augmentation future de l'offre d'actions. Par la suite, face à la chute de l'action (jusqu'à -83% depuis son pic), Wood a racheté progressivement sa position initiale à des prix bien inférieurs (entre environ 50 et 130 dollars), portant son portefeuille à nouveau à environ 4,5 millions d'actions fin mars 2026. L'opération illustre trois principes clés : une conviction forte sur le modèle économique à long terme de Circle (stablecoin USDC), une exécution disciplinée par tranches sans chercher à prédire les sommets ou les creux, et le respect strict de règles de gestion des risques limitant le poids d'un titre dans le portefeuille.

marsbitIl y a 13 h

Analyse rétrospective des opérations magistrales de Cathie Wood sur Circle

marsbitIl y a 13 h

Trading

Spot
Futures

Articles tendance

Qu'est ce que $S$

Comprendre SPERO : Un aperçu complet Introduction à SPERO Alors que le paysage de l'innovation continue d'évoluer, l'émergence des technologies web3 et des projets de cryptomonnaie joue un rôle central dans la façon dont se dessine l'avenir numérique. Un projet qui a attiré l'attention dans ce domaine dynamique est SPERO, désigné comme SPERO,$$s$. Cet article vise à rassembler et à présenter des informations détaillées sur SPERO, afin d'aider les passionnés et les investisseurs à comprendre ses fondations, ses objectifs et ses innovations dans les domaines du web3 et de la crypto. Qu'est-ce que SPERO,$$s$ ? SPERO,$$s$ est un projet unique dans l'espace crypto qui cherche à tirer parti des principes de décentralisation et de la technologie blockchain pour créer un écosystème qui favorise l'engagement, l'utilité et l'inclusion financière. Le projet est conçu pour faciliter les interactions entre pairs de nouvelles manières, offrant aux utilisateurs des solutions et des services financiers innovants. Au cœur de SPERO,$$s$, l'objectif est d'autonomiser les individus en fournissant des outils et des plateformes qui améliorent l'expérience utilisateur dans l'espace des cryptomonnaies. Cela inclut la possibilité de méthodes de transaction plus flexibles, la promotion d'initiatives dirigées par la communauté et la création de voies pour des opportunités financières via des applications décentralisées (dApps). La vision sous-jacente de SPERO,$$s$ tourne autour de l'inclusivité, visant à combler les lacunes au sein de la finance traditionnelle tout en exploitant les avantages de la technologie blockchain. Qui est le créateur de SPERO,$$s$ ? L'identité du créateur de SPERO,$$s$ reste quelque peu obscure, car il existe peu de ressources publiques fournissant des informations détaillées sur son ou ses fondateurs. Ce manque de transparence peut découler de l'engagement du projet envers la décentralisation—une éthique que de nombreux projets web3 partagent, privilégiant les contributions collectives plutôt que la reconnaissance individuelle. En centrant les discussions autour de la communauté et de ses objectifs collectifs, SPERO,$$s$ incarne l'essence de l'autonomisation sans désigner des individus spécifiques. Ainsi, comprendre l'éthique et la mission de SPERO reste plus important que d'identifier un créateur unique. Qui sont les investisseurs de SPERO,$$s$ ? SPERO,$$s$ est soutenu par une diversité d'investisseurs allant des capital-risqueurs aux investisseurs providentiels dédiés à favoriser l'innovation dans le secteur crypto. L'objectif de ces investisseurs s'aligne généralement avec la mission de SPERO—priorisant les projets qui promettent des avancées technologiques sociétales, l'inclusivité financière et la gouvernance décentralisée. Ces fondations d'investisseurs s'intéressent généralement à des projets qui non seulement offrent des produits innovants, mais qui contribuent également positivement à la communauté blockchain et à ses écosystèmes. Le soutien de ces investisseurs renforce SPERO,$$s$ en tant que concurrent notable dans le domaine en rapide évolution des projets crypto. Comment fonctionne SPERO,$$s$ ? SPERO,$$s$ utilise un cadre multifacette qui le distingue des projets de cryptomonnaie conventionnels. Voici quelques-unes des caractéristiques clés qui soulignent son unicité et son innovation : Gouvernance décentralisée : SPERO,$$s$ intègre des modèles de gouvernance décentralisée, permettant aux utilisateurs de participer activement aux processus de décision concernant l'avenir du projet. Cette approche favorise un sentiment de propriété et de responsabilité parmi les membres de la communauté. Utilité du token : SPERO,$$s$ utilise son propre token de cryptomonnaie, conçu pour servir diverses fonctions au sein de l'écosystème. Ces tokens permettent des transactions, des récompenses et la facilitation des services offerts sur la plateforme, améliorant ainsi l'engagement et l'utilité globaux. Architecture en couches : L'architecture technique de SPERO,$$s$ supporte la modularité et l'évolutivité, permettant une intégration fluide de fonctionnalités et d'applications supplémentaires à mesure que le projet évolue. Cette adaptabilité est primordiale pour maintenir la pertinence dans le paysage crypto en constante évolution. Engagement communautaire : Le projet met l'accent sur des initiatives dirigées par la communauté, utilisant des mécanismes qui incitent à la collaboration et aux retours d'expérience. En cultivant une communauté forte, SPERO,$$s$ peut mieux répondre aux besoins des utilisateurs et s'adapter aux tendances du marché. Accent sur l'inclusion : En proposant des frais de transaction bas et des interfaces conviviales, SPERO,$$s$ vise à attirer une base d'utilisateurs diversifiée, y compris des individus qui n'ont peut-être pas engagé auparavant dans l'espace crypto. Cet engagement envers l'inclusion s'aligne avec sa mission globale d'autonomisation par l'accessibilité. Chronologie de SPERO,$$s$ Comprendre l'histoire d'un projet fournit des aperçus cruciaux sur sa trajectoire de développement et ses jalons. Voici une chronologie suggérée cartographiant les événements significatifs dans l'évolution de SPERO,$$s$ : Phase de conceptualisation et d'idéation : Les idées initiales formant la base de SPERO,$$s$ ont été conçues, s'alignant étroitement avec les principes de décentralisation et de concentration sur la communauté au sein de l'industrie blockchain. Lancement du livre blanc du projet : Suite à la phase conceptuelle, un livre blanc complet détaillant la vision, les objectifs et l'infrastructure technologique de SPERO,$$s$ a été publié pour susciter l'intérêt et les retours de la communauté. Construction de la communauté et engagements précoces : Des efforts de sensibilisation actifs ont été entrepris pour construire une communauté d'adopteurs précoces et d'investisseurs potentiels, facilitant les discussions autour des objectifs du projet et recueillant du soutien. Événement de génération de tokens : SPERO,$$s$ a organisé un événement de génération de tokens (TGE) pour distribuer ses tokens natifs aux premiers soutiens et établir une liquidité initiale au sein de l'écosystème. Lancement de la première dApp : La première application décentralisée (dApp) associée à SPERO,$$s$ a été mise en ligne, permettant aux utilisateurs d'interagir avec les fonctionnalités principales de la plateforme. Développement continu et partenariats : Des mises à jour et des améliorations continues des offres du projet, y compris des partenariats stratégiques avec d'autres acteurs de l'espace blockchain, ont façonné SPERO,$$s$ en un acteur compétitif et évolutif sur le marché crypto. Conclusion SPERO,$$s$ se dresse comme un témoignage du potentiel du web3 et de la cryptomonnaie pour révolutionner les systèmes financiers et autonomiser les individus. Avec un engagement envers la gouvernance décentralisée, l'engagement communautaire et des fonctionnalités conçues de manière innovante, il ouvre la voie vers un paysage financier plus inclusif. Comme pour tout investissement dans l'espace crypto en rapide évolution, les investisseurs et utilisateurs potentiels sont encouragés à mener des recherches approfondies et à s'engager de manière réfléchie avec les développements en cours au sein de SPERO,$$s$. Le projet illustre l'esprit d'innovation de l'industrie crypto, invitant à une exploration plus approfondie de ses nombreuses possibilités. Bien que le parcours de SPERO,$$s$ soit encore en cours, ses principes fondamentaux pourraient en effet influencer l'avenir de nos interactions avec la technologie, la finance et entre nous dans des écosystèmes numériques interconnectés.

101 vues totalesPublié le 2024.12.17Mis à jour le 2024.12.17

Qu'est ce que $S$

Qu'est ce que AGENT S

Agent S : L'avenir de l'interaction autonome dans Web3 Introduction Dans le paysage en constante évolution de Web3 et des cryptomonnaies, les innovations redéfinissent constamment la manière dont les individus interagissent avec les plateformes numériques. Un projet pionnier, Agent S, promet de révolutionner l'interaction homme-machine grâce à son cadre agentique ouvert. En ouvrant la voie à des interactions autonomes, Agent S vise à simplifier des tâches complexes, offrant des applications transformantes dans l'intelligence artificielle (IA). Cette exploration détaillée plongera dans les subtilités du projet, ses caractéristiques uniques et les implications pour le domaine des cryptomonnaies. Qu'est-ce qu'Agent S ? Agent S se présente comme un cadre agentique ouvert révolutionnaire, spécifiquement conçu pour relever trois défis fondamentaux dans l'automatisation des tâches informatiques : Acquisition de connaissances spécifiques au domaine : Le cadre apprend intelligemment à partir de diverses sources de connaissances externes et d'expériences internes. Cette approche double lui permet de construire un riche répertoire de connaissances spécifiques au domaine, améliorant ainsi sa performance dans l'exécution des tâches. Planification sur de longs horizons de tâches : Agent S utilise une planification hiérarchique augmentée par l'expérience, une approche stratégique qui facilite la décomposition et l'exécution efficaces de tâches complexes. Cette fonctionnalité améliore considérablement sa capacité à gérer plusieurs sous-tâches de manière efficace et efficiente. Gestion d'interfaces dynamiques et non uniformes : Le projet introduit l'Interface Agent-Ordinateur (ACI), une solution innovante qui améliore l'interaction entre les agents et les utilisateurs. En utilisant des Modèles de Langage Multimodaux de Grande Taille (MLLMs), Agent S peut naviguer et manipuler sans effort diverses interfaces graphiques. Grâce à ces fonctionnalités pionnières, Agent S fournit un cadre robuste qui aborde les complexités impliquées dans l'automatisation de l'interaction humaine avec les machines, préparant le terrain pour d'innombrables applications en IA et au-delà. Qui est le créateur d'Agent S ? Bien que le concept d'Agent S soit fondamentalement innovant, des informations spécifiques sur son créateur restent insaisissables. Le créateur est actuellement inconnu, ce qui souligne soit le stade naissant du projet, soit le choix stratégique de garder les membres fondateurs sous le radar. Quoi qu'il en soit, l'accent reste mis sur les capacités et le potentiel du cadre. Qui sont les investisseurs d'Agent S ? Étant donné qu'Agent S est relativement nouveau dans l'écosystème cryptographique, des informations détaillées concernant ses investisseurs et soutiens financiers ne sont pas explicitement documentées. Le manque d'aperçus publiquement disponibles sur les fondations d'investissement ou les organisations soutenant le projet soulève des questions sur sa structure de financement et sa feuille de route de développement. Comprendre le soutien est crucial pour évaluer la durabilité du projet et son impact potentiel sur le marché. Comment fonctionne Agent S ? Au cœur d'Agent S se trouve une technologie de pointe qui lui permet de fonctionner efficacement dans divers environnements. Son modèle opérationnel est construit autour de plusieurs caractéristiques clés : Interaction homme-ordinateur semblable à l'humain : Le cadre offre une planification IA avancée, s'efforçant de rendre les interactions avec les ordinateurs plus intuitives. En imitant le comportement humain dans l'exécution des tâches, il promet d'élever l'expérience utilisateur. Mémoire narrative : Utilisée pour tirer parti des expériences de haut niveau, Agent S utilise la mémoire narrative pour suivre les historiques de tâches, améliorant ainsi ses processus de prise de décision. Mémoire épisodique : Cette fonctionnalité fournit aux utilisateurs un accompagnement étape par étape, permettant au cadre d'offrir un soutien contextuel au fur et à mesure que les tâches se déroulent. Support pour OpenACI : Avec la capacité de fonctionner localement, Agent S permet aux utilisateurs de garder le contrôle sur leurs interactions et flux de travail, s'alignant avec l'éthique décentralisée de Web3. Intégration facile avec des API externes : Sa polyvalence et sa compatibilité avec diverses plateformes IA garantissent qu'Agent S peut s'intégrer sans effort dans des écosystèmes technologiques existants, en faisant un choix attrayant pour les développeurs et les organisations. Ces fonctionnalités contribuent collectivement à la position unique d'Agent S dans l'espace crypto, alors qu'il automatise des tâches complexes en plusieurs étapes avec un minimum d'intervention humaine. À mesure que le projet évolue, ses applications potentielles dans Web3 pourraient redéfinir la manière dont les interactions numériques se déroulent. Chronologie d'Agent S Le développement et les jalons d'Agent S peuvent être encapsulés dans une chronologie qui met en évidence ses événements significatifs : 27 septembre 2024 : Le concept d'Agent S a été lancé dans un document de recherche complet intitulé “Un cadre agentique ouvert qui utilise les ordinateurs comme un humain”, présentant les bases du projet. 10 octobre 2024 : Le document de recherche a été rendu publiquement disponible sur arXiv, offrant une exploration approfondie du cadre et de son évaluation de performance basée sur le benchmark OSWorld. 12 octobre 2024 : Une présentation vidéo a été publiée, fournissant un aperçu visuel des capacités et des caractéristiques d'Agent S, engageant davantage les utilisateurs et investisseurs potentiels. Ces jalons dans la chronologie illustrent non seulement les progrès d'Agent S, mais indiquent également son engagement envers la transparence et l'engagement communautaire. Points clés sur Agent S Alors que le cadre Agent S continue d'évoluer, plusieurs attributs clés se distinguent, soulignant sa nature innovante et son potentiel : Cadre innovant : Conçu pour offrir une utilisation intuitive des ordinateurs semblable à l'interaction humaine, Agent S propose une approche nouvelle de l'automatisation des tâches. Interaction autonome : La capacité d'interagir de manière autonome avec les ordinateurs via une interface graphique signifie un bond vers des solutions informatiques plus intelligentes et efficaces. Automatisation des tâches complexes : Avec sa méthodologie robuste, il peut automatiser des tâches complexes en plusieurs étapes, rendant les processus plus rapides et moins sujets aux erreurs. Amélioration continue : Les mécanismes d'apprentissage permettent à Agent S de s'améliorer grâce à ses expériences passées, améliorant continuellement sa performance et son efficacité. Polyvalence : Son adaptabilité à travers différents environnements d'exploitation comme OSWorld et WindowsAgentArena garantit qu'il peut servir un large éventail d'applications. Alors qu'Agent S se positionne dans le paysage Web3 et crypto, son potentiel à améliorer les capacités d'interaction et à automatiser les processus représente une avancée significative dans les technologies IA. Grâce à son cadre innovant, Agent S incarne l'avenir des interactions numériques, promettant une expérience plus fluide et efficace pour les utilisateurs à travers divers secteurs. Conclusion Agent S représente un saut audacieux en avant dans le mariage de l'IA et de Web3, avec la capacité de redéfinir notre interaction avec la technologie. Bien qu'il soit encore à ses débuts, les possibilités de son application sont vastes et convaincantes. Grâce à son cadre complet abordant des défis critiques, Agent S vise à mettre les interactions autonomes au premier plan de l'expérience numérique. À mesure que nous plongeons plus profondément dans les domaines des cryptomonnaies et de la décentralisation, des projets comme Agent S joueront sans aucun doute un rôle crucial dans la façon dont la technologie et la collaboration homme-machine évolueront à l'avenir.

808 vues totalesPublié le 2025.01.14Mis à jour le 2025.01.14

Qu'est ce que AGENT S

Comment acheter S

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Sonic (S) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Sonic (S).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Sonic (S)Après avoir acheté vos Sonic (S), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Sonic (S)Tradez facilement Sonic (S) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

1.6k vues totalesPublié le 2025.01.15Mis à jour le 2025.03.21

Comment acheter S

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de S (S) sont présentées ci-dessous.

活动图片