# Performance Articles associés

Le Centre d'actualités HTX fournit les derniers articles et analyses approfondies sur "Performance", couvrant les tendances du marché, les mises à jour des projets, les développements technologiques et les politiques réglementaires dans l'industrie crypto.

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

Dans un article intitulé "La réduction de 99% du prix de MiMo de Xiaomi n'est pas du marketing ! Luo Fuli répond aux détracteurs sur X", Luo Fuli, responsable de MiMo, a publié un billet de blog technique de 5000 mots pour expliquer la baisse drastique des prix de l'API MiMo-V2.5. Contrairement aux interprétations initiales d'une guerre des prix ou d'une stratégie de perte, cette réduction de 99% concerne spécifiquement le coût des entrées en cache ("Input Cache Hit"), c'est-à-dire la relecture du contexte historique dans les conversations longues. Le billet détaille six piliers d'ingénierie ayant permis cette réduction : 1. **Architecture Hybride SWA** : Réduction du volume de la mémoire cache (KVCache) à 1/7 grâce à une attention par fenêtre glissante sur 60 des 70 couches du modèle. 2. **Gestion en double pool** : Allocation efficace de la mémoire pour matérialiser les gains théoriques du SWA, multipliant par 5 le nombre d'utilisateurs simultanés par GPU. 3. **Cache de préfixe optimisé** : Augmentation du taux de réussite du cache à 93-95% en moyenne, évitant de recalculer les contextes répétés. 4. **Système de cache distribué GCache** : Stockage des données sur les SSD des machines GPU existantes, réduisant les coûts de stockage additionnels à zéro. 5. **Système de routage LLM-Router** : Optimisation de l'acheminement des requêtes pour maximiser l'utilisation du cache et améliorer les performances. 6. **Prédiction Multi-Token (MTP)** : Accélération de la génération des réponses du modèle, réduisant également les coûts de sortie. Cette chaîne d'optimisations systémiques a réduit le temps GPU par requête d'un ordre de grandeur, permettant une baisse de prix de 99% tout en maintenant une marge positive. Luo Fuli souligne qu'il s'agit d'un accomplissement d'ingénierie validé en production, et non d'une simple manœuvre marketing, offrant une référence pour réduire les coûts dans le secteur de l'IA.

marsbit05/31 10:42

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

marsbit05/31 10:42

Preuve flagrante, GPT-5.5 pris en flagrant délit de « perte d'intelligence », les documents officiels d'OpenAI l'admettent

**OpenAI accusé d'avoir "abaissé" l'intelligence du GPT-5.5, les documents officiels le confirment** Des utilisateurs de ChatGPT dénoncent une dégradation soudaine des performances du modèle GPT-5.5, en particulier dans son mode "Extended Thinking". Après une ou deux heures d'utilisation, les réponses deviennent instantanées et de moindre qualité, bien que l'interface continue d'afficher le même modèle. Des tests, dont l'interrogation du modèle sur sa date de formation (qui correspond à la version "Instant", non à "Thinking"), suggèrent un remplacement silencieux par un modèle moins puissant. La documentation officielle d'OpenAI confirme ce mécanisme : après 160 messages/3 heures pour les utilisateurs Plus, le système bascule automatiquement et sans avertissement vers un modèle "mini". Les utilisateurs Pro du mode "Heavy" peuvent également être limités en cas de forte charge serveur. Ce phénomène n'est pas nouveau ; des utilisateurs de Codex avaient déjà signalé en février, via des commandes de trace, une rétrogradation silencieuse du GPT-5.3 vers le GPT-5.2. Cette controverse s'inscrit dans une série de plaintes similaires après chaque mise à jour majeure, de GPT-5 à GPT-5.5. OpenAI a reconnu et marqué comme "résolu" un incident de dégradation des performances mi-mai, mais les signalements ont repris de plus belle fin mai. Pour certains observateurs, cette pratique viserait à optimiser les coûts de calcul. Ironiquement, tandis que les utilisateurs de GPT-5.5 luttent pour une expérience stable, des traces du futur GPT-5.6 apparaissent déjà dans les logs.

marsbit05/27 11:10

Preuve flagrante, GPT-5.5 pris en flagrant délit de « perte d'intelligence », les documents officiels d'OpenAI l'admettent

marsbit05/27 11:10

Bitroot Blockchain invité au sommet AI de Tencent Cloud à Singapour, discutant de l'avenir aux côtés de Solana

Le 19 mai, Tencent Cloud a organisé un événement sur l'IA à Singapour, réunissant des experts du cloud computing, des blockchains, des réseaux de paiement et de la fintech pour discuter de l'intégration de l'IA avec les infrastructures numériques. Bitroot, une nouvelle blockchain Layer 1 axée sur l'IA, a été invitée à participer aux côtés de Solana, marquant l'intérêt croissant pour les infrastructures Web3 dans le contexte de l'IA. L'événement a souligné que la concurrence future dans l'IA ne se limitera pas aux modèles mais concernera les données, les cas d'usage et les mécanismes de confiance. À mesure que les Agents IA évoluent vers des entités autonomes exécutant des tâches, des paiements et des transactions, le besoin d'environnements d'exécution haute performance, vérifiables et à faible coût devient crucial. Juan Jose, PDG de Bitroot, a expliqué que la blockchain offre des capacités de règlement automatisé et de vérification d'état essentielles pour établir la confiance dans les scénarios financiers impliquant l'IA. Bitroot, encore en phase de testnet, se positionne comme une blockchain native IA compatible EVM, visant à fournir un débit élevé, une faible latence et une exécution parallèle pour les Agents IA et les applications décentralisées. Son architecture, combinant un EVM parallèle optimiste et des mécanismes de consensus adaptés, vise à répondre aux exigences des applications IA à grande échelle. Bien que non encore lancé sur le mainnet, le projet attire l'attention en raison de son orientation technique alignée sur les futures nécessités de l'écosystème IA et Web3, comme en témoigne sa présence à cet événement majeur aux côtés d'acteurs établis comme Solana.

marsbit05/27 08:19

Bitroot Blockchain invité au sommet AI de Tencent Cloud à Singapour, discutant de l'avenir aux côtés de Solana

marsbit05/27 08:19

Pourquoi la capitalisation boursière de Zhipu a-t-elle bondi de près de 30% en une seule journée ?

Le titre "智谱凭什么一天暴涨近30% ?" (Pourquoi les actions de Zhipu AI ont-elles grimpé de près de 30 % en une journée ?) répond à une annonce technique majeure. Le 22 mai, l'entreprise a lancé son API GLM-5.1-highspeed, dont le paramètre clé est une vitesse de génération atteignant **400 tokens par seconde**, un record mondial pour une API de grand modèle linguistique de taille standard. Cette vitesse, équivalant à environ 200 caractères chinois par seconde, est cruciale pour l'ère des **agents IA**. Contrairement aux simples chatbots, les agents effectuent des tâches complexes nécessitant de nombreux appels successifs au modèle. Chaque réduction de latence est donc amplifiée, améliorant radicalement l'expérience utilisateur pour des applications comme l'assistance à la programmation ou les systèmes de décision. Cette performance, estimée à 3-5 fois plus rapide que les modèles phares d'OpenAI ou d'Anthropic, repose sur une innovation profonde en matière d'infrastructure logicielle et matérielle, et non sur un simple ajout de puissance de calcul brute. L'article détaille trois innovations principales : 1. **TileRT (Moteur d'inférence)** : Un nouvel moteur qui compile le modèle entier en un pipeline d'exécution unique et continu sur le GPU, éliminant les temps d'attente entre les opérations. Il utilise une "spécialisation Warp" pour orchestrer efficacement les différents types de calculs. 2. **Adaptation au mécanisme d'attention MLA** : Pour le mécanisme d'attention MLA (inspiré de DeepSeek), TileRT utilise une exécution hétérogène sur plusieurs GPU. Un GPU sert de "routeur" pour les opérations de recherche clairsemée, tandis que les autres traitent les calculs denses en parallèle, optimisant ainsi l'ensemble du processus. 3. **ZCube (Architecture réseau)** : Une nouvelle topologie réseau qui supprime la couche centrale "Spine" traditionnelle. En interconnectant directement les commutateurs d'accès ("Leaf") et en concevant un chemin réseau unique et optimal entre toutes les paires de GPU, ZCube élimine fondamentalement les risques d'encombrement du réseau. Les résultats sont significatifs : **+15% de débit, -40.6% de latence de queue, et une réduction d'un tiers du coût des équipements réseau** pour un cluster donné. En conclusion, cette avancée démontre que les mêmes ressources matérielles (GPU) peuvent produire **plus de résultats**, repoussant les limites de l'efficacité de l'infrastructure logicielle autour du GPU. Cela pourrait, à terme, remodeler la chaîne de valeur des infrastructures IA (bénéficiant potentiellement aux fabricants de commutateurs haute densité et de modules optiques) et abaisser la barrière d'entrée pour les puces alternatives, comme celles d'Huawei.

marsbit05/23 01:28

Pourquoi la capitalisation boursière de Zhipu a-t-elle bondi de près de 30% en une seule journée ?

marsbit05/23 01:28

BNB Chain publie un rapport de recherche explorant le chemin de migration de BSC vers la cryptographie post-quantique

BNB Chain a publié un rapport de recherche explorant la voie de migration de BSC (BNB Smart Chain) vers une cryptographie post-quantique (résistante aux calculs quantiques). L'étude évalue le remplacement des systèmes cryptographiques traditionnels par des alternatives post-quantiques, notamment l'adoption de ML-DSA-44 comme schéma de signature de transaction et l'utilisation de pqSTARK pour l'agrégation des signatures de consensus des validateurs. Les principales conclusions indiquent que la faisabilité technique est actuellement possible, mais avec des compromis significatifs en matière d'évolutivité. Les données de test montrent : - La taille des transactions passe d'environ 110 octets à environ 2,5 kilo-octets. - La taille des blocs augmente d'environ 110 kilo-octets à environ 2 mégaoctets. - Le TPS (transactions par seconde) pour les transferts natifs diminue, passant de 4 973 à 2 997. Le principal goulot d'étranglement identifié n'est pas la vérification des signatures elle-même, mais l'augmentation du volume des transactions et des blocs, entraînant des coûts de transmission réseau accrus. Cependant, la technologie d'agrégation pqSTARK reste efficace, compressant les signatures des validateurs dans un rapport d'environ 43:1, aidant ainsi à maîtriser les frais généraux de la couche de consensus. Le rapport souligne que certains domaines, tels que les poignées de main P2P et les engagements KZG, nécessitent des recherches supplémentaires et une coordination plus large de l'écosystème pour leur migration post-quantique. BNB Chain précise que cette étude est exploratoire et évaluative, et ne répond pas à une menace de sécurité imminente.

marsbit05/18 13:55

BNB Chain publie un rapport de recherche explorant le chemin de migration de BSC vers la cryptographie post-quantique

marsbit05/18 13:55

BNB Chain publie un rapport de recherche, explorant la voie de migration de BSC vers la cryptographie post-quantique

BNB Chain, l'un des principaux écosystèmes blockchain Layer 1, a publié une nouvelle étude explorant la voie de migration vers la cryptographie post-quantique (résistante aux ordinateurs quantiques) pour BNB Smart Chain (BSC). Bien que la menace ne soit pas imminente, cette recherche prospective vise à évaluer les alternatives et leur impact. L'étude se concentre sur plusieurs domaines clés, notamment les schémas de signature de transactions post-quantiques (comme ML-DSA-44) et l'agrégation des signatures de consensus des validateurs (via pqSTARK). Les principales conclusions indiquent que la transition est techniquement faisable, mais entraîne des compromis significatifs en matière d'évolutivité : - La taille des transactions passerait d'environ 110 octets à environ 2,5 kilo-octets. - La taille des blocs augmenterait d'environ 110 kilo-octets à environ 2 méga-octets. - Le TPS (transactions par seconde) pour les transferts natifs chuterait de 4 973 à 2 997. Le principal goulot d'étranglement identifié n'est pas la vérification des signatures elle-même, mais l'augmentation des volumes de données, qui alourdit la charge du réseau. Cependant, la technologie d'agrégation pqSTARK s'est avérée efficace, compressant les signatures des validateurs dans un rapport d'environ 43:1 pour limiter l'impact au niveau du consensus. L'étude note que certains aspects, comme les protocoles de liaison P2P et les engagements KZG, nécessitent des recherches supplémentaires. BNB Chain souligne que ce travail est une évaluation exploratoire et non une réponse à une menace immédiate.

链捕手05/18 13:28

BNB Chain publie un rapport de recherche, explorant la voie de migration de BSC vers la cryptographie post-quantique

链捕手05/18 13:28

活动图片