La puce chinoise, le point d'intersection caché entre DeepSeek et Kimi

marsbitPublié le 2026-04-22Dernière mise à jour le 2026-04-22

Résumé

Kimi a lancé son modèle de code open source K2.6, présenté comme son plus performant à ce jour, avec des améliorations significatives en programmation et en capacités d’Agent. Ce modèle permet un codage ininterrompu sur 13 heures et gère jusqu’à 4 000 lignes de code. Il intègre également un système d’Agent cluster permettant une exécution parallèle de 300 sous-agents pour des tâches complexes. Parallèlement, Kimi propose une approche innovante avec son architecture Prefill-as-a-Service (PrfaaS), qui sépare préremplissage et décodage entre clusters hétérogènes, réduisant les coûts et améliorant l’efficacité. Cette avancée ouvre la voie à une intégration accrue des puces chinoises dans l’écosystème des grands modèles, une nécessité face aux restrictions d’accès aux GPU occidentaux. DeepSeek suivrait une voie similaire pour sa prochaine version V4.

« K2.6 est notre modèle de code le plus puissant à ce jour », écrit Kimi sur son compte officiel WeChat.

Le 20 avril dans la soirée, Kimi a officiellement lancé le modèle open source K2.6, aux performances renforcées en programmation et en capacités d'agent, environ un trimestre après la publication de la version précédente, K2.5.

Il y a aussi un petit aparté : la rumeur veut que DeepSeek V4 soit également publié cette semaine. Si tout se déroule comme prévu par les observateurs externes, ce sera la N-ième fois que Kimi et DeepSeek se retrouvent en concurrence directe. Mais à un niveau infrastructurel plus fondamental, une autre ligne sous-jacente existe : Kimi et DeepSeek, ces deux startups de grands modèles, finiront par entrer dans le même fleuve – avançant de concert avec les startups chinoises de puces.

Remontons le temps jusqu'en mars 2026, lorsque Yang Zhilin, sur la scène de conférence NVIDIA GTC, a parlé de la feuille de route technologique de Kimi. Il a déclaré : « De nombreuses normes technologiques couramment utilisées aujourd'hui sont, par essence, des produits d'il y a huit ou neuf ans, et deviennent progressivement un goulot d'étranglement pour le Scaling. »

Pour résoudre ce type de problèmes, Kimi a contribué à la communauté open source avec l'optimiseur de second ordre MuonClip, première application à grande échelle, l'architecture Kimi Linear qui rend le traitement des longs contextes par les grands modèles plus efficace, et les Attention Residuals qui optimisent la connexion des couches de réseaux neuronaux profonds.

Stratégie de Scaling de Kimi

Yang Zhilin estime que la logique d'évolution de Kimi peut se résumer à la fusion de l'efficacité des Tokens, du long contexte et des clusters d'agents. Le Kimi K2.6, récemment mis en ligne, peut être compris comme les nouveaux devoirs rendus par Yang Zhilin sur cette voie de Scaling.

Le site officiel de Kimi a intégré K2.6

Code, Agent, et quoi d'autre ?

En tant que l'une des capacités les plus facilement standardisables, le code est un champ de bataille incontournable pour les modèles de pointe.

De K2 à K2.5, puis à K2.6, Kimi maintient un rythme d'itération d'environ un trimestre en moyenne sur plusieurs modèles open source, mais comme il s'agit d'un petit numéro de version, cela suggère que Yang Zhilin pourrait avoir encore plus de cartes en main.

« Les capacités de codage à long terme de K2.6 sont considérablement améliorées ; lors des tests, il peut coder sans interruption pendant 13 heures, écrire ou modifier plus de 4000 lignes de code », écrit Kimi dans un document de communication. « Sur le benchmark interne strict de code de Kimi, le Kimi Code Bench, qui couvre diverses tâches complexes de bout en bout, les résultats de K2.6 sont environ 20 % meilleurs que ceux de K2.5. »

Il faut savoir que K2.5 était déjà un modèle très « combatif », ayant dominé le classement d'OpenRouter en février. Une personne proche de Kimi a partagé une capture d'écran du message que le cofondateur Zhang Yutao avait posté sur son moment WeChat à l'époque : « Il avait l'air très satisfait de cette version. »

Performances de K2.6 sur les tests de référence des agents généraux, de programmation et des agents visuels

Pour les frameworks d'agents comme OpenClaw et Hermes, les améliorations principales de K2.6 se concentrent sur la précision des appels d'API et la stabilité des exécutions de longue durée – l'une augmente le coût d'exécution des tâches, l'autre optimise l'efficacité de leur exécution.

Dans la version K2.5 lancée en janvier, Kimi a introduit le concept de « cluster d'agents », divisant une tâche en plusieurs sous-projets, les attribuant automatiquement à différents agents spécialisés pour un suivi et un traitement, réduisant ainsi le temps de traitement des tâches et évitant le risque d'effondrement de l'ensemble du projet dans un flux de tâches séquentielles.

Démonstration des capacités du cluster d'agents de Kimi K2.6

Dans la nouvelle version K2.6, cette capacité est encore amplifiée, intégrant et traitant en parallèle la recherche large et l'exploration en profondeur, l'analyse de documents à grande échelle et la réaction de longs textes, ainsi que la génération de contenu multi-format, prenant en charge jusqu'à 300 sous-agents exécutant parallèlement 4000 étapes de collaboration.

Pour résumer brièvement les points forts de Kimi K2.6, on peut citer : l'évolution des capacités de code et des tâches longues, l'évolution des capacités des clusters d'agents et l'optimisation de l'adaptation aux frameworks d'agents mainstream.

Si je devais choisir une préférence personnelle parmi ces caractéristiques fonctionnelles, je dirais que le cluster d'agents est la capacité la plus précieuse, car elle matérialise directement la capacité explosive du calcul parallèle – que ce soit le code ou la stabilité des tâches longues, ce sont des choses que le modèle doit faire de toute façon pour itérer. Plus important encore, sur la base de ces améliorations de capacités, il pousse l'innovation dans les modes de travail, l'efficacité et même les modes d'interaction des agents.

Après tout, en tant qu'utilisateur, ce que je veux, ce n'est pas qu'il me dise ce qu'il peut faire, mais qu'il pilote des agents pour résoudre mes problèmes concrets et crée une productivité effective.

Lors de la sortie de K2.5, un chercheur universitaire a commencé à utiliser ce modèle pour mener des projets de recherche. Son évaluation à l'époque était qu'il n'avait pas de point faible et pouvait servir d'assistant de recherche.

« Les multi-agents fournis officiellement sont vraiment efficaces, l'année dernière, beaucoup d'agents chinois n'étaient encore que des jouets. »

Si les évaluations internes et externes de Kimi K2.5 étaient déjà bonnes, à quel point K2.6, qui va encore plus loin, sera-t-il efficace ?

Classement intelligent Artifacial Analysis, Kimi K2.6 se classe juste après trois modèles privateurs et mène le classement des poids des modèles open source

La « nouvelle histoire » dans la feuille de route

Kimi surprend toujours l'industrie avec de nouvelles idées, y compris celles mentionnées dans la feuille de route évoquée par Yang Zhilin lors de sa conférence : MuonClip, Kimi Linear, Attention Residuals. Certaines de ces explorations ont même reçu des retours positifs de la part des leaders du secteur.

Mi-mars, Kimi a publié l'article de recherche sur les Attention Residuals, proposant d'utiliser le mécanisme d'attention pour remodeler les connexions résiduelles. Musk a directement tweeté en disant que c'était « une avancée impressionnante de Kimi ».

Le week-end dernier, Kimi a publié un nouvel article de recherche intitulé « Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter » (PrfaaS, Préremplissage en tant que Service), évoquant de nouvelles explorations architecturales de Kimi, discutant toujours au cœur de la séparation PD (Prefill et Decode).

La séparation PD n'est pas un nouveau sujet – la phase Prefill de l'inférence du modèle est une tâche intensive en calcul, tandis que la phase Decode dépend de la bande passante mémoire, la mémoire devant lire et écrire来回 le KV Cache – cette architecture vise à découpler les tâches intensives en calcul et les tâches intensives en bande passante, améliorant ainsi l'utilisation et le débit de calcul, et réduisant les coûts.

Bien que la séparation PD soit avantageuse, elle a aussi un point bloquant : elle doit reposer sur un réseau RDMA haute vitesse dans le même datacenter.

L'article PrfaaS de Kimi a pour point central : basé sur un modèle hybride (Kimi Linear) réduisant considérablement le volume du cache KV, puis découplant complètement le Prefill et le Decode vers différents clusters hétérogènes.

L'exemple expérimental mentionné dans l'article montre que le cluster dédié au préremplissage PrfaaS utilise 32 H200, spécialisés dans le calcul haute performance ; le cluster local de décodage PD utilise 64 GPU H20 interconnectés via un réseau interne RDMA ; les deux clusters sont connectés via une ligne dédiée VPC, la bande passante totale inter-clusters étant d'environ 100 Gbps. Le modèle testé est un modèle d'attention hybride Kimi Linear avec 1T de paramètres.

Les résultats des tests montrent que la solution PrfaaS‐PD inter-datacenters, comparée à une solution PD classique utilisant 96 cartes H20 dans le même cluster, améliore le débit de 54 %, réduit le P90 TTFT (le temps d'attente pour 90 % des utilisateurs, entre l'envoi de la requête et la réception du premier caractère) de 9,73 s à 3,51 s, soit une réduction de 64 %, et la bande passante de transmission du cache KV inter-datacenters n'utilise que 13 % de la bande passante totale de 100 Gbps.

Comparaison du débit KV entre les modèles à architecture hybride et les modèles denses à différentes longueurs de contexte

Pour prouver l'avantage de l'architecture de modèle hybride, l'article mentionne une série d'expériences : sur 8 cartes H200 et avec le framework d'inférence SGLang v0.5.9, des tests de référence ont été effectués sur plusieurs modèles mainstream. Pour une longueur de contexte de 32K, le débit KV du modèle MiMo‐V2‐Flash utilisant l'attention hybride n'était que de 4,66 Gbps, tandis que le modèle d'attention dense de même échelle MiniMax‐M2.5 atteignait 59,93 Gbps, prouvant directement que l'architecture d'attention hybride peut réduire les besoins de transmission du cache KV à une plage pouvant être supportée par Ethernet standard.

« Datacenters croisés + matériel hétérogène, déverrouillant le potentiel de réduction significative du coût par token. » a déclaré Kimi sur son compte officiel.

Concernant la réduction des coûts par Token, j'en ai parlé dans l'article « Le peuple pense à DeepSeek », il y a une marge d'optimisation au niveau du modèle et du matériel. Le professeur Hu Yanping de l'Université de Finance et d'Économie de Shanghai a spécialement posté un message sur son moment WeChat, soulignant que la réduction des coûts ne peut pas reposer uniquement sur un seul DeepSeek. « La solution du problème dépend de l'efficacité coût de l'offre de calcul, de l'amélioration intergénérationnelle de la qualité des modèles, de l'avancement continu des paradigmes d'intelligence, des effets d'amplification de la circulation des flux de travail et des scénarios, etc. »

Sous cet angle, Kimi raconte une nouvelle histoire de réduction des coûts par Token à l'industrie.

Les modèles chinois appellent les puces chinoises

Dans l'article sur le préremplissage en tant que service, la plupart des gens n'ont remarqué que le récit inter-datacenters, ignorant le point sur le matériel hétérogène.

Il est important de noter que les H200 et H20 sont toujours basés sur l'architecture Hopper. L'hétérogénéité mentionnée dans l'article fait référence à l'hétérogénéité en termes de bande passante et de puissance de calcul. Son enseignement est le suivant : nous pouvons utiliser une partie des cartes chinoises puissantes en calcul pour faire le Prefill, ou des cartes chinoises à forte bande passante pour faire le Decode, et bien sûr, les mélanger avec des cartes étrangères pour réaliser des économies et améliorer l'efficacité.

On peut dire que c'est une porte que Kimi ouvre à la puce chinoise pour l'inférence des grands modèles.

De l'avis d'un expert en calcul chinois, pour capter ce flux favorable apporté par ce type de solution de préremplissage en tant que service, il faut encore faire face à ce vieux problème qu'est l'écosystème.

Au cours des dernières années, les grands modèles chinois ont été bloqués hors du calcul national à cause des difficultés de l'écosystème, mais il y a un autre détail passé inaperçu : des produits comme le H20 sont coupés depuis un an. En d'autres termes, à court terme, il n'y a qu'une seule option pour les puces d'inférence : les puces nationales.

Avec l'explosion de la demande d'inférence, comparé au problème d'approvisionnement, le défi de l'écosystème deviendra secondaire – la dépendance des grands modèles chinois vis-à-vis du calcul national est passée de « utilisable ou non » à « indispensable ». C'est aussi pour cette raison que de nombreuses prédictions discutent de l'adaptation de DeepSeek V4 au calcul national.

Dans « La dernière lettre de rappel pour DeepSeek » que j'ai co-écrite avec le professeur Hu Yanping, nous disions que l'adaptation au calcul national est une voie très difficile pour les modèles chinois, mais qu'à long terme, elle doit être faite. Une chose qui doit être faite doit bien avoir un point de départ, et peut-être que DeepSeek V4 sera ce point de départ.

Maintenant, DeepSeek V4 n'est pas encore arrivé, et Kimi a déjà utilisé sa propre pratique pour explorer une voie viable pour l'union des modèles chinois et des puces chinoises.

Kimi, en tant que représentant des modèles, tend率先 la main en premier, le problème est maintenant confié aux startups de puces chinoises.

Vous souvenez-vous de la réaction de Huang Renxun dans le dernier podcast de « the Dwarkesh Podcast » lorsqu'on lui a demandé à propos de l'interdiction d'exporter des puces vers la Chine ? Il a dit que les puces ne sont pas de l'enrichissement d'uranium, que l'embargo ne peut pas arrêter les progrès des puces chinoises, et qu'ils peuvent toujours développer des modèles par empilement violent de puces nationales.

Pourquoi Huang Renxun dit-il cela ? La prochaine étape de DeepSeek et Kimi est la réponse standard.

Cet article provient du compte officiel WeChat « Tencent Technology », auteur : Su Yang, éditeur : Xu Qingyang

Questions liées

QQuelles sont les principales améliorations apportées par le modèle K2.6 de Kimi par rapport à la version précédente ?

AKimi K2.6 présente des améliorations significatives dans les capacités de codage, le traitement des tâches de longue durée et l'optimisation des clusters d'agents. Il permet un codage ininterrompu pendant 13 heures, une augmentation d'environ 20 % sur le benchmark interne Kimi Code Bench, et prend en charge jusqu'à 300 sous-agents travaillant en parallèle sur 4000 étapes de collaboration.

QComment Kimi aborde-t-il la réduction des coûts par token via son architecture innovante ?

AKimi propose une architecture PrfaaS (Prefill-as-a-Service) qui sépare Préremplissage et Décodage sur des clusters hétérogènes, utilisant des GPU à haute puissance de calcul (comme H200) pour le préremplissage et des GPU à bande passante élevée (comme H20) pour le décodage. Cela réduit la transmission du cache KV et améliore l'efficacité, permettant une baisse significative du coût par token.

QQuel est le rôle des puces chinoises dans le développement des modèles d'IA comme Kimi et DeepSeek ?

AFace aux restrictions d'approvisionnement en puces étrangères, les modèles chinois comme Kimi et DeepSeek doivent de plus en plus s'appuyer sur des puces domestiques. Kimi a montré que des architectures innovantes (comme PrfaaS) permettent une utilisation hétérogène de matériel, ouvrant la porte à l'intégration de puces chinoises pour le préremplissage ou le décodage, malgré les défis liés à l'écosystème.

QQu'est-ce que l'architecture Agent Cluster de Kimi et pourquoi est-elle importante ?

AL'Agent Cluster de Kimi permet de décomposer une tâche complexe en sous-tâches assignées à différents agents spécialisés travaillant en parallèle. Cette approche améliore l'efficacité, la stabilité et évite l'échec total du projet en cas de problème sur une tâche. K2.6 étend cette capacité à 300 sous-agents et 4000 étapes de collaboration, ce qui en fait un outil puissant pour la productivité.

QQuelle est la signification de la 'PD Separation' (séparation Préremplissage-Décodage) dans les modèles de Kimi ?

ALa PD Separation consiste à dissocier la phase de Préremplissage (calcul intensif) de la phase de Décodage (dépendante de la bande passante mémoire) dans l'inférence des modèles. Kimi pousse cette séparation plus loin avec PrfaaS, en utilisant des clusters différents et même des centres de données distincts pour chaque phase, optimisant ainsi l'utilisation du matériel et réduisant la latence.

Lectures associées

Après To C et To B, la prochaine tendance s'appelle To A

**Pivot vers le « To A » : Quand les agents IA deviennent les nouveaux clients des géants de l'Internet** Une semaine après que Wang Xing, le PDG de Meituan, ait déclaré que servir les agents IA (« To A ») devenait aussi important que de servir les consommateurs (To C) ou les entreprises (To B), un réalignement majeur se produit dans la tech chinoise et mondiale. L'ère où les utilisateurs ouvraient des applications spécifiques pour chaque besoin (commander, acheter, réserver) cède la place à un modèle où un agent IA unique exécute des tâches complexes sur simple instruction verbale. Face à cette redistribution des cartes, les alliances se multiplient pour sécuriser une place dans cette nouvelle chaîne de valeur « To A » : * **Les super-portails** (comme Tencent Yuanbao, WeChat, ChatGPT) cherchent à devenir le point d'entrée unique de l'utilisateur, en intégrant des services tiers (livraison, e-commerce, voyages). * **Les fournisseurs de services** (Meituan, JD.com, Alibaba) transforment leurs applications en « capacités » pouvant être appelées par ces agents, risquant sinon d'être contournés. * **Les fabricants de smartphones** (Huawei, Xiaomi, etc.) développent des assistants IA système, positionnant l'appareil comme l'entrée ultime qui aiguille les demandes. Contrairement aux guerres commerciales passées, cette transition pousse à des partenariats inédits (Meituan avec Tencent, JD.com avec Tencent et des fabricants de téléphones) pour contrôler la « position de recommandation » de l'agent. Cependant, cette coopération est fragile. Un conflit d'intérêts latent existe : un portail dominant pourrait-il, à terme, court-circuiter les plateformes agrégatrices en connectant directement les fournisseurs finaux (restaurants, hôtels) ? De plus, le modèle « To A » soulève des questions non résolues : la recommandation par l'IA dégénérera-t-elle en un nouveau système de classement payant ? Qui sera responsable en cas d'erreur de l'agent ? Malgré ces incertitudes, la course est lancée. Dans cette reconfiguration, le plus grand risque n'est pas de perdre la course, mais de ne pas avoir entendu le coup de départ.

marsbitIl y a 3 mins

Après To C et To B, la prochaine tendance s'appelle To A

marsbitIl y a 3 mins

Plus les robots sont réalistes, plus ils sont effrayants ? Découvrez l'"effet de la vallée de l'étrange" à l'ère des robots humanoïdes

L'auteur Dean Fankhauser, via une compilation par Felix et PANews, explore le concept de la "vallée de l'étrange" (uncanny valley) dans le contexte des robots humanoïdes. Ce phénomène psychologique, théorisé par le roboticien japonais Masahiro Mori en 1970, décrit comment l'acceptation humaine d'un robot augmente avec son réalisme, puis chute brusquement lorsqu'il est presque - mais pas parfaitement - humain. Des imperfections subtiles dans les mouvements, les expressions faciales ou le regard deviennent alors dérangeantes, créant un malaise instinctif. L'article illustre ceci par des exemples comme le robot R2-D2 (bien accepté car clairement mécanique), le film *The Polar Express* (critiqué pour ses personnages presque réalistes) et le robot Sophia de Hanson Robotics (divisant le public). Le malaise provient d'un conflit cognitif où le cerveau, programmé pour décrypter les signaux sociaux humains, détecte des incohérences. Face à ce défi, les entreprises adoptent différentes stratégies. Certaines, comme Boston Dynamics, évitent délibérément le réalisme humain pour des designs mécaniques. D'autres, comme Hanson Robotics, poursuivent la ressemblance malgré le risque. Pour les robots domestiques, la plupart optent pour des apparences stylisées ou clairement artificielles pour une meilleure acceptation. L'article conclut que la vallée de l'étrange pourrait s'atténuer avec le temps, grâce aux progrès techniques permettant un réalisme parfait, et à une familiarisation croissante des nouvelles générations avec ces machines. Il souligne que la réussite de l'intégration des robots dépend autant de la compréhension de la psychologie humaine que des avancées technologiques.

marsbitIl y a 7 mins

Plus les robots sont réalistes, plus ils sont effrayants ? Découvrez l'"effet de la vallée de l'étrange" à l'ère des robots humanoïdes

marsbitIl y a 7 mins

Humanity s'est fait voler plus de 31 millions de dollars, l'équipe prépare-t-elle le terrain pour un nouveau projet ?

L'écosystème crypto est secoué par un nouveau piratage majeur. Humanity Protocol a subi une attaque entraînant le vol de plus de 31 millions de dollars, provoquant un effondrement de plus de 90% du prix de son jeton H. Le fondateur Terence Kwok a attribué l'incident à la fuite d'une clé privée d'un membre de la fondation. Cependant, l'enquêteur ZachXBT et d'autres membres de la communauté émettent de sérieux doutes. Ils suspectent que cet "incident" pourrait être une manœuvre orchestrée par l'équipe elle-même pour réaliser des profits, plutôt qu'un piratage externe. Cette suspicion est renforcée par les antécédents controversés de plusieurs membres clés de l'équipe Humanity, impliqués dans des affaires passées de mauvaise gestion financière et de pratiques douteuses. Parallèlement, il est révélé que la même équipe est déjà activement impliquée dans le lancement et le financement d'un nouveau projet appelé "Everything". Cela alimente la théorie selon laquelle l'événement actuel pourrait être une stratégie pour abandonner Humanity Protocol et ses détenteurs de jetons, tout en se concentrant sur un nouveau départ. En somme, l'affaire oscille entre une fuite de sécurité classique et un possible "rug pull" déguisé, jetant une lumière crue sur les risques opaques et les conflits d'intérêts potentiels dans l'industrie. Les utilisateurs sont invités à la plus grande prudence.

Odaily星球日报Il y a 1 h

Humanity s'est fait voler plus de 31 millions de dollars, l'équipe prépare-t-elle le terrain pour un nouveau projet ?

Odaily星球日报Il y a 1 h

Le prochain Alibaba qu'attendait Masayoshi Son, ruiné par de belles histoires

**Résumé en français :** Après des années marquées par des échecs retentissants comme WeWork et des pertes colossales pour le Vision Fund, Masayoshi Son, le fondateur de SoftBank, opère un retour en force grâce à l'essor de l'IA. Sa fortune personnelle a dégringolé de 700 milliards de dollars après l'éclatement de la bulle Internet en 2000, avant d'être sauvée par le succès historique d'Alibaba. Cependant, sa stratégie de paris extrêmes sur des startups à la croissance rapide mais non rentables (Uber, Oyo, etc.) l'a conduit à une nouvelle crise profonde en 2022, le poussant à une période de doute et de retrait. Aujourd'hui, Son est à nouveau porté par le marché. Deux investissements visionnaires, effectués bien avant la frénésie actuelle, portent leurs fruits : l'acquisition d'Arm en 2016, dont la valeur a explosé avec la demande en semi-conducteurs pour l'IA, et les investissements massifs dans OpenAI. SoftBank a investi des dizaines de milliards de dollars dans le créateur de ChatGPT, détenant désormais environ 13% du capital, avec des plus-values déjà considérables. Ces actifs liés à l'IA ont fait grimper la valeur de SoftBank et ont ramené Masayoshi Son au sommet du classement des fortunes asiatiques. Son histoire illustre un cycle récurrent : de chutes vertigineuses provoquées par des paris trop audacieux sur des "histoires", il rebondit grâce à quelques coups de maître anticipant les ruptures technologiques majeures, comme l'internet, le mobile, et désormais l'intelligence artificielle.

marsbitIl y a 1 h

Le prochain Alibaba qu'attendait Masayoshi Son, ruiné par de belles histoires

marsbitIl y a 1 h

WeChat Agent lance "l'appel des héros", la moitié de l'internet chinois répond

L'agent IA de WeChat arrive véritablement. La plateforme ouverte de WeChat a publié un guide pour les développeurs concernant l'intégration à son écosystème d'IA. L'objectif est d'offrir des expériences interactives plus intelligentes et de faciliter la découverte des services via les mini-programmes. Deux modes d'intégration sont proposés : automatique (lecture du code source lors de la soumission) et développeur (personnalisation avancée). Déjà, des acteurs majeurs comme Meituan, Ctrip et Tongcheng ont annoncé leur intégration. Cet agent IA, actuellement en test, permettrait d'effectuer des tâches complexes en langage naturel en pilotant les mini-programmes de l'écosystème WeChat (commandes de nourriture, réservations, etc.). Il tirerait parti du contexte riche de WeChat (relations sociales, historique de chat, paiements) pour mieux comprendre les intentions. Techniquement, il s'appuie sur des modèles comme UI-Oceanus pour simuler les interactions et sur une approche de "Co-Design" interne permettant de mutualiser les capacités développées sur d'autres produits IA de Tencent (Yuanbao, WorkBuddy, ima...). Tencent privilégie la voie du protocole A2A (Agent-to-Agent) pour une intégration contrôlée avec les assistants des fabricants de smartphones (comme Honor), rejetant les approches GUI qui simuleraient des clics. La question du coût de traitement pour 1,4 milliard d'utilisateurs mensuels actifs est cruciale. Le récent investissement et le partenariat avec DeepSeek semblent viser à fournir une infrastructure de calcul à bas coût. Pour Tencent, l'IA WeChat n'est pas une course aux benchmarks, mais la recherche d'une "bonne question" : apporter une valeur utilitaire tangible à ses utilisateurs dans leur vie quotidienne, faisant ainsi entrer pleinement le groupe dans la seconde moitié de l'ère de l'IA.

marsbitIl y a 1 h

WeChat Agent lance "l'appel des héros", la moitié de l'internet chinois répond

marsbitIl y a 1 h

Trading

Spot
Futures
活动图片