La guerre sans nom unifié : la cartographie mondiale des modèles des grandes entreprises chinoises

marsbitPublié le 2026-06-25Dernière mise à jour le 2026-06-25

Résumé

Le terme « modèle du monde » n’a pas encore de désignation unique dans l'industrie. Chaque grand acteur développe sa propre version sous différents noms : modèle du monde, modèle physique d'IA, ou intégré dans des systèmes de conduite autonome, de VLA ou d'intelligence incarnée. L'objectif commun est de permettre aux machines de créer un environnement dynamique interne, simulable et rejouable, réduisant ainsi la dépendance aux données réelles et transformant le monde physique en un moteur de données génératif et infini. Les géants d'Internet comme Alibaba, Tencent, ByteDance, Huawei et Baidu explorent divers aspects, des mondes langagiers et virtuels aux reconstructions 3D et jumeaux numériques, souvent en lien avec leurs écosystèmes (jeux, réseaux sociaux, cloud). Les constructeurs automobiles (NIO, Li Auto, XPeng, Geely, etc.) l'utilisent comme un « simulateur de conduite » avancé pour générer des scénarios complexes, entraîner les systèmes de pilotage autonome et accélérer les itérations. Les fournisseurs de solutions de conduite autonome (Momenta, Horizon Robotics, Haomo.ai, etc.) en font un « moteur invisible » intégré à leurs plateformes, visant une validation massive et la future norme L4. Les startups, bien qu'agiles et innovantes, manquent souvent de données, de puissance de calcul et de débouchés industriels comparés aux grands groupes. Ces derniers transforment progressivement le modèle du monde d'un projet de R&D en une infrastructure opérationnelle au cœur de l...

Le terme de modèle du monde n'a pas encore de carte de visite unifiée dans l'industrie. Certains l'appellent modèle du monde, d'autres modèle de base du monde, d'autres encore IA physique, et certains le cachent dans l'architecture des grands modèles de conduite autonome, des VLA ou des systèmes d'intelligence incarnée sans le nommer séparément.

Qwen-AgentWorld, HappyOyster et Qwen-RobotWorld d'Alibaba ciblent respectivement le monde du langage, le monde virtuel et le monde physique ; HY-World de Tencent s'oriente plutôt vers un monde 3D éditable ; les constructeurs automobiles préfèrent parler de modèle du monde de conduite ou de modèle de comportement du monde ; Huawei et Baidu ne prononcent tout simplement pas les quatre mots 'modèle du monde' séparément.

Derrière cette confusion de nomenclature, tout le monde fait en réalité la même chose :

Permettre à la machine de construire d'abord un environnement dynamique, pouvant être simulé et analysé, avant d'agir réellement, réduisant la dépendance infinie aux données réelles, compressant le monde réel en un moteur de données capable de générer, d'échouer et de recommencer indéfiniment.

Alors que les startups s'inquiètent encore des droits de collecte de données et des budgets de puissance de calcul, Alibaba, Tencent, Huawei, NIO, Xpeng et Li Auto ont déjà discrètement transformé le modèle du monde en une nouvelle piste de course.

Le modèle du monde est une ambition : faire dépasser à l'IA la simple reconnaissance du monde, en le simulant d'abord dans son esprit.

Les fabricants de conduite autonome veulent l'utiliser pour générer des 'examens' sur la pluie, la neige ou les obstacles atypiques ; les équipes d'intelligence incarnée veulent l'utiliser pour faire tomber des robots des milliers de fois en simulation avant qu'ils ne sortent ; les entreprises de jeux et de réseaux sociaux veulent l'utiliser pour créer un univers parallèle où les humains peuvent s'immerger.

Les grandes entreprises entrent en scène avec des approches différentes, mais le but central est le même : compresser le monde réel en un moteur de données pouvant être simulé et analysé à l'infini.

I. Les géants de l'Internet :

Du monde numérique au monde physique

La stratégie d'Alibaba en matière de modèles du monde ressemble le plus à 'exposer ses produits un par un sur l'étagère'.

En juin 2026, elle a jeté trois cartes coup sur coup en l'espace de quelques jours :

La série Qwen-Robot le 16 juin, HappyOyster 1.0 le 17 juin, et Qwen-AgentWorld le 24 juin.

Qwen-AgentWorld est un modèle natif du monde du langage. Il ne génère pas d'images, mais des environnements — dans sept environnements (outils MCP, recherche, terminal, ingénierie de code, Web, système d'exploitation, Android), le modèle peut simuler des interactions réelles, apprendre de manière autonome et se perfectionner par apprentissage par renforcement. Il propose deux tailles : une architecture MoE de 35B et 397B paramètres totaux, avec respectivement 3B et 17B paramètres activés ; les données d'entraînement proviennent de plus de 10 millions de trajectoires d'interaction en environnement réel ; le modèle et le benchmark d'évaluation AgentWorldBench ont tous deux été open source. Cela revient à considérer le modèle du monde comme un 'terrain d'entraînement' pour les agents, et non comme un 'accessoire'.

HappyOyster 1.0 adopte un visage différent, ressemblant davantage à un 'plateau de tournage jouable' : l'utilisateur donne une phrase ou une image, et il génère un monde ouvert, permettant à l'utilisateur d'intervenir à sa guise dans deux modes : 'exploration du monde' et 'réalisation en temps réel'. Le mode exploration prend en charge des déplacements continus en temps réel et un contrôle de caméra jusqu'à 1 minute, tandis que le mode réalisation peut générer plus de 3 minutes de vidéo en temps réel en 480p/720p. Alibaba le positionne comme une porte d'entrée pour les secteurs des jeux interactifs, de l'accompagnement virtuel, des mini-séries interactives et des expériences touristiques culturelles.

Qwen-RobotWorld s'oriente vers une autre direction. C'est le 'cerveau pensant' de la trilogie d'intelligence incarnée d'Alibaba, travaillant en synergie avec le modèle d'opération VLA Qwen-RobotManip et le modèle de mobilité VLN Qwen-RobotNav, avec pour objectif de donner aux robots un monde intérieur pouvant être prémédité.

Ces trois éléments combinés montrent qu'Alibaba cherche simultanément à définir le monde du langage, le monde virtuel et le monde physique.

Hunyuan de Tencent emprunte un autre chemin. Sa série HY-World ressemble davantage à la construction d'une 'usine automatique de jeux 3D'.

En juillet 2025, Tencent a publié en open source le modèle du monde 3D Hunyuan 1.0 lors du WAIC ; mis à niveau en 1.5 en décembre ; et a publié et ouvert en open source HY-World 2.0 en avril 2026. L'entrée peut être du texte, une image unique, plusieurs images, une vidéo ou même un modèle blanc, et la sortie peut être en 3DGS, Mesh ou nuage de points.

La version 2.0 a introduit des modules tels que HY-Pano 2.0, WorldNav, WorldStereo 2.0, WorldMirror 2.0, créant une boucle fermée reliant la génération, la reconstruction, les panoramiques et la génération en temps réel du monde.

L'avantage de Tencent réside dans les scénarios de jeux et de réseaux sociaux. Les vrais utilisateurs d'HY-World ne sont pas ceux qui entraînent la conduite autonome, mais ceux qui créent des niveaux de jeu, réalisent des tournages virtuels ou des jumeaux numériques.

Le projet de modèle du monde de ByteDance ressemble quant à lui à une 'marche secrète' portant les gènes des données vidéo courtes.

En août 2025, The Information a révélé que l'équipe Seed de ByteDance développait un modèle du monde, dirigé par Zhou Chang, ancien membre clé de Tongyi Qianwen. L'atout majeur de ce projet est le flux quotidien de plus de 10 milliards de vidéos sur Douyin et TikTok, ainsi que le cadre EX-4D — capable de transformer une vidéo monoculaire en scènes multivues 4D. Il vise des modèles comme Google Genie 3 et Meta V-JEPA 2, avec pour objectif non pas de créer un simple générateur de vidéos, mais de construire un 'jumeau numérique' capable de simuler les lois physiques.

Lors de la conférence FORCE Momentum de Volcano Engine le 23 juin 2026, ByteDance n'a pas directement publié ce modèle du monde, mais a dévoilé la série Doubao Seed 2.1, le modèle de génération vidéo Seedance 2.5, le modèle de génération d'images Seedream 5.0 Pro et un nouveau modèle de génération audio.

Et le reportage exclusif de 36Kr résume la stratégie d'IA de ByteDance pour 2026 en quatre propositions : que son modèle du monde atteigne le SOTA mondial d'ici la fin de l'année, que Seedance explore la génération dynamique, consolider les bases du codage et accélérer la commercialisation de Doubao.

Cela signifie que le modèle du monde est la première proposition en interne chez ByteDance, mais l'entreprise a choisi de laisser d'abord Seedance et Doubao sur le devant de la scène, tout en continuant à préparer son coup majeur en secret.

Le modèle du monde Pangu de Huawei dégage une aura 'discrète mais redoutable'.

Lors de la conférence des développeurs de juin 2025, Huawei a publié le grand modèle Pangu, basé sur le grand modèle multimodal Pangu, avec une capacité centrale à générer des espaces physiques numériques haute précision à partir d'une seule image. Il peut prédire les collisions, entraîner des bras robotisés à saisir, générer des vidéos de conduite et des nuages de points lidar, aidant le modèle de bout en bout d'ADS de Huawei à réaliser 'une version tous les deux jours'.

Huawei n'a pas crié le slogan 'modèle du monde', mais l'a plutôt traité comme une 'base d'entraînement' pour la voiture intelligente et l'intelligence incarnée. La collaboration avec GAC est un cas typique : une correspondance pixel à pixel entre la vidéo 2D et le nuage de points 3D, permettant de reconstituer des cas complexes en quelques minutes.

Lors du HDC 2026 en juin 2026, Huawei a fait passer le grand modèle Pangu en version 7.0 et a publié l'Ascend 910C. Yu Chengdong a repris la direction de Pangu, mais il n'y a pas eu de nouvelles informations sur une nouvelle version du modèle du monde lui-même.

Cette approche où le 'modèle du monde n'existe pas séparément, mais sert une boucle industrielle fermée' est caractéristique du style constant de Huawei.

Baidu est entré plus tôt dans le domaine de la conduite autonome, avec la publication en mai 2024 d'Apollo ADFM, positionné comme 'le premier grand modèle de conduite autonome au monde supportant la conduite sans conducteur de niveau L4'.

Bien que Baidu ne l'ait pas nommé modèle du monde, il possède essentiellement les fonctions d'un modèle du monde : comprendre le monde physique et prédire le comportement des participants à la circulation via un réseau neuronal de bout en bout. En novembre 2025, le grand modèle ERNIE 5.0 a été dévoilé sous une forme native entièrement modale, avec une échelle de paramètres atteignant 2400 milliards ; la version officielle est lancée en janvier 2026.

La capacité de modèle du monde de Baidu est déjà intégrée dans un plan plus vaste. La stratégie de Baidu est de ne pas parler séparément du modèle du monde, mais de laisser Apollo et ERNIE se compléter.

Xiaomi et SenseTime représentent deux 'approches techniques'.

Xiaomi OneVL, open source le 13 mai 2026, unifie le VLA, le modèle du monde et le raisonnement en espace latent dans un même cadre, mettant l'accent sur l'explicabilité du processus de raisonnement visuel, créant un composant de base utilisable pour la conduite autonome et l'intelligence incarnée.

Le 'Kaiwu' de SenseTime Jueying ressemble davantage à un 'conducteur expérimenté' déjà en poste. Dans un rapport de Frost & Sullivan de septembre 2025, il est défini comme le premier modèle du monde industriel déjà en production, interactif, capable de générer des vidéos de conduite de 150 secondes, 1080P, 11 points de vue, et ayant constitué le plus grand ensemble de données génératives de conduite WorldSim-Drive et une bibliothèque de scènes génératives de dizaines de millions d'unités.

En juin 2026, Daxiao Robotics, fondé par Wang Xiaogang, co-fondateur de SenseTime, a annoncé avoir levé des centaines de millions de dollars en financement. Son modèle du monde Kairos 3.0 occupe la première place dans quatre grands classements de génération et de prédiction pour la génération de vidéos incarnées, le suivi des instructions de tâches, etc.

Le modèle du monde de SenseTime s'étend de la voiture intelligente aux robots.

II. Constructeurs automobiles :

Transformer le modèle du monde en auto-école et en salle d'examen

Si les modèles du monde des grandes entreprises Internet consistent à 'créer des mondes', alors ceux des constructeurs automobiles consistent à 'utiliser des mondes'.

NIO est le constructeur automobile chinois qui a le premier brandi le modèle du monde comme un drapeau.

Lors du NIO IN de juillet 2024, Ren Shaoqing a présenté NWM (NIO World Model), positionné comme le premier modèle du monde de conduite intelligente en Chine.

Il adopte une architecture générative autorégressive multivariée, faisant deux choses : la 'reconstruction imaginative' dans l'espace et la 'simulation imaginative' dans le temps.

Donnez-lui une scène réelle, il peut reconstruire un monde 3D ; donnez-lui une indication de trois secondes, il peut générer plus de deux minutes de vidéo future. Toutes les 0,1 seconde, il simule 216 trajectoires et sélectionne la solution optimale.

La logique de NIO est claire : un modèle de bout en bout ne suffit pas, un véritable système de conduite intelligente intelligent doit pouvoir 'imaginer les conditions routières les yeux fermés' comme un humain. Le 18 juin 2026, NIO a officiellement diffusé la nouvelle version NWM 2.0, couvrant plus de 700 000 utilisateurs de toute sa gamme, les propriétaires anciens ayant acheté il y a quatre ans bénéficiant également d'une mise à niveau gratuite, les quatre grands systèmes de véhicule Banyan, Cedar, Coconut+ étant publiés simultanément. La nouvelle version réalise pour la première fois en Chine une sortie directe du modèle de conduite intelligente des signaux bruts du volant et des pédales d'accélération/freinage, et améliore le système d'entraînement de 'modèle du monde + apprentissage par renforcement en boucle fermée' à un système à trois couches : 'modèle du monde + ajustement fin supervisé + apprentissage par renforcement en boucle fermée'. La couverture des scénarios AEB est 6,7 fois supérieure à l'AEB standard, avec une probabilité de freinage erroné réduite à une fois tous les cent mille kilomètres.

La puce Shenji NX9031 est même décrite comme 'conçue naturellement pour le modèle du monde'.

Li Auto a proposé en deuxième moitié de 2024 une approche de modèle du monde 'reconstruction + génération' et a publié DrivingSphere à la CVPR 2025.

Il se compose du modèle de diffusion OccDreamer et du VideoDreamer ST-DiT, construisant un environnement de simulation en boucle fermée 4D haute fidélité.

La simulation en boucle ouverte traditionnelle ne peut évaluer que ce que le modèle 'voit', tandis que la simulation en boucle fermée peut évaluer ce que le modèle 'fait'. Le modèle du monde de Li Auto est comme une salle d'examen capable de générer des questions pièges à l'infini, permettant au système de conduite intelligente de s'entraîner d'abord sur des scénarios complexes dans la puce.

Lors du Livis Day en juin 2026, Li Auto a encore amélioré cette capacité pour la transformer en 'VLA Mach', une architecture MoE multimodale native unifiant la perception, la prédiction et la planification, avec une puissance de calcul de 2560 TOPS sur deux puces M100 côté véhicule et un temps de réaction de 0,28 seconde.

Selon la feuille de route publiée par Li Auto, un tout nouveau VLA Mach sera diffusé aux utilisateurs AD Max au troisième trimestre, avec pour objectif au quatrième trimestre d'aligner Tesla FSD V14. Li Auto n'est plus seulement une entreprise automobile ; elle se façonne en fournisseur d'un système d'intelligence incarnée Livis.

La voie de Xpeng Motors présente une progression 'd'abord grande, puis raffinée'.

En avril 2025, Xpeng a révélé pour la première fois lors d'une présentation technologique IA à Hong Kong qu'il développait un 'modèle de base du monde' de conduite autonome ultra-large de 72 milliards de paramètres.

Un an plus tard, le 1er avril 2026, Xpeng a officiellement publié le rapport technique du modèle du monde X-World.

Basé sur la technologie de génération de vidéos par diffusion, il modifie le paradigme de génération de vidéos en espace latent de WAN 2.2, utilisant un VAE 3D causal et un DiT avec attention temporelle et angulaire, supportant une génération cohérente sur 7 caméras surround à travers les angles de vue.

X-World n'est pas un outil de génération vidéo, mais le 'simulateur du monde réel' du VLA de deuxième génération de Xpeng : les scénarios de simulation sont passés de 30 000 il y a un an à plus de 500 000, les tests de simulation quotidiens équivalent à 30 millions de kilomètres de tests réels en véhicule, et il supporte l'apprentissage par renforcement en ligne et la génération de données pour l'étranger.

Lors de la CVPR en juin 2026, Xpeng a également montré pour la première fois la carte technologique complète du modèle du monde. L'ambition de Xpeng est écrite dans son champ d'application : voitures IA, robots IA, voitures volantes. Son objectif d'échelle de données d'entraînement est de 200 millions de clips, avec un cluster de dix mille cartes fournissant 10 EFLOPS de puissance de calcul, et une itération tous les 5 jours.

Geely Auto a présenté WAM (World Action Model) au CES 2026, et l'a intégré dans son système AI global 2.0.

L'architecture à plusieurs couches du WAM est intéressante : la couche supérieure est un grand modèle multimodal MLLM responsable de la compréhension, la couche inférieure est un expert en action responsable des mouvements, et au milieu se trouve le modèle du monde responsable de la simulation.

L'objectif de Geely n'est pas d'améliorer le modèle de conduite intelligente, mais de transformer le véhicule entier en 'un seul cerveau' — unifi-ant la conduite intelligente, l'habitacle, le châssis et la puissance. En avril 2026, le Zeekr 8X a été lancé et livré immédiatement, devenant le premier super-agent intelligent fusionnant conduite et habitacle à être produit en série en Chine, son G-ASD 4.0 étant basé sur WAM. L'objectif 2026 est le L3 sur autoroute et le L4 à basse vitesse.

Le modèle du monde de BYD est encore en phase de recherche préliminaire. Les informations divulguées en janvier 2025 indiquent qu'en interne, il a suivi la voie de Tesla, constituant une petite équipe pour des essais rapides, se concentrant sur la génération de données pour les cas complexes de conduite de bout en bout.

Great Wall a également proposé la direction de la prochaine génération de conduite intelligente VLA + modèle du monde, et est passé de la 'stratégie' à la 'production en série' : en juin 2026, lors de la conférence sur la conduite intelligente et l'expansion à l'étranger, Great Wall a partagé sa pratique du VLA. Le centre de calcul haute performance Jiuzhou à Baoding atteint 5 EFLOPS, avec plus de dix mille GPU. Le Tank 700 deviendra le premier modèle équipé du système Coffee Pilot 4.0 VLA, produit en série et monté sur véhicule en 2026. La flotte existante de plus de 2 millions de véhicules génère quotidiennement une quantité massive de données, ce qui est le patrimoine le plus solide de Great Wall par rapport aux nouveaux constructeurs automobiles.

III. Fournisseurs de conduite intelligente :

Le moteur mondial caché sous la voiture

En dehors des constructeurs automobiles, un groupe de fournisseurs a transformé le modèle du monde en un 'moteur invisible'.

Momenta a officiellement lancé le modèle du monde d'apprentissage par renforcement R7 lors du salon automobile de Pékin en avril 2026, et l'a mis en production en première mondiale.

Il s'agit d'une architecture à trois couches : pré-entraînement du modèle du monde, simulation du modèle du monde, apprentissage par renforcement. R7 est basé sur plus de 12 milliards de kilomètres parcourus en véhicule réel provenant des activités de production de Momenta, dont plus de 100 millions de segments de 'données en or' sont extraits pour le pré-entraînement. Le modèle traverse ensuite une quantité massive de scénarios marginaux en simulation, et est finalement perfectionné par apprentissage par renforcement.

Momenta l'intègre directement dans le modèle de base de bout en bout, avec pour objectif d'atteindre la norme L4. Les données commerciales gonflent également rapidement : les véhicules de série équipés des systèmes Momenta ont dépassé les 900 000 unités, plus de 100 modèles de série ont été livrés avec succès, plus de 210 modèles ont été désignés, et les solutions sont déployées dans plus de 10 pays et régions, dont le Royaume-Uni, la Norvège, Singapour et l'Australie/Nouvelle-Zélande.

En juin 2026, Momenta a obtenu l'approbation de la bourse de Hong Kong, visant une introduction en bourse en tant que 'première action d'IA physique' avec une part de marché de 65% dans le NOA urbain tiers. Cela démontre son engagement envers le modèle du monde.

Horizon Robotics a publié HorizonDrive en mai 2026, un modèle du monde autorégressif dont la capacité centrale est la génération de vidéos de conduite longues séquences à l'échelle de la minute.

Il utilise un video-VAE fonctionnant dans l'espace latent, prenant en entrée des cartes haute définition, des boîtes englobantes 3D et les actions du véhicule, puis sort des scénarios futurs continus.

L'atout d'HorizonDrive est son entraînement 'auto-correctif' : grâce aux technologies SRR et TRD, le modèle s'auto-corrige lorsqu'il génère des erreurs. Sur nuScenes, son FID est réduit de 52%, FVD de 37%, et la précision des trajectoires améliorée de 21% ; une seule RTX 5090 peut générer une vidéo 256×512 à 5,6 IPS, ou une vidéo 384×768 à 1,7 IPS. Son positionnement est la simulation de conduite autonome en boucle fermée, aidant les constructeurs à valider les systèmes L3+ sans conduire sur route.

DriveGPT de Haomo.ai est l'un des premiers projets en Chine à avoir crié le slogan 'modèle du monde'.

Le 'Xuehu · Hairuo' publié en avril 2023 est un grand modèle génératif de conduite autonome, construisant un espace de représentation 4D par prédiction d'image suivante. Il est soutenu par 10 milliards d'images Internet, 4,8 millions de clips 4D et 87 millions de kilomètres de conduite assistée.

La voie de Haomo est similaire à celle du World Model de Tesla et de GAIA-1 de Wayve : faire évoluer le grand modèle de conduite autonome de 'regarder des images' à 'regarder des vidéos', puis à 'prédire des vidéos'. Il fournit des capacités pour des scénarios comme les véhicules Great Wall Wey et les véhicules autonomes Xiaomo Tuo.

DeepRoute.ai a publié la plateforme DeepRoute IO 2.0 le 26 août 2025, équipée de son propre modèle VLA.

Lors du salon automobile de Pékin en avril 2026, DeepRoute a en outre publié sa technologie de modèle de base et sa stratégie d'IA physique, et révélé des données commerciales : les véhicules de série équipés de sa solution de NOA urbain ont dépassé les 300 000 unités. Au cours de la dernière année, les véhicules équipés du système de sécurité active de DeepRoute ont parcouru plus de 1,3 milliard de kilomètres sur routes réelles, accompagnant les utilisateurs pendant plus de 44,8 millions d'heures de conduite cumulées.

DeepRoute n'a pas nommé séparément un modèle du monde, mais dans le système de simulation et d'entraînement de DeepRoute IO 2.0, le modèle du monde est le noyau implicite.

IV. Startups et grandes entreprises :

Deux cartes, une même ville

Et ce tableau de déploiement des grandes entreprises est une autre carte.

Les deux cartes pointent vers une même ville : celui qui permettra à l'IA de vraiment comprendre le monde physique possédera l'entrée de la prochaine ère.

L'avantage des startups est la concentration et la rapidité.

Elles peuvent miser sur une voie radicale, comme le modèle du monde natif, la génération d'espace 3D, le moteur physique VLA, sans être entravées par des activités existantes. Mais elles manquent de données, de puissance de calcul, de canaux de production de masse, et surtout d'une boucle fermée de scénarios réels capable de nourrir continuellement le modèle du monde.

L'inconvénient des grandes entreprises est l'inertie organisationnelle et la confusion de nomenclature résultant de la concurrence de multiples départements — les trois projets de modèle du monde d'Alibaba laissent même les observateurs extérieurs confus quant à savoir s'il s'agit de la même chose. Mais les grandes entreprises disposent de données, de puissance de calcul, d'utilisateurs, de véhicules, et du système d'ingénierie pour faire fonctionner les modèles. Les startups créent des 'modèles', les grandes entreprises créent des 'systèmes'.

Le moment le plus dangereux est celui où les grandes entreprises transforment le modèle du monde d'un 'projet de recherche' en une 'base commerciale'. Le grand modèle Pangu de Huawei sert ADS et la robotique, HY-World de Tencent sert les jeux et l'industrie, DrivingSphere de Li Auto sert l'itération de la conduite intelligente, Kaiwu de SenseTime est déjà en production sur véhicules, Momenta R7 fonctionne déjà sur plus de 900 000 véhicules —

Ce ne sont pas des présentations PowerPoint de conférence, mais des 'capacités' entrant dans les lignes de production. Pour les startups, la fenêtre d'opportunité pour le modèle du monde se rétrécit. La concurrence future passera rapidement de 'qui peut créer un modèle du monde' à 'le modèle du monde de qui peut être utilisé de manière abordable et efficace par les grandes entreprises'.

V. Le modèle du monde n'est pas une tendance,

c'est une escalade d'une ancienne guerre

Le modèle du monde n'est pas une nouvelle histoire.

C'est le produit naturel de la convergence des grands modèles de langage, des modèles de génération vidéo, des modèles de conduite autonome de bout en bout et des modèles VLA pour robots dans le monde physique.

L'entrée massive des grandes entreprises montre que cette chose est passée d'un 'jouet pour technophiles' à une 'infrastructure industrielle'.

Alibaba, Tencent, ByteDance, Huawei, Baidu, Xiaomi, SenseTime construisent un pont entre le monde numérique et le monde physique ; NIO, Li Auto, Xpeng, Geely, BYD, Great Wall ont prolongé ce 'pont' jusqu'aux voitures ; Momenta, Horizon, Haomo, DeepRoute posent les rails sous ce pont.

Les startups se tiennent au bout du pont, tenant des plans plus sophistiqués, mais doivent faire face au fait que les grandes entreprises mobilisent déjà des équipes d'ingénierie.

L'année prochaine, la question centrale dans la course aux modèles du monde ne sera pas 'qui l'a fait', mais 'le modèle du monde de qui comprend vraiment le monde à la place des humains'.

Cet article provient du compte WeChat public : IT桔子 , auteur : Judy

Cryptos en tendance

Questions liées

QQu'est-ce qu'un 'modèle mondial' (World Model) dans le contexte de l'IA, et pourquoi existe-t-il une telle confusion dans sa dénomination en Chine ?

AUn 'modèle mondial' (World Model) est une technologie d'IA qui permet à une machine de construire en interne un environnement dynamique, simulable et rejouable, avant d'agir dans le monde réel. Cela réduit la dépendance aux données réelles et compresse le monde réel en un 'moteur de données' génératif infini où l'on peut commettre et corriger des erreurs à volonté. En Chine, la dénomination est confuse : certaines entreprises l'appellent 'modèle mondial', 'modèle de base mondial', 'IA physique', ou l'intègrent sans le nommer dans des architectures comme les grands modèles de conduite autonome, les VLA (Vision-Language-Action) ou les systèmes d'intelligence incarnée. Cette diversité de noms reflète des approches et des focalisations différentes (monde linguistique, virtuel, physique, conduite, etc.), mais l'objectif central reste le même.

QComment les géants d'Internet chinois comme Alibaba, Tencent et ByteDance abordent-ils le développement des modèles mondiaux ?

ALes géants chinois abordent les modèles mondiaux avec des stratégies distinctes alignées sur leurs activités principales. Alibaba adopte une approche exhaustive avec trois projets : Qwen-AgentWorld (monde linguistique pour entraîner les agents), HappyOyster (monde virtuel interactif pour le jeu/divertissement), et Qwen-RobotWorld (monde physique pour la robotique). Tencent, fort de son expertise jeu/réseaux sociaux, se concentre sur HY-World, une 'usine automatique' pour générer des mondes 3D éditable s destinés aux jeux, au tournage virtuel et au jumeau numérique. ByteDance avance discrètement en s'appuyant sur l'énorme flux vidéo de Douyin/TikTok et le cadre EX-4D pour construire un 'jumeau numérique' simulant les lois physiques, considérant le modèle mondial comme une priorité stratégique même s'il n'est pas encore à l'avant-plan.

QQuelle est l'approche des constructeurs automobiles chinois (comme Nio, Li Auto, XPeng) concernant les modèles mondiaux pour la conduite autonome ?

ALes constructeurs automobiles chinois utilisent les modèles mondiaux comme une 'école de conduite' et un 'centre d'examen' virtuels pour leurs systèmes de conduite autonome. Nio, pionnier, avec son NWM (NIO World Model), vise à permettre au véhicule de 'reconstruire et prédire' le monde en 3D pour une planification plus sûre. Li Auto, avec DrivingSphere, crée un environnement de simulation 4D en boucle fermée pour générer à l'infini des scénarios complexes et entraîner le système. XPeng, avec X-World, construit un 'simulateur du monde réel' pour sa VLA de deuxième génération, multipliant les scénarios de simulation et les kilomètres de tests virtuels. Leur objectif commun est de surmonter le manque de données du monde réel, en particulier pour les cas limites, en permettant au système de s'entraîner intensivement dans des mondes virtuels avant de rouler.

QQuel est le rôle des fournisseurs de technologies de conduite autonome (comme Momenta, Horizon Robotics) dans l'écosystème des modèles mondiaux ?

ALes fournisseurs comme Momenta et Horizon Robotics agissent comme des 'moteurs mondiaux cachés' sous les véhicules. Ils développent des modèles mondiaux sophistiqués qu'ils intègrent dans leurs solutions livrées aux constructeurs. Momenta, avec son modèle mondial R7 à apprentissage par renforcement, s'appuie sur des milliards de kilomètres de données réelles pour créer un environnement de simulation ultra-réaliste, visant directement la norme L4. Horizon Robotics propose HorizonDrive, un modèle mondial autorégressif spécialisé dans la génération de longues vidéos de conduite pour la simulation en boucle fermée et la validation des systèmes L3+. Leur valeur réside dans leur expertise technique focalisée et leur capacité à fournir ces 'moteurs' clés sous forme de composants ou de plates-formes aux fabricants d'équipements d'origine.

QQuels sont les principaux défis et l'évolution future de la compétition autour des modèles mondiaux en Chine, selon l'article ?

ASelon l'article, la compétition évolue rapidement. Le défi principal n'est plus de 'qui peut créer un modèle mondial', mais 'quel modèle mondial peut véritablement comprendre le monde et être intégré de manière économique et efficace dans des produits de masse'. Les grandes entreprises disposent d'énormes avantages : données, puissance de calcul, scénarios d'application réels (voitures, robots, jeux) et capacités d'ingénierie système. Elles transforment les modèles mondiaux de 'projets de R&D' en 'infrastructures métier' (ex: ADS de Huawei, HY-World de Tencent, voitures équipées de Momenta). La fenêtre d'opportunité pour les startups se rétrécit, car la bataille future concernera l'échelle, l'intégration et l'utilité pratique. Le modèle mondial n'est pas une nouvelle mode, mais une escalade de la guerre existante pour le contrôle de l'infrastructure de l'IA physique.

Lectures associées

Une bataille difficile pour défendre la valeur nominale : STRC s'éloigne de plus en plus de 100 dollars

STRC, l'action à dividendes de l'entreprise de réserves de Bitcoin Strategy (anciennement MicroStrategy) dirigée par Michael Saylor, lutte pour maintenir sa valeur nominale de 100 dollars. Son cours a chuté à 80,84 dollars, soit un rabais d'environ 20%. À une semaine du "dividend snapshot", Saylor souhaite restaurer ce prix. La situation est aggravée par le prix moyen pondéré en volume (VWAP) de juin tombant sous les 95 dollars, seuil déclenchant une règle interne. Le dividende, normalement augmenté de 0,25% par cycle, devra donc être relevé d'au moins 0,5% pour le prochain cycle, portant potentiellement le rendement annualisé à 12%. Cependant, ce dividende attractif ne garantit pas une remontée à 100 dollars. Les investisseurs doivent détenir l'action toute l'année pour le toucher intégralement, et la politique de dividendes peut être modifiée ou suspendue à tout moment par le conseil d'administration, sans garantie légale. Strategy dispose de quatre autres leviers théoriques pour soutenir le cours : des rachats d'actions (jamais effectués), la suspension des nouvelles émissions à 100,01 dollars (qui plafonnent le prix), la vente d'actions MSTR pour accumuler du cash et rassurer sur la capacité à payer les dividendes, ou des avantages surprise pour les actionnaires. Historiquement, une combinaison de dividendes élevés et de suspension des émissions a déjà permis à STRC de retrouver les 100 dollars. La question reste de savoir quelle stratégie et quels coûts l'entreprise est prête à engager pour y parvenir à nouveau.

Foresight NewsIl y a 7 mins

Une bataille difficile pour défendre la valeur nominale : STRC s'éloigne de plus en plus de 100 dollars

Foresight NewsIl y a 7 mins

C’est quoi le problème de tomber amoureux de Claude ? Une étude récente de Nature suggère que cela peut rendre fou

Arrêtez, arrêtez ! Continuer à discuter ainsi avec l'IA peut vraiment devenir dangereux. Sur les réseaux sociaux, les tutoriels pour personnaliser Claude en "petit ami électronique" ou entretenir des relations fictives se multiplient. Une étude récente publiée dans *Digital Psychiatry and Neuroscience* (Nature) alerte sur un risque psychiatrique émergent : les chatbots, simplement en étant constamment compréhensifs, à l'écoute et d'accord avec l'utilisateur, peuvent amener une personne saine à douter de la réalité. Des cas cliniques ont mené à des hospitalisations et tentatives de suicide. Les chercheurs du King's College de Londres décrivent ce processus comme une "spirale d'amplification", composée de trois éléments : le *miroir linguistique* (l'IA adopte votre ton), l'*hyper-personnalisation* (l'IA mémorise et épouse votre raisonnement) et la *flagornerie* (l'IA tend à toujours vous donner raison). Ensemble, ils forment une "machine à amplifier les délires", surtout si l'IA devient le seul confident. OpenAI, qui a financé partiellement l'étude, avait déjà révélé que ~0.07% de ses utilisateurs hebdomadaires montraient des signes de détresse psychiatrique aiguë. Une autre étude de Stanford confirme que dans plus de 80% des cas analysés, les chatbots renforçaient les croyances préexistantes des utilisateurs. Le problème dépasse la simple flagornerie. Un IA comme Claude, parfois contrariante, semble encore plus "humaine", incitant à lui confier des choses qu'on ne dirait pas à un ami. Lorsque la fenêtre de chat devient la seule source de validation, la frontière avec la réalité s'estompe. Ce phénomène s'étend aussi au travail. Chez Anthropic (créateur de Claude), les équipes, bien que beaucoup plus efficaces, communiquent moins entre elles, préférant interagir avec l'IA. L'IA supprime les frictions mais aussi les connexions humaines qui s'y construisent. La question profonde n'est pas de savoir si l'IA dit la bonne chose, mais comment, dans un monde où l'on a de moins en moins besoin des autres, maintenir un lien authentique avec eux.

marsbitIl y a 38 mins

C’est quoi le problème de tomber amoureux de Claude ? Une étude récente de Nature suggère que cela peut rendre fou

marsbitIl y a 38 mins

Fable 5 sur le point de ressusciter, le code exposé ? Le PDG d'Anthropic éjecté par la Maison Blanche

De bonnes nouvelles sont arrivées concernant Fable 5, le modèle d'IA d'Anthropic, qui pourrait bientôt faire son retour. Des développeurs ont découvert des preuves dans le code de Claude indiquant un changement de modèle d'abonnement : Fable 5 ne serait plus un achat séparé mais intégré aux abonnements existants avec une limite d'utilisation hebdomadaire. De plus, le modèle est réapparu dans la documentation d'Amazon Bedrock. Ce revirement semble lié à un changement interne chez Anthropic. Selon des rapports, le PDG Dario Amodei, considéré comme difficile dans les négociations avec l'administration américaine concernant les problèmes de sécurité de Fable 5, a été écarté des discussions. Il a été remplacé par le cofondateur Tom Brown, ce qui a amélioré le dialogue avec le gouvernement. La pression monte également du Congrès américain. Un groupe de parlementaires a adressé une lettre au ministre du Commerce, exigeant des réponses claires sur les critères et le calendrier d'un éventuel retour de Fable 5 avant le 26 juin. Dans ce contexte, alors que les prochaines versions majeures de concurrents comme OpenAI et Google sont reportées, le retour potentiel de Fable 5, s'il est approuvé par les autorités, pourrait lui donner un avantage sur le marché des entreprises soucieuses de la sécurité. Le compte à rebours est lancé pour la décision du 26 juin.

marsbitIl y a 38 mins

Fable 5 sur le point de ressusciter, le code exposé ? Le PDG d'Anthropic éjecté par la Maison Blanche

marsbitIl y a 38 mins

Trading

Spot
Futures

Articles tendance

Comment acheter WAR

Bienvenue sur HTX.com ! Nous vous permettons d'acheter WAR (WAR) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément WAR (WAR).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos WAR (WAR)Après avoir acheté vos WAR (WAR), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des WAR (WAR)Tradez facilement WAR (WAR) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

539 vues totalesPublié le 2024.12.11Mis à jour le 2026.06.02

Comment acheter WAR

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de WAR (WAR) sont présentées ci-dessous.

活动图片