Le terme de modèle du monde n'a pas encore de carte de visite unifiée dans l'industrie. Certains l'appellent modèle du monde, d'autres modèle de base du monde, d'autres encore IA physique, et certains le cachent dans l'architecture des grands modèles de conduite autonome, des VLA ou des systèmes d'intelligence incarnée sans le nommer séparément.
Qwen-AgentWorld, HappyOyster et Qwen-RobotWorld d'Alibaba ciblent respectivement le monde du langage, le monde virtuel et le monde physique ; HY-World de Tencent s'oriente plutôt vers un monde 3D éditable ; les constructeurs automobiles préfèrent parler de modèle du monde de conduite ou de modèle de comportement du monde ; Huawei et Baidu ne prononcent tout simplement pas les quatre mots 'modèle du monde' séparément.
Derrière cette confusion de nomenclature, tout le monde fait en réalité la même chose :
Permettre à la machine de construire d'abord un environnement dynamique, pouvant être simulé et analysé, avant d'agir réellement, réduisant la dépendance infinie aux données réelles, compressant le monde réel en un moteur de données capable de générer, d'échouer et de recommencer indéfiniment.
Alors que les startups s'inquiètent encore des droits de collecte de données et des budgets de puissance de calcul, Alibaba, Tencent, Huawei, NIO, Xpeng et Li Auto ont déjà discrètement transformé le modèle du monde en une nouvelle piste de course.
Le modèle du monde est une ambition : faire dépasser à l'IA la simple reconnaissance du monde, en le simulant d'abord dans son esprit.
Les fabricants de conduite autonome veulent l'utiliser pour générer des 'examens' sur la pluie, la neige ou les obstacles atypiques ; les équipes d'intelligence incarnée veulent l'utiliser pour faire tomber des robots des milliers de fois en simulation avant qu'ils ne sortent ; les entreprises de jeux et de réseaux sociaux veulent l'utiliser pour créer un univers parallèle où les humains peuvent s'immerger.
Les grandes entreprises entrent en scène avec des approches différentes, mais le but central est le même : compresser le monde réel en un moteur de données pouvant être simulé et analysé à l'infini.
I. Les géants de l'Internet :
Du monde numérique au monde physique
La stratégie d'Alibaba en matière de modèles du monde ressemble le plus à 'exposer ses produits un par un sur l'étagère'.
En juin 2026, elle a jeté trois cartes coup sur coup en l'espace de quelques jours :
La série Qwen-Robot le 16 juin, HappyOyster 1.0 le 17 juin, et Qwen-AgentWorld le 24 juin.
Qwen-AgentWorld est un modèle natif du monde du langage. Il ne génère pas d'images, mais des environnements — dans sept environnements (outils MCP, recherche, terminal, ingénierie de code, Web, système d'exploitation, Android), le modèle peut simuler des interactions réelles, apprendre de manière autonome et se perfectionner par apprentissage par renforcement. Il propose deux tailles : une architecture MoE de 35B et 397B paramètres totaux, avec respectivement 3B et 17B paramètres activés ; les données d'entraînement proviennent de plus de 10 millions de trajectoires d'interaction en environnement réel ; le modèle et le benchmark d'évaluation AgentWorldBench ont tous deux été open source. Cela revient à considérer le modèle du monde comme un 'terrain d'entraînement' pour les agents, et non comme un 'accessoire'.
HappyOyster 1.0 adopte un visage différent, ressemblant davantage à un 'plateau de tournage jouable' : l'utilisateur donne une phrase ou une image, et il génère un monde ouvert, permettant à l'utilisateur d'intervenir à sa guise dans deux modes : 'exploration du monde' et 'réalisation en temps réel'. Le mode exploration prend en charge des déplacements continus en temps réel et un contrôle de caméra jusqu'à 1 minute, tandis que le mode réalisation peut générer plus de 3 minutes de vidéo en temps réel en 480p/720p. Alibaba le positionne comme une porte d'entrée pour les secteurs des jeux interactifs, de l'accompagnement virtuel, des mini-séries interactives et des expériences touristiques culturelles.
Qwen-RobotWorld s'oriente vers une autre direction. C'est le 'cerveau pensant' de la trilogie d'intelligence incarnée d'Alibaba, travaillant en synergie avec le modèle d'opération VLA Qwen-RobotManip et le modèle de mobilité VLN Qwen-RobotNav, avec pour objectif de donner aux robots un monde intérieur pouvant être prémédité.
Ces trois éléments combinés montrent qu'Alibaba cherche simultanément à définir le monde du langage, le monde virtuel et le monde physique.
Hunyuan de Tencent emprunte un autre chemin. Sa série HY-World ressemble davantage à la construction d'une 'usine automatique de jeux 3D'.
En juillet 2025, Tencent a publié en open source le modèle du monde 3D Hunyuan 1.0 lors du WAIC ; mis à niveau en 1.5 en décembre ; et a publié et ouvert en open source HY-World 2.0 en avril 2026. L'entrée peut être du texte, une image unique, plusieurs images, une vidéo ou même un modèle blanc, et la sortie peut être en 3DGS, Mesh ou nuage de points.
La version 2.0 a introduit des modules tels que HY-Pano 2.0, WorldNav, WorldStereo 2.0, WorldMirror 2.0, créant une boucle fermée reliant la génération, la reconstruction, les panoramiques et la génération en temps réel du monde.
L'avantage de Tencent réside dans les scénarios de jeux et de réseaux sociaux. Les vrais utilisateurs d'HY-World ne sont pas ceux qui entraînent la conduite autonome, mais ceux qui créent des niveaux de jeu, réalisent des tournages virtuels ou des jumeaux numériques.
Le projet de modèle du monde de ByteDance ressemble quant à lui à une 'marche secrète' portant les gènes des données vidéo courtes.
En août 2025, The Information a révélé que l'équipe Seed de ByteDance développait un modèle du monde, dirigé par Zhou Chang, ancien membre clé de Tongyi Qianwen. L'atout majeur de ce projet est le flux quotidien de plus de 10 milliards de vidéos sur Douyin et TikTok, ainsi que le cadre EX-4D — capable de transformer une vidéo monoculaire en scènes multivues 4D. Il vise des modèles comme Google Genie 3 et Meta V-JEPA 2, avec pour objectif non pas de créer un simple générateur de vidéos, mais de construire un 'jumeau numérique' capable de simuler les lois physiques.
Lors de la conférence FORCE Momentum de Volcano Engine le 23 juin 2026, ByteDance n'a pas directement publié ce modèle du monde, mais a dévoilé la série Doubao Seed 2.1, le modèle de génération vidéo Seedance 2.5, le modèle de génération d'images Seedream 5.0 Pro et un nouveau modèle de génération audio.
Et le reportage exclusif de 36Kr résume la stratégie d'IA de ByteDance pour 2026 en quatre propositions : que son modèle du monde atteigne le SOTA mondial d'ici la fin de l'année, que Seedance explore la génération dynamique, consolider les bases du codage et accélérer la commercialisation de Doubao.
Cela signifie que le modèle du monde est la première proposition en interne chez ByteDance, mais l'entreprise a choisi de laisser d'abord Seedance et Doubao sur le devant de la scène, tout en continuant à préparer son coup majeur en secret.
Le modèle du monde Pangu de Huawei dégage une aura 'discrète mais redoutable'.
Lors de la conférence des développeurs de juin 2025, Huawei a publié le grand modèle Pangu, basé sur le grand modèle multimodal Pangu, avec une capacité centrale à générer des espaces physiques numériques haute précision à partir d'une seule image. Il peut prédire les collisions, entraîner des bras robotisés à saisir, générer des vidéos de conduite et des nuages de points lidar, aidant le modèle de bout en bout d'ADS de Huawei à réaliser 'une version tous les deux jours'.
Huawei n'a pas crié le slogan 'modèle du monde', mais l'a plutôt traité comme une 'base d'entraînement' pour la voiture intelligente et l'intelligence incarnée. La collaboration avec GAC est un cas typique : une correspondance pixel à pixel entre la vidéo 2D et le nuage de points 3D, permettant de reconstituer des cas complexes en quelques minutes.
Lors du HDC 2026 en juin 2026, Huawei a fait passer le grand modèle Pangu en version 7.0 et a publié l'Ascend 910C. Yu Chengdong a repris la direction de Pangu, mais il n'y a pas eu de nouvelles informations sur une nouvelle version du modèle du monde lui-même.
Cette approche où le 'modèle du monde n'existe pas séparément, mais sert une boucle industrielle fermée' est caractéristique du style constant de Huawei.
Baidu est entré plus tôt dans le domaine de la conduite autonome, avec la publication en mai 2024 d'Apollo ADFM, positionné comme 'le premier grand modèle de conduite autonome au monde supportant la conduite sans conducteur de niveau L4'.
Bien que Baidu ne l'ait pas nommé modèle du monde, il possède essentiellement les fonctions d'un modèle du monde : comprendre le monde physique et prédire le comportement des participants à la circulation via un réseau neuronal de bout en bout. En novembre 2025, le grand modèle ERNIE 5.0 a été dévoilé sous une forme native entièrement modale, avec une échelle de paramètres atteignant 2400 milliards ; la version officielle est lancée en janvier 2026.
La capacité de modèle du monde de Baidu est déjà intégrée dans un plan plus vaste. La stratégie de Baidu est de ne pas parler séparément du modèle du monde, mais de laisser Apollo et ERNIE se compléter.
Xiaomi et SenseTime représentent deux 'approches techniques'.
Xiaomi OneVL, open source le 13 mai 2026, unifie le VLA, le modèle du monde et le raisonnement en espace latent dans un même cadre, mettant l'accent sur l'explicabilité du processus de raisonnement visuel, créant un composant de base utilisable pour la conduite autonome et l'intelligence incarnée.
Le 'Kaiwu' de SenseTime Jueying ressemble davantage à un 'conducteur expérimenté' déjà en poste. Dans un rapport de Frost & Sullivan de septembre 2025, il est défini comme le premier modèle du monde industriel déjà en production, interactif, capable de générer des vidéos de conduite de 150 secondes, 1080P, 11 points de vue, et ayant constitué le plus grand ensemble de données génératives de conduite WorldSim-Drive et une bibliothèque de scènes génératives de dizaines de millions d'unités.
En juin 2026, Daxiao Robotics, fondé par Wang Xiaogang, co-fondateur de SenseTime, a annoncé avoir levé des centaines de millions de dollars en financement. Son modèle du monde Kairos 3.0 occupe la première place dans quatre grands classements de génération et de prédiction pour la génération de vidéos incarnées, le suivi des instructions de tâches, etc.
Le modèle du monde de SenseTime s'étend de la voiture intelligente aux robots.
II. Constructeurs automobiles :
Transformer le modèle du monde en auto-école et en salle d'examen
Si les modèles du monde des grandes entreprises Internet consistent à 'créer des mondes', alors ceux des constructeurs automobiles consistent à 'utiliser des mondes'.
NIO est le constructeur automobile chinois qui a le premier brandi le modèle du monde comme un drapeau.
Lors du NIO IN de juillet 2024, Ren Shaoqing a présenté NWM (NIO World Model), positionné comme le premier modèle du monde de conduite intelligente en Chine.
Il adopte une architecture générative autorégressive multivariée, faisant deux choses : la 'reconstruction imaginative' dans l'espace et la 'simulation imaginative' dans le temps.
Donnez-lui une scène réelle, il peut reconstruire un monde 3D ; donnez-lui une indication de trois secondes, il peut générer plus de deux minutes de vidéo future. Toutes les 0,1 seconde, il simule 216 trajectoires et sélectionne la solution optimale.
La logique de NIO est claire : un modèle de bout en bout ne suffit pas, un véritable système de conduite intelligente intelligent doit pouvoir 'imaginer les conditions routières les yeux fermés' comme un humain. Le 18 juin 2026, NIO a officiellement diffusé la nouvelle version NWM 2.0, couvrant plus de 700 000 utilisateurs de toute sa gamme, les propriétaires anciens ayant acheté il y a quatre ans bénéficiant également d'une mise à niveau gratuite, les quatre grands systèmes de véhicule Banyan, Cedar, Coconut+ étant publiés simultanément. La nouvelle version réalise pour la première fois en Chine une sortie directe du modèle de conduite intelligente des signaux bruts du volant et des pédales d'accélération/freinage, et améliore le système d'entraînement de 'modèle du monde + apprentissage par renforcement en boucle fermée' à un système à trois couches : 'modèle du monde + ajustement fin supervisé + apprentissage par renforcement en boucle fermée'. La couverture des scénarios AEB est 6,7 fois supérieure à l'AEB standard, avec une probabilité de freinage erroné réduite à une fois tous les cent mille kilomètres.
La puce Shenji NX9031 est même décrite comme 'conçue naturellement pour le modèle du monde'.
Li Auto a proposé en deuxième moitié de 2024 une approche de modèle du monde 'reconstruction + génération' et a publié DrivingSphere à la CVPR 2025.
Il se compose du modèle de diffusion OccDreamer et du VideoDreamer ST-DiT, construisant un environnement de simulation en boucle fermée 4D haute fidélité.
La simulation en boucle ouverte traditionnelle ne peut évaluer que ce que le modèle 'voit', tandis que la simulation en boucle fermée peut évaluer ce que le modèle 'fait'. Le modèle du monde de Li Auto est comme une salle d'examen capable de générer des questions pièges à l'infini, permettant au système de conduite intelligente de s'entraîner d'abord sur des scénarios complexes dans la puce.
Lors du Livis Day en juin 2026, Li Auto a encore amélioré cette capacité pour la transformer en 'VLA Mach', une architecture MoE multimodale native unifiant la perception, la prédiction et la planification, avec une puissance de calcul de 2560 TOPS sur deux puces M100 côté véhicule et un temps de réaction de 0,28 seconde.
Selon la feuille de route publiée par Li Auto, un tout nouveau VLA Mach sera diffusé aux utilisateurs AD Max au troisième trimestre, avec pour objectif au quatrième trimestre d'aligner Tesla FSD V14. Li Auto n'est plus seulement une entreprise automobile ; elle se façonne en fournisseur d'un système d'intelligence incarnée Livis.
La voie de Xpeng Motors présente une progression 'd'abord grande, puis raffinée'.
En avril 2025, Xpeng a révélé pour la première fois lors d'une présentation technologique IA à Hong Kong qu'il développait un 'modèle de base du monde' de conduite autonome ultra-large de 72 milliards de paramètres.
Un an plus tard, le 1er avril 2026, Xpeng a officiellement publié le rapport technique du modèle du monde X-World.
Basé sur la technologie de génération de vidéos par diffusion, il modifie le paradigme de génération de vidéos en espace latent de WAN 2.2, utilisant un VAE 3D causal et un DiT avec attention temporelle et angulaire, supportant une génération cohérente sur 7 caméras surround à travers les angles de vue.
X-World n'est pas un outil de génération vidéo, mais le 'simulateur du monde réel' du VLA de deuxième génération de Xpeng : les scénarios de simulation sont passés de 30 000 il y a un an à plus de 500 000, les tests de simulation quotidiens équivalent à 30 millions de kilomètres de tests réels en véhicule, et il supporte l'apprentissage par renforcement en ligne et la génération de données pour l'étranger.
Lors de la CVPR en juin 2026, Xpeng a également montré pour la première fois la carte technologique complète du modèle du monde. L'ambition de Xpeng est écrite dans son champ d'application : voitures IA, robots IA, voitures volantes. Son objectif d'échelle de données d'entraînement est de 200 millions de clips, avec un cluster de dix mille cartes fournissant 10 EFLOPS de puissance de calcul, et une itération tous les 5 jours.
Geely Auto a présenté WAM (World Action Model) au CES 2026, et l'a intégré dans son système AI global 2.0.
L'architecture à plusieurs couches du WAM est intéressante : la couche supérieure est un grand modèle multimodal MLLM responsable de la compréhension, la couche inférieure est un expert en action responsable des mouvements, et au milieu se trouve le modèle du monde responsable de la simulation.
L'objectif de Geely n'est pas d'améliorer le modèle de conduite intelligente, mais de transformer le véhicule entier en 'un seul cerveau' — unifi-ant la conduite intelligente, l'habitacle, le châssis et la puissance. En avril 2026, le Zeekr 8X a été lancé et livré immédiatement, devenant le premier super-agent intelligent fusionnant conduite et habitacle à être produit en série en Chine, son G-ASD 4.0 étant basé sur WAM. L'objectif 2026 est le L3 sur autoroute et le L4 à basse vitesse.
Le modèle du monde de BYD est encore en phase de recherche préliminaire. Les informations divulguées en janvier 2025 indiquent qu'en interne, il a suivi la voie de Tesla, constituant une petite équipe pour des essais rapides, se concentrant sur la génération de données pour les cas complexes de conduite de bout en bout.
Great Wall a également proposé la direction de la prochaine génération de conduite intelligente VLA + modèle du monde, et est passé de la 'stratégie' à la 'production en série' : en juin 2026, lors de la conférence sur la conduite intelligente et l'expansion à l'étranger, Great Wall a partagé sa pratique du VLA. Le centre de calcul haute performance Jiuzhou à Baoding atteint 5 EFLOPS, avec plus de dix mille GPU. Le Tank 700 deviendra le premier modèle équipé du système Coffee Pilot 4.0 VLA, produit en série et monté sur véhicule en 2026. La flotte existante de plus de 2 millions de véhicules génère quotidiennement une quantité massive de données, ce qui est le patrimoine le plus solide de Great Wall par rapport aux nouveaux constructeurs automobiles.
III. Fournisseurs de conduite intelligente :
Le moteur mondial caché sous la voiture
En dehors des constructeurs automobiles, un groupe de fournisseurs a transformé le modèle du monde en un 'moteur invisible'.
Momenta a officiellement lancé le modèle du monde d'apprentissage par renforcement R7 lors du salon automobile de Pékin en avril 2026, et l'a mis en production en première mondiale.
Il s'agit d'une architecture à trois couches : pré-entraînement du modèle du monde, simulation du modèle du monde, apprentissage par renforcement. R7 est basé sur plus de 12 milliards de kilomètres parcourus en véhicule réel provenant des activités de production de Momenta, dont plus de 100 millions de segments de 'données en or' sont extraits pour le pré-entraînement. Le modèle traverse ensuite une quantité massive de scénarios marginaux en simulation, et est finalement perfectionné par apprentissage par renforcement.
Momenta l'intègre directement dans le modèle de base de bout en bout, avec pour objectif d'atteindre la norme L4. Les données commerciales gonflent également rapidement : les véhicules de série équipés des systèmes Momenta ont dépassé les 900 000 unités, plus de 100 modèles de série ont été livrés avec succès, plus de 210 modèles ont été désignés, et les solutions sont déployées dans plus de 10 pays et régions, dont le Royaume-Uni, la Norvège, Singapour et l'Australie/Nouvelle-Zélande.
En juin 2026, Momenta a obtenu l'approbation de la bourse de Hong Kong, visant une introduction en bourse en tant que 'première action d'IA physique' avec une part de marché de 65% dans le NOA urbain tiers. Cela démontre son engagement envers le modèle du monde.
Horizon Robotics a publié HorizonDrive en mai 2026, un modèle du monde autorégressif dont la capacité centrale est la génération de vidéos de conduite longues séquences à l'échelle de la minute.
Il utilise un video-VAE fonctionnant dans l'espace latent, prenant en entrée des cartes haute définition, des boîtes englobantes 3D et les actions du véhicule, puis sort des scénarios futurs continus.
L'atout d'HorizonDrive est son entraînement 'auto-correctif' : grâce aux technologies SRR et TRD, le modèle s'auto-corrige lorsqu'il génère des erreurs. Sur nuScenes, son FID est réduit de 52%, FVD de 37%, et la précision des trajectoires améliorée de 21% ; une seule RTX 5090 peut générer une vidéo 256×512 à 5,6 IPS, ou une vidéo 384×768 à 1,7 IPS. Son positionnement est la simulation de conduite autonome en boucle fermée, aidant les constructeurs à valider les systèmes L3+ sans conduire sur route.
DriveGPT de Haomo.ai est l'un des premiers projets en Chine à avoir crié le slogan 'modèle du monde'.
Le 'Xuehu · Hairuo' publié en avril 2023 est un grand modèle génératif de conduite autonome, construisant un espace de représentation 4D par prédiction d'image suivante. Il est soutenu par 10 milliards d'images Internet, 4,8 millions de clips 4D et 87 millions de kilomètres de conduite assistée.
La voie de Haomo est similaire à celle du World Model de Tesla et de GAIA-1 de Wayve : faire évoluer le grand modèle de conduite autonome de 'regarder des images' à 'regarder des vidéos', puis à 'prédire des vidéos'. Il fournit des capacités pour des scénarios comme les véhicules Great Wall Wey et les véhicules autonomes Xiaomo Tuo.
DeepRoute.ai a publié la plateforme DeepRoute IO 2.0 le 26 août 2025, équipée de son propre modèle VLA.
Lors du salon automobile de Pékin en avril 2026, DeepRoute a en outre publié sa technologie de modèle de base et sa stratégie d'IA physique, et révélé des données commerciales : les véhicules de série équipés de sa solution de NOA urbain ont dépassé les 300 000 unités. Au cours de la dernière année, les véhicules équipés du système de sécurité active de DeepRoute ont parcouru plus de 1,3 milliard de kilomètres sur routes réelles, accompagnant les utilisateurs pendant plus de 44,8 millions d'heures de conduite cumulées.
DeepRoute n'a pas nommé séparément un modèle du monde, mais dans le système de simulation et d'entraînement de DeepRoute IO 2.0, le modèle du monde est le noyau implicite.
IV. Startups et grandes entreprises :
Deux cartes, une même ville
Et ce tableau de déploiement des grandes entreprises est une autre carte.
Les deux cartes pointent vers une même ville : celui qui permettra à l'IA de vraiment comprendre le monde physique possédera l'entrée de la prochaine ère.
L'avantage des startups est la concentration et la rapidité.
Elles peuvent miser sur une voie radicale, comme le modèle du monde natif, la génération d'espace 3D, le moteur physique VLA, sans être entravées par des activités existantes. Mais elles manquent de données, de puissance de calcul, de canaux de production de masse, et surtout d'une boucle fermée de scénarios réels capable de nourrir continuellement le modèle du monde.
L'inconvénient des grandes entreprises est l'inertie organisationnelle et la confusion de nomenclature résultant de la concurrence de multiples départements — les trois projets de modèle du monde d'Alibaba laissent même les observateurs extérieurs confus quant à savoir s'il s'agit de la même chose. Mais les grandes entreprises disposent de données, de puissance de calcul, d'utilisateurs, de véhicules, et du système d'ingénierie pour faire fonctionner les modèles. Les startups créent des 'modèles', les grandes entreprises créent des 'systèmes'.
Le moment le plus dangereux est celui où les grandes entreprises transforment le modèle du monde d'un 'projet de recherche' en une 'base commerciale'. Le grand modèle Pangu de Huawei sert ADS et la robotique, HY-World de Tencent sert les jeux et l'industrie, DrivingSphere de Li Auto sert l'itération de la conduite intelligente, Kaiwu de SenseTime est déjà en production sur véhicules, Momenta R7 fonctionne déjà sur plus de 900 000 véhicules —
Ce ne sont pas des présentations PowerPoint de conférence, mais des 'capacités' entrant dans les lignes de production. Pour les startups, la fenêtre d'opportunité pour le modèle du monde se rétrécit. La concurrence future passera rapidement de 'qui peut créer un modèle du monde' à 'le modèle du monde de qui peut être utilisé de manière abordable et efficace par les grandes entreprises'.
V. Le modèle du monde n'est pas une tendance,
c'est une escalade d'une ancienne guerre
Le modèle du monde n'est pas une nouvelle histoire.
C'est le produit naturel de la convergence des grands modèles de langage, des modèles de génération vidéo, des modèles de conduite autonome de bout en bout et des modèles VLA pour robots dans le monde physique.
L'entrée massive des grandes entreprises montre que cette chose est passée d'un 'jouet pour technophiles' à une 'infrastructure industrielle'.
Alibaba, Tencent, ByteDance, Huawei, Baidu, Xiaomi, SenseTime construisent un pont entre le monde numérique et le monde physique ; NIO, Li Auto, Xpeng, Geely, BYD, Great Wall ont prolongé ce 'pont' jusqu'aux voitures ; Momenta, Horizon, Haomo, DeepRoute posent les rails sous ce pont.
Les startups se tiennent au bout du pont, tenant des plans plus sophistiqués, mais doivent faire face au fait que les grandes entreprises mobilisent déjà des équipes d'ingénierie.
L'année prochaine, la question centrale dans la course aux modèles du monde ne sera pas 'qui l'a fait', mais 'le modèle du monde de qui comprend vraiment le monde à la place des humains'.
Cet article provient du compte WeChat public : IT桔子 , auteur : Judy






