没有统一名字的战争:国内各家大厂的世界模型版图

marsbit发布于2026-06-25更新于2026-06-25

文章摘要

世界模型是AI领域的关键方向,但业内尚未有统一命名,常被称为世界基座模型、物理AI或融入自动驾驶大模型等。其核心目标是让机器在行动前,在内部构建可推演、复盘的动态环境,将真实世界压缩为可无限生成和测试的数据引擎,从而减少对真实数据的依赖。 国内各大厂商已积极布局。**互联网巨头**中,阿里推出了面向语言、虚拟和物理世界的三个模型;腾讯侧重3D可编辑世界,服务于游戏和社交;字节跳动依托短视频数据秘密研发;华为、百度则将其作为智能汽车与自动驾驶的底层能力,不单独强调概念。**车企**将世界模型视为“驾校和考场”,用于生成和测试驾驶场景,提升智能驾驶系统能力,如蔚来、理想、小鹏、吉利等均有具体布局。**智驾供应商**如Momenta、地平线、毫末智行等,则将世界模型作为“隐形引擎”,嵌入端到端系统中,以强化仿真训练和闭环验证。 创业公司虽专注灵活,但面临数据、算力和商业化闭环的挑战;而大厂凭借数据、算力和现有业务体系,正将世界模型从研究项目转化为业务底座。竞争正从“能否做出模型”转向“能否实现规模化应用”。世界模型并非短暂风口,而是语言大模型、视频生成、自动驾驶等技术在物理世界交汇的必然升级,成为未来产业基础设施的核心。

世界模型这个名称,在业内至今没有一张统一的名片。有人叫它世界模型,有人叫世界基座模型,有人叫物理AI,还有人把它藏在自动驾驶大模型、VLA或具身智能系统的架构里不单独命名。

阿里的Qwen-AgentWorld、HappyOyster、Qwen-RobotWorld分别指向语言世界、虚拟世界和物理世界;腾讯的HY-World偏向3D可编辑世界;车企更愿意说驾驶世界模型或世界行为模型;华为、百度干脆不单独喊出世界模型四个字。

命名的混乱背后,大家其实在做同一件事:

让机器在真正行动之前,先在内部建立一个可推演、可复盘的动态环境,降低对真实数据的无限依赖,把真实世界压缩成能够无限生成、无限犯错、无限重来的数据引擎。

当创业公司们还在为数据采集权和算力预算焦头烂额时,阿里巴巴、腾讯、华为、蔚来、小鹏、理想已经悄悄把世界模型铺成了一条新赛道。

世界模型是一种野心:让AI超越识别世界,在脑子里先过一遍世界。

自动驾驶的厂商想用它生成雨天、雪天、异型障碍物的“考卷”;具身智能团队想用它让机器人在仿真里摔够十万次再出门;游戏和社交公司则想用它造出一个人类可以沉浸进去的平行宇宙。

大厂入局的方式各有侧重,但核心目标一致:把真实世界压缩成可以无限推演、无限复盘的数据引擎。

一、互联网巨头:

从数字世界到物理世界

阿里的世界模型布局最像是“把货架上的东西一件件摆出来”。

2026年6月,它在十几天内接连抛出三张牌:

6月16日的Qwen-Robot系列、6月17日的HappyOyster 1.0、6月24日的Qwen-AgentWorld。

Qwen-AgentWorld是一款原生语言世界模型,它不生成图片,而是生成环境——MCP工具、搜索、终端、代码工程、Web、操作系统、Android七个环境里,模型能模拟真实交互、自主学习、用强化学习打磨自己。它提供两种规模:总参数35B和397B的MoE架构,激活参数分别为3B和17B;训练数据来自超过1000万条真实环境交互轨迹;模型和评测基准AgentWorldBench均已开源。这等于把世界模型当成智能体的“训练场”而不是“装饰品”。

HappyOyster 1.0则换了一副面孔,它更像是一个“可玩的电影片场”:用户给一句话或一张图,它生成一个开放式世界,并在“世界探索”和“实时导演”两种模式里让用户任意介入。探索模式支持长达1分钟的连续实时位移与镜头控制,导演模式可生成3分钟以上的480p/720p实时画面。阿里把它定位为交互式游戏、虚拟陪伴、互动短剧、文旅体验等行业入口。

Qwen-RobotWorld又走向另一个方向,它是阿里具身智能三件套里的“思考大脑”,与VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav协同,目标是让机器人拥有一个可以预演的内心世界。

三件事情合在一起,阿里正在同时争夺语言世界、虚拟世界和物理世界的定义权。

腾讯混元走的是另一条路,它的HY-World系列更像是在搭建“3D游戏的自动工厂”。

2025年7月,腾讯在WAIC上开源发布混元3D世界模型1.0;12月升级到1.5;2026年4月发布并开源HY-World 2.0。输入可以是文本、单图、多图、视频甚至白模,输出可以是3DGS、Mesh、点云。

2.0版本引入了HY-Pano 2.0、WorldNav、WorldStereo 2.0、WorldMirror 2.0等模块,把世界生成、世界重建、全景图、实时世界生成串成一个闭环。

腾讯的优势在于游戏和社交场景,HY-World真正的用户不是训练自动驾驶,而是做游戏关卡、做虚拟拍摄、做数字孪生。

字节跳动的世界模型项目则像是一次带着短视频数据基因的“秘密行军”。

2025年8月,The Information披露字节Seed团队正在研发世界模型,带队的是周畅,前通义千问核心成员。这个项目最大的底牌是抖音和TikTok每天超过10亿次的视频流,以及EX-4D框架——能把单目视频转成4D多视角场景。它对标的是谷歌Genie 3和Meta V-JEPA 2,目标不是做一个漂亮的视频生成器,而是构建一个能模拟物理规律的“数字孪生”。

2026年6月23日的火山引擎FORCE原动力大会上,字节没有直接发布这个世界模型,但亮出了豆包Seed 2.1系列、Seedance 2.5视频生成模型、Seedream 5.0 Pro生图模型和新的音频生成模型。

而36氪的独家报道则把字节2026年的AI战略概括为四个命题:世界模型年底要达到全球SOTA、Seedance探索动态生成、Coding巩固基础、豆包加速商业化。

这意味着,世界模型在字节内部是第一条命题,只是它选择先让Seedance和Doubao站在前台,自己继续憋大招。

华为盘古世界模型的气质则是“低调但致命”。

在2025年6月的开发者大会上,华为发布了盘古大模型,基于盘古多模态大模型,核心能力是从单张图片生成高精度的数字物理空间。它能预测碰撞、训练机械臂抓取,还能生成驾驶视频和激光雷达点云,帮助华为ADS端到端模型实现“两天一个版本”。

华为没有喊出“世界模型”的口号,而是把它当成智能汽车和具身智能的“训练底座”。与广汽的合作是典型案例:2D视频和3D点云像素级对应,数分钟复原复杂Corner Case。

2026年6月的HDC 2026上,华为把盘古大模型推到7.0,并发布昇腾910C,余承东重新挂帅盘古,但世界模型本身没有单独的新版本消息。

这种“世界模型不单独存在,而是服务于产业闭环”的思路,是华为一贯的风格。

百度在自动驾驶领域入局更早,2024年5月发布的Apollo ADFM被定位为“全球首个支持L4级无人驾驶的自动驾驶大模型”。

虽然百度没有把它命名为世界模型,但它本质上具备了世界模型的功能:通过端到端神经网络理解物理世界、预测交通参与者的行为。2025年11月,文心大模型5.0以原生全模态形态亮相,参数规模达到2.4万亿;2026年1月上线正式版。

百度的世界模型能力已经藏进更大的一盘棋里。百度的策略是:不单独谈世界模型,而是让Apollo和文心互为表里。

小米和商汤则代表了两种“技术流”。

小米2026年5月13日开源的Xiaomi OneVL,把VLA、世界模型和潜空间推理统一到一个框架里,强调视觉推理过程的可解释性,做的是自动驾驶和具身智能都能用的基础件。

商汤绝影的“开悟”更像是一个已经上岗的“老司机”,2025年9月弗若斯特沙利文的报告里,它被定义为行业首个已量产、可交互的世界模型,能生成150秒、1080P、11视角的驾驶视频,并沉淀下业内最大规模的生成式驾驶数据集WorldSim-Drive和千万级生成场景库。

2026年6月,由商汤联合创始人王晓刚创立的大晓机器人又宣布完成数亿美元融资,其开悟Kairos世界模型3.0在具身视频生成、任务指令追随等维度位居生成预测四大榜单榜首。

商汤系的世界模型,正在从智能汽车向机器人进一步蔓延。

二、车企:

把世界模型当成驾校和考场

如果说互联网大厂的世界模型是在“造世界”,那车企的世界模型就是在“用世界”。

蔚来是中国车企里最先把世界模型当成旗帜来挥舞的。

2024年7月的NIO IN上,任少卿发布NWM(NIO World Model),定位是中国首个智能驾驶世界模型。

它采用多元自回归生成架构,做两件事:空间上的“想象重建”和时间上的“想象推演”。

给一个真实场景,它能还原出3D世界;给一个三秒提示,它能生成两分钟以上的未来视频。每0.1秒,它推演216条轨迹,选出最优解。

蔚来的逻辑很清晰:端到端模型不够,真正聪明的智驾系统需要像人一样“闭眼也能想象路况”。2026年6月18日,蔚来正式推送全新版本NWM 2.0,覆盖超过70万全系用户,即便是四年前购车的老车主也能免费升级,Banyan、Cedar、Coconut+四大整车系统同步发版。新版在国内首次实现智驾模型直接输出方向盘、加减速踏板原始操作信号,并把训练体系从“世界模型+闭环强化学习”升级为“世界模型+监督微调+闭环强化学习”三层。AEB覆盖场景是标准AEB的6.7倍,误制动概率降到十万公里一次。

神玑NX9031芯片甚至被描述为“天生为世界模型设计”。

理想汽车在2024年下半年提出了“重建+生成”的世界模型思路,并在CVPR 2025发表了DrivingSphere。

它由OccDreamer扩散模型和VideoDreamer ST-DiT组成,构建了一个高保真4D闭环仿真环境。

传统开环仿真只能评价模型“看见了什么”,而闭环仿真能评价模型“做了什么”。理想的世界模型就像是一个可以无限生成错题的考场,让智驾系统在芯片里先把刁钻场景跑熟。

到了2026年6月的Livis Day,理想把这套能力进一步升级为“马赫VLA”,原生多模态MoE架构,感知、预测、规划统一,车端双M100芯片算力2560TOPS,反应时间0.28秒。

按照理想公布的路线图,第三季度会向AD Max用户推送全新马赫VLA,第四季度目标对齐特斯拉FSD V14。理想不再只是一家汽车公司,它正在把自己塑造成一个具身智能系统Livis的提供商。

小鹏汽车的路径则呈现出“先做大,再做精”的层次感。

2025年4月,小鹏在香港的AI技术分享会上首次披露正在研发720亿参数的超大规模自动驾驶“世界基座模型”。

一年后,2026年4月1日,小鹏正式发布X-World世界模型技术报告。

它基于视频扩散生成技术,在WAN 2.2的潜空间视频生成范式上改造,采用3D因果VAE和视角-时间自注意力DiT,支持7路环视摄像头跨视角一致生成。

X-World不是视频生成工具,而是小鹏第二代VLA的“现实世界模拟器”:仿真场景从一年前的3万个增加到50多万个,每日仿真测试里程等效3000万公里实车测试,并支持在线强化学习和海外数据生成。

2026年6月的CVPR上,小鹏又首次展示了完整的世界模型技术图谱。小鹏的野心写在它的应用范围里:AI汽车、AI机器人、飞行汽车。它的训练数据规模目标是2亿段clips,万卡集群提供10 EFLOPS算力,每5天迭代一次。

吉利汽车在2026年CES上亮出了WAM(World Action Model),并把它塞进全域AI 2.0体系。

WAM的分层架构很有意思:上层是多模态大模型MLLM负责理解,下层是Action Expert负责动作,中间是世界模型负责推演。

吉利的目标不是让智驾模型更好,而是让整车变成“一个大脑”——智驾、座舱、底盘、动力统一调度。2026年4月,极氪8X上市即交付,成为国内首款量产上车的舱驾融合超级智能体,其G-ASD 4.0就基于WAM。2026年目标高速L3和低速L4。

比亚迪的世界模型还在早期预研,2025年1月披露的信息显示,它内部参考了特斯拉路径,组建小团队快速试错,重点解决端到端智驾的Corner Case数据生成。

长城也提出了VLA+世界模型的下一代智驾方向,并且从“战略”走向了“量产”:2026年6月,长城在智能驾驶与出海大会上分享了VLA实践,保定的九州超算中心算力达到5 EFLOPS,GPU超过一万张,坦克700将成为首款搭载Coffee Pilot 4.0 VLA系统的车型,2026年内量产上车。超过200万辆的存量车队每天产生海量数据,这是长城相对于造车新势力最厚实的家底。

三、智驾供应商:

藏在车底的世界引擎

在车厂之外,还有一批供应商把世界模型做成了“隐形引擎”。

Momenta在2026年4月的北京车展上正式发布R7强化学习世界模型,并实现量产首发。

它是一个三层架构:世界模型预训练、世界模型仿真、强化学习。R7基于Momenta量产业务带来的超过120亿公里实车里程,从中提炼出超过1亿段“黄金数据”用于预训练,再让模型在仿真中经历海量长尾场景,最后用强化学习打磨。

Momenta直接把它嵌入端到端基座模型,目标是实现L4级标准。商业数据也在快速膨胀:搭载Momenta系统的量产车辆已突破90万台,成功交付超过100款量产车型,累计定点超过210款,方案落地英国、挪威、新加坡、澳新等超过10个国家和地区。

2026年6月,Momenta通过港交所聆讯,以“物理AI第一股”和65%的第三方城市NOA市占率冲刺IPO。足见其对世界模型的押注。

地平线在2026年5月发布了HorizonDrive,一个自回归世界模型,核心能力是分钟级的长时序驾驶视频生成。

它用video-VAE在潜在空间工作,输入高清地图、3D边界框和自车动作,再输出连续未来场景。

HorizonDrive的亮点是“自纠错”训练:通过SRR和TRD技术,让模型在生成错误时自己修正。在nuScenes上,它的FID降低52%、FVD降低37%、轨迹精度提升21%;单张RTX 5090能生成256×512的视频,速度5.6 FPS,或384×768视频1.7 FPS。它的定位是闭环自动驾驶仿真,帮助车企在不上路的情况下验证L3+系统。

毫末智行的DriveGPT是国内最早喊出“世界模型”口号的项目之一。

2023年4月发布的“雪湖·海若”是一个生成式自动驾驶大模型,用下一帧预测的方式构建4D表征空间。它背后是100亿帧互联网图片、480万段4D Clips和8700万公里辅助驾驶里程。

毫末走的路和特斯拉World Model、Wayve GAIA-1类似:让自动驾驶大模型从“看图片”进化到“看视频”,再进化到“预测视频”。它为长城魏牌、小魔驼无人车等场景提供能力。

元戎启行在2025年8月26日发布DeepRoute IO 2.0平台,搭载自研VLA模型。

2026年4月的北京车展上,元戎又进一步发布基座模型技术与物理AI战略,并亮出商业化数据:搭载其城市NOA方案的量产车辆突破30万辆,过去一年搭载元戎主动安全系统的车辆累计真实道路运行里程超过13亿公里,累计陪伴用户驾驶时长达4480万小时。

元戎没有单独命名一个世界模型,但DeepRoute IO 2.0的仿真和训练体系里,世界模型是隐含的核心。

四、创业公司和大厂:

两张地图,同一座城

而这张大厂布局表,是另一张地图。

两张地图指向同一座城:谁能让AI真正理解物理世界,谁就拥有下一个时代的入口。

创业公司的优势是专注和速度。

它们可以押注一条激进的路线,比如原生世界模型、3D空间生成、VLA物理引擎,不被现有业务牵绊。但它们缺数据、缺算力、缺量产渠道,更缺一个能把世界模型持续喂大的真实场景闭环。

大厂的劣势是组织惯性和多部门并行导致的命名混乱——阿里的三个世界模型项目甚至让外人分不清它们是不是同一件事。但大厂手里有数据、有算力、有用户、有车辆,还有把模型跑起来的工程体系。创业公司造的是“模型”,大厂造的是“系统”。

最危险的时刻,是当大厂把世界模型从“研究项目”变成“业务底座”的时候。华为盘古大模型服务于ADS和机器人,腾讯HY-World服务于游戏和工业,理想DrivingSphere服务于智驾迭代,商汤开悟已经量产上车,Momenta R7已跑在超过90万台车上——

这些不是发布会上的PPT,而是正在进入产品流水线的“能力”。对于创业公司来说,世界模型的窗口期正在收窄,未来的竞争会迅速从“谁能做出世界模型”变成“谁的世界模型能被大厂用得起、用得好”。

五、世界模型不是风口,

是旧战争的升级

世界模型不是一个新故事。

它是语言大模型、视频生成模型、自动驾驶端到端模型、机器人VLA模型在物理世界交汇后的自然产物。

大厂们纷纷入场,说明这件事已经从“技术极客玩具”变成了“产业基础设施”。

阿里、腾讯、字节、华为、百度、小米、商汤在数字世界和物理世界之间搭起桥;蔚来、理想、小鹏、吉利、比亚迪、长城把“桥”修到了汽车上;Momenta、地平线、毫末、元戎则在桥底下铺铁轨。

创业公司站在桥的尽头,手里握着更精巧的图纸,却不得不面对大厂正在调动工程队的事实。

接下来的一年,世界模型赛道的核心问题不会是“谁做了”,而是“谁的世界模型真的在替人理解世界”。

本文来自微信公众号: IT桔子 ,作者:Judy

热门币种推荐

相关问答

Q文章中提到,世界模型这个名称在业内存在命名混乱的现象,主要有哪些不同的叫法或定位?

A根据文章,世界模型在业内有多种叫法或定位,包括:世界模型、世界基座模型、物理AI。也有人将其功能融入自动驾驶大模型、视觉语言动作模型(VLA)或具身智能系统的架构中而不单独命名。

Q阿里巴巴在2026年6月发布的世界模型相关产品有哪些?它们分别指向或适用于哪些领域?

A阿里巴巴在2026年6月密集发布了三款世界模型相关产品:1. Qwen-AgentWorld:原生语言世界模型,主要作为智能体的“训练场”,专注于语言环境下的模拟与自主学习,适用于智能体开发。2. HappyOyster 1.0:更偏向生成开放式虚拟世界,定位为“可玩的电影片场”,适用于交互式游戏、虚拟陪伴、互动短剧、文旅体验等。3. Qwen-RobotWorld:面向物理世界的具身智能“思考大脑”,与操作模型、移动模型协同,旨在让机器人拥有可预演行动的内心世界。

Q华为和百度在推进世界模型方面有何共同策略特点?

A华为和百度在推进世界模型方面有一个显著的共同策略特点:不单独、高调地打出“世界模型”的品牌或口号。华为将相关能力深度整合在盘古大模型中,作为其智能汽车和具身智能的“训练底座”,服务于产业闭环。百度则在其自动驾驶大模型Apollo ADFM和文心大模型中内嵌世界模型能力,让两者互为表里,而不单独强调世界模型本身。

Q根据文章,车企(如蔚来、理想、小鹏)使用世界模型的核心目标是什么?与互联网大厂的目标有何主要区别?

A车企使用世界模型的核心目标是将其作为智能驾驶系统的“驾校和考场”,即在仿真环境中无限生成、推演和复盘各种驾驶场景(尤其是长尾、危险场景),以训练和打磨自动驾驶算法,降低对真实路测数据的依赖,并提升安全性与性能。与互联网大厂(如阿里、腾讯)相比,互联网大厂的目标更侧重于“造世界”,即在数字世界或虚拟世界中构建可交互、可编辑、可沉浸的平行宇宙,服务于游戏、社交、内容创作等更广泛的领域。

Q文章认为,创业公司和大厂在世界模型赛道上的竞争态势如何?各自的优劣势分别是什么?

A文章认为,创业公司和大厂在世界模型赛道上展现出“两张地图,同一座城”的竞争态势,即目标一致但路径和资源不同。创业公司的优势在于专注、速度快、能押注激进技术路线,劣势是缺乏数据、算力、量产渠道和真实场景闭环。大厂的劣势在于可能受组织惯性和多部门协调困扰(导致如命名混乱等问题),但优势是拥有海量数据、强大算力、海量用户/车辆以及成熟的工程化体系,能将世界模型从“研究项目”迅速转变为嵌入业务的“系统”或“能力”。文章指出,当大厂将世界模型变为“业务底座”时,创业公司的窗口期正在收窄,竞争将转向模型的实用性和成本效益。

你可能也喜欢

BNB链在52亿美元代币化股票交易推进中超越Solana

**BNB链在代币化股票交易量上超越Solana** **关键数据:** * BNB链累计代币化股票交易量达到52亿美元(主要由Ondo Finance贡献,占51.2亿美元),超过了Solana的45亿美元。 * **重要提示**:需区分BNB链的“代币化股票累计交易量”与Solana的“代币化股票累计转移量”这两个不同指标。 **核心内容:** BNB链在代币化股票这一新兴赛道上的交易活动已超过Solana。这一数据来源于Ondo Global Markets仪表板和DefiLlama的RWA指数。该变化反映了市场风险偏好的潜在转移,是观察当前资本流向和市场结构的信号之一,而非决定性的市场结论。 **对交易者的意义:** 代币化股票等现实世界资产产品已成为链上的重要叙事,关乎结算、准入和市场基础设施。BNB链在交易量指标上的领先显示了当前交易活动的聚集点。这类动态往往会波及相关交易领域,例如影响山寨币情绪、塑造机构头寸等,在市场流动性较薄时,其二次效应尤为重要。 **需要留意的关键点:** 加密货币市场极易将单一数据点快速放大为普遍叙事。正确的解读应更审慎:这是一个**信号**,而非**保证**。交易量数据的变化本身并不直接等同于长期持有者信心丧失或网络出现问题,其价值在于帮助理解市场参与者的头寸、信心和动机。 **后续关注点:** 下一步需观察后续数据流、链上指标、未平仓合约等是否能持续验证这一趋势。若持续,则可能成为一个更稳固的市场主题;若迅速消退,则可能只是短期头寸调整。在当前市场环境下,需结合更广泛的流动性、宏观条件和衍生品状况来综合解读这一信号。

bitcoinist6分钟前

BNB链在52亿美元代币化股票交易推进中超越Solana

bitcoinist6分钟前

交易

现货

热门文章

如何购买WAR

欢迎来到HTX.com!我们已经让购买WAR(WAR)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买WAR(WAR)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的WAR(WAR)购买完您的WAR(WAR)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易WAR(WAR)在HTX的现货市场轻松交易WAR(WAR)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

774人学过发布于 2024.12.11更新于 2026.06.02

如何购买WAR

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对WAR(WAR)币价的意见。

活动图片