没有统一名字的战争：国内各家大厂的世界模型版图

marsbit发布于2026-06-25更新于2026-06-25

文章摘要

世界模型是AI领域的关键方向，但业内尚未有统一命名，常被称为世界基座模型、物理AI或融入自动驾驶大模型等。其核心目标是让机器在行动前，在内部构建可推演、复盘的动态环境，将真实世界压缩为可无限生成和测试的数据引擎，从而减少对真实数据的依赖。国内各大厂商已积极布局。**互联网巨头**中，阿里推出了面向语言、虚拟和物理世界的三个模型；腾讯侧重3D可编辑世界，服务于游戏和社交；字节跳动依托短视频数据秘密研发；华为、百度则将其作为智能汽车与自动驾驶的底层能力，不单独强调概念。**车企**将世界模型视为“驾校和考场”，用于生成和测试驾驶场景，提升智能驾驶系统能力，如蔚来、理想、小鹏、吉利等均有具体布局。**智驾供应商**如Momenta、地平线、毫末智行等，则将世界模型作为“隐形引擎”，嵌入端到端系统中，以强化仿真训练和闭环验证。创业公司虽专注灵活，但面临数据、算力和商业化闭环的挑战；而大厂凭借数据、算力和现有业务体系，正将世界模型从研究项目转化为业务底座。竞争正从“能否做出模型”转向“能否实现规模化应用”。世界模型并非短暂风口，而是语言大模型、视频生成、自动驾驶等技术在物理世界交汇的必然升级，成为未来产业基础设施的核心。

世界模型这个名称,在业内至今没有一张统一的名片。有人叫它世界模型,有人叫世界基座模型,有人叫物理AI,还有人把它藏在自动驾驶大模型、VLA或具身智能系统的架构里不单独命名。

阿里的Qwen-AgentWorld、HappyOyster、Qwen-RobotWorld分别指向语言世界、虚拟世界和物理世界;腾讯的HY-World偏向3D可编辑世界;车企更愿意说驾驶世界模型或世界行为模型;华为、百度干脆不单独喊出世界模型四个字。

命名的混乱背后,大家其实在做同一件事:

让机器在真正行动之前,先在内部建立一个可推演、可复盘的动态环境,降低对真实数据的无限依赖,把真实世界压缩成能够无限生成、无限犯错、无限重来的数据引擎。

当创业公司们还在为数据采集权和算力预算焦头烂额时,阿里巴巴、腾讯、华为、蔚来、小鹏、理想已经悄悄把世界模型铺成了一条新赛道。

世界模型是一种野心:让AI超越识别世界,在脑子里先过一遍世界。

自动驾驶的厂商想用它生成雨天、雪天、异型障碍物的“考卷”;具身智能团队想用它让机器人在仿真里摔够十万次再出门;游戏和社交公司则想用它造出一个人类可以沉浸进去的平行宇宙。

大厂入局的方式各有侧重,但核心目标一致:把真实世界压缩成可以无限推演、无限复盘的数据引擎。

一、互联网巨头:

从数字世界到物理世界

阿里的世界模型布局最像是“把货架上的东西一件件摆出来”。

2026年6月,它在十几天内接连抛出三张牌:

6月16日的Qwen-Robot系列、6月17日的HappyOyster 1.0、6月24日的Qwen-AgentWorld。

Qwen-AgentWorld是一款原生语言世界模型,它不生成图片,而是生成环境——MCP工具、搜索、终端、代码工程、Web、操作系统、Android七个环境里,模型能模拟真实交互、自主学习、用强化学习打磨自己。它提供两种规模:总参数35B和397B的MoE架构,激活参数分别为3B和17B;训练数据来自超过1000万条真实环境交互轨迹;模型和评测基准AgentWorldBench均已开源。这等于把世界模型当成智能体的“训练场”而不是“装饰品”。

HappyOyster 1.0则换了一副面孔,它更像是一个“可玩的电影片场”:用户给一句话或一张图,它生成一个开放式世界,并在“世界探索”和“实时导演”两种模式里让用户任意介入。探索模式支持长达1分钟的连续实时位移与镜头控制,导演模式可生成3分钟以上的480p/720p实时画面。阿里把它定位为交互式游戏、虚拟陪伴、互动短剧、文旅体验等行业入口。

Qwen-RobotWorld又走向另一个方向,它是阿里具身智能三件套里的“思考大脑”,与VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav协同,目标是让机器人拥有一个可以预演的内心世界。

三件事情合在一起,阿里正在同时争夺语言世界、虚拟世界和物理世界的定义权。

腾讯混元走的是另一条路,它的HY-World系列更像是在搭建“3D游戏的自动工厂”。

2025年7月,腾讯在WAIC上开源发布混元3D世界模型1.0;12月升级到1.5;2026年4月发布并开源HY-World 2.0。输入可以是文本、单图、多图、视频甚至白模,输出可以是3DGS、Mesh、点云。

2.0版本引入了HY-Pano 2.0、WorldNav、WorldStereo 2.0、WorldMirror 2.0等模块,把世界生成、世界重建、全景图、实时世界生成串成一个闭环。

腾讯的优势在于游戏和社交场景,HY-World真正的用户不是训练自动驾驶,而是做游戏关卡、做虚拟拍摄、做数字孪生。

字节跳动的世界模型项目则像是一次带着短视频数据基因的“秘密行军”。

2025年8月,The Information披露字节Seed团队正在研发世界模型,带队的是周畅,前通义千问核心成员。这个项目最大的底牌是抖音和TikTok每天超过10亿次的视频流,以及EX-4D框架——能把单目视频转成4D多视角场景。它对标的是谷歌Genie 3和Meta V-JEPA 2,目标不是做一个漂亮的视频生成器,而是构建一个能模拟物理规律的“数字孪生”。

2026年6月23日的火山引擎FORCE原动力大会上,字节没有直接发布这个世界模型,但亮出了豆包Seed 2.1系列、Seedance 2.5视频生成模型、Seedream 5.0 Pro生图模型和新的音频生成模型。

而36氪的独家报道则把字节2026年的AI战略概括为四个命题:世界模型年底要达到全球SOTA、Seedance探索动态生成、Coding巩固基础、豆包加速商业化。

这意味着,世界模型在字节内部是第一条命题,只是它选择先让Seedance和Doubao站在前台,自己继续憋大招。

华为盘古世界模型的气质则是“低调但致命”。

在2025年6月的开发者大会上,华为发布了盘古大模型,基于盘古多模态大模型,核心能力是从单张图片生成高精度的数字物理空间。它能预测碰撞、训练机械臂抓取,还能生成驾驶视频和激光雷达点云,帮助华为ADS端到端模型实现“两天一个版本”。

华为没有喊出“世界模型”的口号,而是把它当成智能汽车和具身智能的“训练底座”。与广汽的合作是典型案例:2D视频和3D点云像素级对应,数分钟复原复杂Corner Case。

2026年6月的HDC 2026上,华为把盘古大模型推到7.0,并发布昇腾910C,余承东重新挂帅盘古,但世界模型本身没有单独的新版本消息。

这种“世界模型不单独存在,而是服务于产业闭环”的思路,是华为一贯的风格。

百度在自动驾驶领域入局更早,2024年5月发布的Apollo ADFM被定位为“全球首个支持L4级无人驾驶的自动驾驶大模型”。

虽然百度没有把它命名为世界模型,但它本质上具备了世界模型的功能:通过端到端神经网络理解物理世界、预测交通参与者的行为。2025年11月,文心大模型5.0以原生全模态形态亮相,参数规模达到2.4万亿;2026年1月上线正式版。

百度的世界模型能力已经藏进更大的一盘棋里。百度的策略是:不单独谈世界模型,而是让Apollo和文心互为表里。

小米和商汤则代表了两种“技术流”。

小米2026年5月13日开源的Xiaomi OneVL,把VLA、世界模型和潜空间推理统一到一个框架里,强调视觉推理过程的可解释性,做的是自动驾驶和具身智能都能用的基础件。

商汤绝影的“开悟”更像是一个已经上岗的“老司机”,2025年9月弗若斯特沙利文的报告里,它被定义为行业首个已量产、可交互的世界模型,能生成150秒、1080P、11视角的驾驶视频,并沉淀下业内最大规模的生成式驾驶数据集WorldSim-Drive和千万级生成场景库。

2026年6月,由商汤联合创始人王晓刚创立的大晓机器人又宣布完成数亿美元融资,其开悟Kairos世界模型3.0在具身视频生成、任务指令追随等维度位居生成预测四大榜单榜首。

商汤系的世界模型,正在从智能汽车向机器人进一步蔓延。

二、车企:

把世界模型当成驾校和考场

如果说互联网大厂的世界模型是在“造世界”,那车企的世界模型就是在“用世界”。

蔚来是中国车企里最先把世界模型当成旗帜来挥舞的。

2024年7月的NIO IN上,任少卿发布NWM(NIO World Model),定位是中国首个智能驾驶世界模型。

它采用多元自回归生成架构,做两件事:空间上的“想象重建”和时间上的“想象推演”。

给一个真实场景,它能还原出3D世界;给一个三秒提示,它能生成两分钟以上的未来视频。每0.1秒,它推演216条轨迹,选出最优解。

蔚来的逻辑很清晰:端到端模型不够,真正聪明的智驾系统需要像人一样“闭眼也能想象路况”。2026年6月18日,蔚来正式推送全新版本NWM 2.0,覆盖超过70万全系用户,即便是四年前购车的老车主也能免费升级,Banyan、Cedar、Coconut+四大整车系统同步发版。新版在国内首次实现智驾模型直接输出方向盘、加减速踏板原始操作信号,并把训练体系从“世界模型+闭环强化学习”升级为“世界模型+监督微调+闭环强化学习”三层。AEB覆盖场景是标准AEB的6.7倍,误制动概率降到十万公里一次。

神玑NX9031芯片甚至被描述为“天生为世界模型设计”。

理想汽车在2024年下半年提出了“重建+生成”的世界模型思路,并在CVPR 2025发表了DrivingSphere。

它由OccDreamer扩散模型和VideoDreamer ST-DiT组成,构建了一个高保真4D闭环仿真环境。

传统开环仿真只能评价模型“看见了什么”,而闭环仿真能评价模型“做了什么”。理想的世界模型就像是一个可以无限生成错题的考场,让智驾系统在芯片里先把刁钻场景跑熟。

到了2026年6月的Livis Day,理想把这套能力进一步升级为“马赫VLA”,原生多模态MoE架构,感知、预测、规划统一,车端双M100芯片算力2560TOPS,反应时间0.28秒。

按照理想公布的路线图,第三季度会向AD Max用户推送全新马赫VLA,第四季度目标对齐特斯拉FSD V14。理想不再只是一家汽车公司,它正在把自己塑造成一个具身智能系统Livis的提供商。

小鹏汽车的路径则呈现出“先做大,再做精”的层次感。

2025年4月,小鹏在香港的AI技术分享会上首次披露正在研发720亿参数的超大规模自动驾驶“世界基座模型”。

一年后,2026年4月1日,小鹏正式发布X-World世界模型技术报告。

它基于视频扩散生成技术,在WAN 2.2的潜空间视频生成范式上改造,采用3D因果VAE和视角-时间自注意力DiT,支持7路环视摄像头跨视角一致生成。

X-World不是视频生成工具,而是小鹏第二代VLA的“现实世界模拟器”:仿真场景从一年前的3万个增加到50多万个,每日仿真测试里程等效3000万公里实车测试,并支持在线强化学习和海外数据生成。

2026年6月的CVPR上,小鹏又首次展示了完整的世界模型技术图谱。小鹏的野心写在它的应用范围里:AI汽车、AI机器人、飞行汽车。它的训练数据规模目标是2亿段clips,万卡集群提供10 EFLOPS算力,每5天迭代一次。

吉利汽车在2026年CES上亮出了WAM(World Action Model),并把它塞进全域AI 2.0体系。

WAM的分层架构很有意思:上层是多模态大模型MLLM负责理解,下层是Action Expert负责动作,中间是世界模型负责推演。

吉利的目标不是让智驾模型更好,而是让整车变成“一个大脑”——智驾、座舱、底盘、动力统一调度。2026年4月,极氪8X上市即交付,成为国内首款量产上车的舱驾融合超级智能体,其G-ASD 4.0就基于WAM。2026年目标高速L3和低速L4。

比亚迪的世界模型还在早期预研,2025年1月披露的信息显示,它内部参考了特斯拉路径,组建小团队快速试错,重点解决端到端智驾的Corner Case数据生成。

长城也提出了VLA+世界模型的下一代智驾方向,并且从“战略”走向了“量产”:2026年6月,长城在智能驾驶与出海大会上分享了VLA实践,保定的九州超算中心算力达到5 EFLOPS,GPU超过一万张,坦克700将成为首款搭载Coffee Pilot 4.0 VLA系统的车型,2026年内量产上车。超过200万辆的存量车队每天产生海量数据,这是长城相对于造车新势力最厚实的家底。

三、智驾供应商:

藏在车底的世界引擎

在车厂之外,还有一批供应商把世界模型做成了“隐形引擎”。

Momenta在2026年4月的北京车展上正式发布R7强化学习世界模型,并实现量产首发。

它是一个三层架构:世界模型预训练、世界模型仿真、强化学习。R7基于Momenta量产业务带来的超过120亿公里实车里程,从中提炼出超过1亿段“黄金数据”用于预训练,再让模型在仿真中经历海量长尾场景,最后用强化学习打磨。

Momenta直接把它嵌入端到端基座模型,目标是实现L4级标准。商业数据也在快速膨胀:搭载Momenta系统的量产车辆已突破90万台,成功交付超过100款量产车型,累计定点超过210款,方案落地英国、挪威、新加坡、澳新等超过10个国家和地区。

2026年6月,Momenta通过港交所聆讯,以“物理AI第一股”和65%的第三方城市NOA市占率冲刺IPO。足见其对世界模型的押注。

地平线在2026年5月发布了HorizonDrive,一个自回归世界模型,核心能力是分钟级的长时序驾驶视频生成。

它用video-VAE在潜在空间工作,输入高清地图、3D边界框和自车动作,再输出连续未来场景。

HorizonDrive的亮点是“自纠错”训练:通过SRR和TRD技术,让模型在生成错误时自己修正。在nuScenes上,它的FID降低52%、FVD降低37%、轨迹精度提升21%;单张RTX 5090能生成256×512的视频,速度5.6 FPS,或384×768视频1.7 FPS。它的定位是闭环自动驾驶仿真,帮助车企在不上路的情况下验证L3+系统。

毫末智行的DriveGPT是国内最早喊出“世界模型”口号的项目之一。

2023年4月发布的“雪湖·海若”是一个生成式自动驾驶大模型,用下一帧预测的方式构建4D表征空间。它背后是100亿帧互联网图片、480万段4D Clips和8700万公里辅助驾驶里程。

毫末走的路和特斯拉World Model、Wayve GAIA-1类似:让自动驾驶大模型从“看图片”进化到“看视频”,再进化到“预测视频”。它为长城魏牌、小魔驼无人车等场景提供能力。

元戎启行在2025年8月26日发布DeepRoute IO 2.0平台,搭载自研VLA模型。

2026年4月的北京车展上,元戎又进一步发布基座模型技术与物理AI战略,并亮出商业化数据:搭载其城市NOA方案的量产车辆突破30万辆,过去一年搭载元戎主动安全系统的车辆累计真实道路运行里程超过13亿公里,累计陪伴用户驾驶时长达4480万小时。

元戎没有单独命名一个世界模型,但DeepRoute IO 2.0的仿真和训练体系里,世界模型是隐含的核心。

四、创业公司和大厂:

两张地图,同一座城

而这张大厂布局表,是另一张地图。

两张地图指向同一座城:谁能让AI真正理解物理世界,谁就拥有下一个时代的入口。

创业公司的优势是专注和速度。

它们可以押注一条激进的路线,比如原生世界模型、3D空间生成、VLA物理引擎,不被现有业务牵绊。但它们缺数据、缺算力、缺量产渠道,更缺一个能把世界模型持续喂大的真实场景闭环。

大厂的劣势是组织惯性和多部门并行导致的命名混乱——阿里的三个世界模型项目甚至让外人分不清它们是不是同一件事。但大厂手里有数据、有算力、有用户、有车辆,还有把模型跑起来的工程体系。创业公司造的是“模型”,大厂造的是“系统”。

最危险的时刻,是当大厂把世界模型从“研究项目”变成“业务底座”的时候。华为盘古大模型服务于ADS和机器人,腾讯HY-World服务于游戏和工业,理想DrivingSphere服务于智驾迭代,商汤开悟已经量产上车,Momenta R7已跑在超过90万台车上——

这些不是发布会上的PPT,而是正在进入产品流水线的“能力”。对于创业公司来说,世界模型的窗口期正在收窄,未来的竞争会迅速从“谁能做出世界模型”变成“谁的世界模型能被大厂用得起、用得好”。

五、世界模型不是风口,

是旧战争的升级

世界模型不是一个新故事。

它是语言大模型、视频生成模型、自动驾驶端到端模型、机器人VLA模型在物理世界交汇后的自然产物。

大厂们纷纷入场,说明这件事已经从“技术极客玩具”变成了“产业基础设施”。

阿里、腾讯、字节、华为、百度、小米、商汤在数字世界和物理世界之间搭起桥;蔚来、理想、小鹏、吉利、比亚迪、长城把“桥”修到了汽车上;Momenta、地平线、毫末、元戎则在桥底下铺铁轨。

创业公司站在桥的尽头,手里握着更精巧的图纸,却不得不面对大厂正在调动工程队的事实。

接下来的一年,世界模型赛道的核心问题不会是“谁做了”,而是“谁的世界模型真的在替人理解世界”。

本文来自微信公众号: IT桔子 ,作者:Judy

你可能也喜欢

卡尔达诺基金会警告权益池运营商避免被动治理弃权

卡尔达诺基金会警告权益池运营商（SPO）不要默认采用“自动弃权”的被动治理方式，认为这会形成隐性的问责缺失，削弱伏尔泰时代的治理效果。基金会强调，手动审慎弃权是有效的，其警告主要针对的是不审阅提案内容就直接自动默认弃权的行为。对于交易者而言，此事之所以重要，是因为它反映了当前加密市场的资本、流动性或信心如何被定价。卡尔达诺的伏尔泰治理时代需要积极而非象征性的参与。基金会警示的这种“静默故障模式”——操作者形式上参与却自动弃权——可能影响网络治理的健康。关键点在于，不应将单一数据点过度解读为市场整体叙事。例如，资金流出不一定代表长期持有者失去信心，治理警告也不意味着网络崩溃。当前市场背景下，交易者需关注此信号是否会得到后续数据（如资金流、链上指标、治理仪表盘）的持续验证，从而形成更持久的市场主题，抑或只是短期波动。应结合更广泛的流动性、宏观环境和衍生品状况来综合理解这一信息。

bitcoinist5分钟前

bitcoinist5分钟前

BNB链在52亿美元代币化股票交易推进中超越Solana

**BNB链在代币化股票交易量上超越Solana** **关键数据：** * BNB链累计代币化股票交易量达到52亿美元（主要由Ondo Finance贡献，占51.2亿美元），超过了Solana的45亿美元。 * **重要提示**：需区分BNB链的“代币化股票累计交易量”与Solana的“代币化股票累计转移量”这两个不同指标。 **核心内容：** BNB链在代币化股票这一新兴赛道上的交易活动已超过Solana。这一数据来源于Ondo Global Markets仪表板和DefiLlama的RWA指数。该变化反映了市场风险偏好的潜在转移，是观察当前资本流向和市场结构的信号之一，而非决定性的市场结论。 **对交易者的意义：** 代币化股票等现实世界资产产品已成为链上的重要叙事，关乎结算、准入和市场基础设施。BNB链在交易量指标上的领先显示了当前交易活动的聚集点。这类动态往往会波及相关交易领域，例如影响山寨币情绪、塑造机构头寸等，在市场流动性较薄时，其二次效应尤为重要。 **需要留意的关键点：** 加密货币市场极易将单一数据点快速放大为普遍叙事。正确的解读应更审慎：这是一个**信号**，而非**保证**。交易量数据的变化本身并不直接等同于长期持有者信心丧失或网络出现问题，其价值在于帮助理解市场参与者的头寸、信心和动机。 **后续关注点：** 下一步需观察后续数据流、链上指标、未平仓合约等是否能持续验证这一趋势。若持续，则可能成为一个更稳固的市场主题；若迅速消退，则可能只是短期头寸调整。在当前市场环境下，需结合更广泛的流动性、宏观条件和衍生品状况来综合解读这一信号。

bitcoinist6分钟前

bitcoinist6分钟前

分析师认为瑞波币和币安币将在2026年末期争夺1000亿美元市值地位

**摘要**：分析师预测，瑞波币（XRP）和币安币（BNB）可能在2026年下半年冲击1000亿美元市值大关。这一观点源自金融媒体Finbold的研究报告（已于2026年6月29日重新验证），并参考了CoinMarketCap的市场排名。核心信息在于，这并非价格保证，而是基于历史图表和项目基本面的市场情绪与结构信号。对于交易者而言，此类叙事的重要性在于其反映了当前加密货币市场中资本、流动性及信心如何被定价。在主要由ETF资金流、杠杆、宏观决策和山寨币轮动驱动的市场里，背景解读至关重要。分析师强调，1000亿美元市值的讨论本质上是推测性的，但可作为市场情绪的参照。XRP和BNB体量足够大，使得该目标并非幻想，但仍需有利的市场环境和项目自身催化剂才能实现。报告提醒，需警惕市场常将单一数据点迅速放大为整体叙事。更审慎的解读应视其为信号而非确定性结果，需结合后续资金流、链上数据、未平仓合约及宏观流动性等多方面信息进行持续观察，以判断这是短期波动还是结构性趋势。

bitcoinist50分钟前

bitcoinist50分钟前

山寨币市值近900天重返起点，分析师指出关键支撑位

加密货币分析师Michaël van de Poppe指出，山寨币总市值已回吐了近900天的涨幅，几乎回到了2023年底的突破起点。这种大幅回撤对市场情绪造成严重打击，意味着整个山寨币市场在近三年时间里整体未能取得进展。此次回撤将市场带到了一个关键的技术支撑区域，即2023年底的突破位。该区域将成为重要的决策点：若能在此获得支撑并企稳，可能形成新一轮上涨的基础，成为长期投资者的积累区；反之，若跌破，则意味着之前的突破失败，前景将更加黯淡。分析师强调，山寨币走势高度依赖市场流动性、风险偏好以及比特币的表现。当前需要观察山寨币总市值能否从该支撑位持续复苏，并伴随成交量放大和更广泛板块的参与（如Layer-1、DeFi、基础设施、AI概念等），而非仅仅局限于 meme 币或极小市值币种的上涨。目前，市场已处于极度悲观状态。接下来，这个关键支撑位将成为检验市场强弱的试金石，决定了“近900天零进展”的故事是会终结还是进一步恶化。

bitcoinist50分钟前

bitcoinist50分钟前

Chainlink新增8000名持有者——LINK能否打破下跌趋势？

Chainlink（LINK）在价格低于局部高点的情况下，五天内新增超过8000名持有者，总非空钱包数达89.28万，显示出用户采用率持续增长。这一增长与实物资产代币化和机构区块链倡议引发的兴趣相关，反映了网络参与基础的扩大而非单纯投机。尽管LINK持续在下降通道内交易，但买家成功将价格维持在7美元需求区上方。相对强弱指数（RSI）约为34.6，处于弱势但未进入深度超卖，表明抛压有所缓和。同时，交易所持续出现净流出，日现货净流出达47.95万美元，意味着代币正从交易所转移至私人钱包，可能减少了即时卖压。衍生品市场方面，持仓量加权资金费率保持正数（0.0077%），显示多头交易者仍愿支付溢价持有头寸，维持看涨预期。然而，现货买盘力量尚不足以推动价格突破通道上轨阻力（约8.31美元）。总结而言，Chainlink在持有者增长、交易所流出和正向资金费率方面显示出积极迹象，关键支撑得以守住。若钱包增长和积累趋势延续，并在现货需求回升的配合下，LINK有望挑战当前的下行趋势。

ambcrypto54分钟前

ambcrypto54分钟前

交易

现货

没有统一名字的战争：国内各家大厂的世界模型版图

文章摘要

热门币种推荐

相关问答

你可能也喜欢

卡尔达诺基金会警告权益池运营商避免被动治理弃权

BNB链在52亿美元代币化股票交易推进中超越Solana

分析师认为瑞波币和币安币将在2026年末期争夺1000亿美元市值地位

山寨币市值近900天重返起点，分析师指出关键支撑位

Chainlink新增8000名持有者——LINK能否打破下跌趋势？

交易

热门文章

如何购买WAR

相关讨论

热门问答

热门分类

热门标签