京东和Open AI前CTO Mira Murati,押注了同一个AI赛道

marsbit发布于2026-06-24更新于2026-06-24

文章摘要

京东开源了全球首个全栈开源视觉语言交互模型JoyAI-VL-Interaction,旨在突破传统AI“问答式”交互的局限,让AI能够基于连续视频流主动感知、判断并在适当时机提供帮助,例如在老人摔倒或赛事关键时刻自动预警或解说。该模型将视觉作为核心驱动模态,能自主决定何时响应、保持沉默或移交复杂任务给后台大模型。其8B参数设计轻量,支持在单张3090显卡上部署,并已集成至vLLM-Omni。 几乎同时,OpenAI前CTO Mira Murati创办的Thinking Machines Lab也提出了“交互模型”概念,预示主动交互正成为行业重要方向。京东凭借在零售、物流、健康等真实场景的积累,正构建大规模物理世界数据集,以推动视觉交互在家庭看护、机器人、工业巡检等领域的落地。通过全栈开源,京东希望降低开发门槛,加速AI在物理世界中的主动应用生态发展。

试想这样一个场景:

一位独居老人在客厅不慎滑倒,疼痛让他无法呼救。此刻,他身上的智能设备或家中的摄像头“看”到了异常,AI没有等待任何语音指令,便主动发出预警,迅速联系了家人或急救中心。

或者,你正在观看一场激烈的足球比赛,关键进球发生的瞬间,你来不及回放和提问,AI眼镜便自动为你提供了慢动作分析和战术解读。

这些场景已不再是对未来的幻想,而是京东刚刚开源的全球首个全栈开源视觉语言交互模型——JoyAI-VL-Interaction尝试解决的真实命题。

过去两年,大模型的能力边界被不断拓宽,但主流的交互方式仍停留在“用户提问,模型回答”的“回合制”逻辑。它高效,但在很多场景下并不合理。很多重要的事件发生的太快,用户来不及提问;很多场景也根本没有语音指令。

今年,一个判断正在成为行业共识:AI正在从“预测下一个Token”,走向“预测下一个物理状态”。这也意味着,AI要从被动的信息处理者,进化为主动参与者。

就在这个节点上,京东开源了JoyAI-VL-Interaction,这是全球首个全栈开源的实时视觉语言交互模型,能够在连续视频流中自主判断何时回应、何时保持沉默、何时把复杂任务交给后台模型。

JoyAI-VL-Interaction想证明的是:真正进入物理世界的AI,不应该一直等待着被问,它应该学会看见、主动判断,并在合适的时刻提供帮助。

这也是京东AI释放的更大信号:从模型能力到产业场景,AI竞争正在从屏幕里的问答,走向真实世界。

为什么是视觉语言交互?

在真实的物理世界里,大量关键信息发生在用户来不及提问的时刻。让人觉得“来不及”,有些时候是体验问题,更多时候是模式范式造成的能力边界问题。

行业并非意识不到这个局限性。

2026年上半年,实时交互成为多模态AI最热门的关键词。行业大体沿着两条路线前进:一条是把回合制对话做得更快,另一条是让语音通话更自然。

前者强调低延迟或任意输入输出,但内核仍然是“你问它才答”;后者让模型可以边听边说、随时被打断,体验更接近真人通话,但重心仍在语音场景。

问题在于,真实世界的大量变化并不会先变成一句话。火情、摔倒、车辆靠近、屏幕内容变化、生产线异常,都是画面先于语言出现。AI如果只能等人开口,就很难真正“在场”。

真正同时和京东做出了相同判断的,是Mira Murati创办的Thinking Machines Lab。5月11日,这家公司提出了interaction models(交互模型)的概念,并发布了些研究预览Demo,指出交互模型的自主响应范式,相较于传统一问一答范式存在更大Human-AI协同合作的想象力空间。

两个团队几乎在同一时间,收敛到了同一种思路,本身就是一个信号:把交互性作为模型自身的能力来规模化,是行业未来几年绕不开的方向。

差异在于,京东把视觉语言放到了更核心的位置,将语音抽离成可插拔的I/O,让视觉语言成为模型自主决策的“一等驱动模态”。

也就是说,从摄像头开启的那一刻起,JoyAI-VL-Interaction会持续"观看"物理世界的画面变化,并自主判断该不该开口、该说什么、该不该把任务交出去。

这也是视觉交互的想象力所在:它可以用于老人和儿童看护、盲人辅助、AI眼镜、赛事解说、门店巡检、仓储物流、机器人协作等场景。用户不需要先把问题组织成一句话,AI就能从环境变化中捕捉需求。

因此,视觉不只是另一种输入方式,而是AI走向“预测下一个物理状态”不可替代的感知通道。

在京东JoyAI-VL-Interaction的技术报告里也强化了这一点,报告显示,在六个真实流式场景中,JoyAI-VL-Interaction对阵国内头部模型胜率达77.6%,对阵国外模型胜率达87.9%;在最考验事件捕捉能力的监控预警场景中,胜率达到100%。报告认为,差距并不只是回答质量,而是能不能在正确时刻行动。

只不过,完成视觉主动交互的确更难。

语音交互的数据获取相对直接,大量语音指令数据集让模型可以学习人类在什么时候说话、如何打断、如何接话,视觉交互需要的数据则完全不同。模型要学的是,在连续变化的画面中,什么信号值得回应、什么信号应该沉默。

更深的壁垒是场景定义能力。在场景中,语音交互有一个天然的触发边界,用户开口说话就是交互的开始。视觉交互则没有明确的开始和结束,模型必须自己在无边界的信息流里判断边界。

京东的独特之处也在这里:这家公司并不是从抽象实验室里寻找场景,而是天然运行在零售、物流、健康、工业等真实业务网络中。

这意味着,京东AI面对的不是单一聊天入口,而是海量真实任务:货物如何流转,设备如何协同,机器人如何与人配合,异常如何被提前发现。模型可以在真实需求中学习,在真实反馈中迭代。

尽管技术路线有取舍,但未来通用AGI的交互形态一定是主动智能,智能体必须具备环境感知、自主决策和实时响应的完整循环。因此,不少公司不是不想做视觉交互大模型,而是目前还缺少让视觉交互长出来的土壤。这也是为什么资本和算力先涌向了语音交互赛道。

所以,京东选择从视觉切入,不只是技术路线选择,更是战略位置决定的。相比许多大模型玩家,京东更接近物理世界的运营现场,也更需要一种能主动感知和实时响应的AI。

想让这一天来得更快,就需要有人出发得更早。

轻量、开源、可部署

全球首个全栈开源,意味着什么?

重新定义交互范式,听起来宏大,但落到真实应用中,第一道门槛很朴素:AI不能总是打扰人,也不能在该提醒时沉默。

人们通常期待AI越能说越好,但在实时视觉交互的场景里,一个不停插话的模型并不聪明。真正有价值的能力,是在关键时刻主动出现,在无关时刻保持安静。

因此,JoyAI-VL-Interaction把“沉默”也训练成一种能力。模型需要掌握三层判断:什么场景下应该主动响应,什么场景下应该保持沉默,什么场景下应该把任务分发出去,交给其他模型。

这套能力如果只能停留在论文里,价值有限。京东此次强调“全栈开源”,关键就在于把模型、推理系统和应用搭建路径一起开放,让开发者能够真正跑起来、改起来、用起来。

京东选择的是更容易扩散的工程路线:8B参数模型,单张3090显卡就能完成部署。在这个参数下,个人开发者能跑、消费级硬件能承载、端侧设备能落地。

对于实时视觉交互来说,这种轻量化并不意味着能力缩水,而是分工更清楚。

JoyAI-VL-Interaction更像一个前置交互层,负责看见环境、判断时机、完成简短沟通,遇到需要深度推理的复杂任务,就自动分发给后台用户自选的OpenClaw、Codex、Claude Code等Agent,所以8B模型足够了。

例如,模型可以先对用户说“我来想一下”,然后把难题交给后台,自己继续保持在场;后台返回结果后,再把答案同步给用户。在这个过程中,它还可以继续帮用户完成其他即时交互。

京东在底层系统上也做了轻量化设计:通过视频编码、长程记忆和上下文压缩,模型可以在较低成本下持续观看长视频流,并把端到端延迟控制在亚秒级。对普通读者来说,重点不是这些技术名词,而是结果:AI能更长时间、更低门槛地留在真实场景里。

高性价比、可落地的选择,也直接导向了京东的开源策略。只有模型足够轻量、系统足够完整、部署门槛足够低,实时视觉交互才可能从少数团队的实验,变成更多开发者和企业共同探索的应用生态。

京东已经开源了这套推理系统,目标很明确:让拥有3090及以上显卡和摄像头的任何人,都能快速搭建一套属于自己的实时视觉交互应用。

JoyAI-VL-Interaction获得了vLLM-Omni的day-0支持,已经原生合入vLLM-Omni主线。

让AI回到物理世界

开源的目的,是把应用想象力交给更大的市场。因为技术突破的价值最终还是要由现实世界来检验。

JoyAI-VL-Interaction的第一批应用想象已经很直观:赛事直播中,AI可以在关键进球或绝杀瞬间自动解说;股票盯盘时,它可以持续观察屏幕变化并提醒异常;家庭看护中,它可以在老人摔倒、儿童靠近危险区域时主动预警;搭配AI眼镜,它可以帮助用户识别道路、商品、屏幕和周围环境;服务盲人时,它能把视觉信息转化为实时辅助。

对于京东来说,更期待的是它能落到机器人身上:一个懂得何时开口、何时沉默、何时求助后台系统的模型,能让机器人更高效,也更接近人们期待中的“有分寸感”的智能助手。

京东之所以敢在这个节点上“搅动”这个领域,根本原因在于它握着其他大模型玩家不具备的物理世界数据资产。

放在2026年的行业坐标里,物理世界数据资产的分量格外重。

2026年被业界称为“具身智能数据元年”,而在宏大的背景下,一个尖锐的矛盾是:高质量的物理交互数据极其稀缺,远不能满足大规模训练需求,算法迭代的瓶颈正从模型端全面转移到数据端。

在这个时间点上,京东宣布了要在两年内积累1000万小时高质量真实场景视频数据,动员60万人参与采集。

京东有3000多个真实业务场景、覆盖零售、物流、健康、工业等领域,今年还在宿迁创新出了社区网格采集模式,批量部署自研的JoyEgoCam头戴终端,动员周边中小企业和居民在真实作业场景里采集。

布局速度很快。3月,京东宣布在宿迁建成全球首个具身智能数据采集中心;4月,发布行业首个覆盖采、存、标、训、评、仿、测全链路的具身数据基础设施;5月,JoyEgoCam实现量产,持续采集第一视角数据。

这些数据是训练具身模型和视觉交互模型最稀缺的燃料。随着具身数据加入训练,JoyAI-VL-Interaction的价值也会从“一个能主动看见的模型”,进一步落到机器人、无人车、仓储、门店和家庭等更具体的物理空间。

在模型与应用之间,京东在6月3日开源的JoyAI-Echo同样扮演关键角色。Echo擅长的是长视频的实时生成,Interaction擅长实时理解与交互,一个月内连续开源两个模型,意味着京东已经打通了视频多模态的输入与输出两端,并把AI进军物理世界放到了更长期的位置。

今年的618启动发布会上,京东说要成为“全球最大物理世界运营中心”。

人机交互时代,行业越来越关注AI如何理解物理世界,京东的解题逻辑则与大多数大模型玩家都不同:这家公司本来就运行在物理世界之中。

仓储、配送、零售、健康、工业,都是AI和具身智能的训练场和试验场。仅仅是京东物流,五年内就将计划投入300万台机器人、100万台无人车、10万架无人机,这些硬件也会成为JoyAI-VL-Interaction的用武之地。

无论是语音还是视觉,交互模型本质上就是为了连接物理世界和数字世界,理解物理世界、调度数字世界。

开源,则是京东向外打开的第一扇窗。在这个需求推动技术的赛道上,京东把模型、训练数据和完整系统一起放出来,赌的是一件更长远的事:让主动交互从少数团队的判断,变成AI走向物理世界的一条主航道。

欢迎在vLLM-Omni上一键拉起服务体验,也可以在仓库下一键启动:

代码地址:https://github.com/jd-opensource/JoyAI-VL-Interaction

模型地址:https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview

数据集地址:https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction

技术报告地址:https://huggingface.co/papers/2606.14777

热门币种推荐

相关问答

Q京东开源的JoyAI-VL-Interaction模型的主要目标是什么?

A其主要目标是突破传统大模型“用户提问,模型回答”的被动交互范式,实现AI在连续视频流中的主动视觉感知、自主决策与实时响应。它旨在让AI能够‘看见’物理世界的变化,并判断何时主动提供帮助、何时保持沉默、何时将复杂任务分发给后台模型,从而在老人看护、赛事解说、工业巡检等来不及或无法语音提问的真实场景中发挥作用。

Q根据文章,视觉交互相比于语音交互面临的主要技术难点是什么?

A主要技术难点有两个方面:一是数据层面,视觉交互需要模型从连续变化的画面中学习“什么信号值得回应、什么信号应该沉默”,这类数据的获取和标注比直接的语音指令数据集更困难;二是场景定义层面,视觉交互没有像语音交互那样明确的“开口说话”作为交互触发边界,模型必须在无边界的信息流中自主判断交互的起始与结束,这要求极强的场景理解和决策能力。

Q京东选择将JoyAI-VL-Interaction设计为轻量级(8B参数)并全栈开源的原因是什么?

A京东选择轻量级(8B参数)设计,是为了降低部署门槛,让模型能够被个人开发者、消费级硬件(如单张3090显卡)以及端侧设备(如AI眼镜、机器人)所承载和运行,从而加速在真实场景中的落地。而采取“全栈开源”策略(开放模型、推理系统和应用路径),则是为了构建更广泛的应用生态,吸引更多开发者和企业共同探索实时视觉交互的可能性,将这项技术从少数团队的实验转变为可规模化应用的行业方向。

Q文章中提到,京东在推动AI进入物理世界方面有哪些独特优势?

A京东的独特优势主要体现在两个方面:一是丰富的物理世界业务场景与数据资产。其自身业务覆盖零售、物流、健康、工业等数千个真实场景,并启动了大规模的真实场景视频数据采集计划(如使用JoyEgoCam头戴终端),这为训练具身智能和视觉交互模型提供了稀缺且高质量的数据燃料。二是庞大的硬件部署规划。例如,京东物流计划在未来五年投入数百万台机器人、无人车和无人机,这些硬件将成为视觉交互模型的天然应用场和试验场,形成技术研发与产业应用闭环。

QJoyAI-VL-Interaction与京东同期开源的JoyAI-Echo模型有何关联?

AJoyAI-VL-Interaction和JoyAI-Echo共同构成了京东在视频多模态AI领域的布局闭环。JoyAI-VL-Interaction专注于视频的“输入”与“理解”端,擅长对连续视频流进行实时感知与交互;而JoyAI-Echo则专注于视频的“输出”与“生成”端,擅长长视频的实时内容生成。两者在功能上互补,一个月内连续开源,标志着京东打通了视频多模态从输入理解到输出生成的全链路能力,为其“让AI回到物理世界”的长期战略提供了技术支撑。

你可能也喜欢

IOSG创始人:以太坊不需要再来一次技术信仰,它需要一次马斯克式的妥协

IOSG创始人Jocy撰文指出,以太坊当前的核心问题并非缺乏技术信仰或路线图,而是需要一个“马斯克式的妥协”——即创始人Vitalik需要更深入地理解商业现实,并亲自推动以太坊在现实世界中的杀手级应用落地。 文章认为,近期由前EF研究员和大型ETH持有方支持的ETHLabs等新机构的出现,是市场对以太坊基金会“无为而治”模式投下的不信任票。Vitalik与马斯克的根本区别在于,后者善于先吃透商业逻辑再驱动技术,而以太坊则习惯从技术和价值观出发,期待生态自行生长。在当下多链竞争、注意力向AI迁移的时代,这种模式的运气已不可持续。 作者指出,以太坊面临的真正威胁是注意力的流失,而不仅仅是其他区块链的竞争。解决方案在于构建一个清晰的、能吸引顶尖人才的现实世界应用叙事。尽管以太坊基金会正试图通过分散化治理(如多节点独立决策)来应对挑战,但这可能带来方向碎片化、凝聚力不足的新问题。真正的凝聚力不能仅靠共同持有ETH资产,更需要一个所有人都看得懂并愿意押注的共同目标。 文章最后强调,留给以太坊“俯身入局”、专注商业应用的时间窗口可能只有12到18个月,时间是其最无情的对手。创始人需要从仰望星空转向亲自下场,才能让理想之光真正照进现实。

marsbit1小时前

IOSG创始人:以太坊不需要再来一次技术信仰,它需要一次马斯克式的妥协

marsbit1小时前

交易

现货
合约

热门文章

如何购买MIRA

欢迎来到HTX.com!我们已经让购买Mira(MIRA)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Mira(MIRA)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Mira(MIRA)购买完您的Mira(MIRA)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Mira(MIRA)在HTX的现货市场轻松交易Mira(MIRA)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

790人学过发布于 2025.09.25更新于 2026.06.02

如何购买MIRA

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对MIRA(MIRA)币价的意见。

活动图片