京东和Open AI前CTO Mira Murati，押注了同一个AI赛道

marsbit发布于2026-06-24更新于2026-06-24

文章摘要

京东开源了全球首个全栈开源视觉语言交互模型JoyAI-VL-Interaction，旨在突破传统AI“问答式”交互的局限，让AI能够基于连续视频流主动感知、判断并在适当时机提供帮助，例如在老人摔倒或赛事关键时刻自动预警或解说。该模型将视觉作为核心驱动模态，能自主决定何时响应、保持沉默或移交复杂任务给后台大模型。其8B参数设计轻量，支持在单张3090显卡上部署，并已集成至vLLM-Omni。几乎同时，OpenAI前CTO Mira Murati创办的Thinking Machines Lab也提出了“交互模型”概念，预示主动交互正成为行业重要方向。京东凭借在零售、物流、健康等真实场景的积累，正构建大规模物理世界数据集，以推动视觉交互在家庭看护、机器人、工业巡检等领域的落地。通过全栈开源，京东希望降低开发门槛，加速AI在物理世界中的主动应用生态发展。

试想这样一个场景:

一位独居老人在客厅不慎滑倒,疼痛让他无法呼救。此刻,他身上的智能设备或家中的摄像头“看”到了异常,AI没有等待任何语音指令,便主动发出预警,迅速联系了家人或急救中心。

或者,你正在观看一场激烈的足球比赛,关键进球发生的瞬间,你来不及回放和提问,AI眼镜便自动为你提供了慢动作分析和战术解读。

这些场景已不再是对未来的幻想,而是京东刚刚开源的全球首个全栈开源视觉语言交互模型——JoyAI-VL-Interaction尝试解决的真实命题。

过去两年,大模型的能力边界被不断拓宽,但主流的交互方式仍停留在“用户提问,模型回答”的“回合制”逻辑。它高效,但在很多场景下并不合理。很多重要的事件发生的太快,用户来不及提问;很多场景也根本没有语音指令。

今年,一个判断正在成为行业共识:AI正在从“预测下一个Token”,走向“预测下一个物理状态”。这也意味着,AI要从被动的信息处理者,进化为主动参与者。

就在这个节点上,京东开源了JoyAI-VL-Interaction,这是全球首个全栈开源的实时视觉语言交互模型,能够在连续视频流中自主判断何时回应、何时保持沉默、何时把复杂任务交给后台模型。

JoyAI-VL-Interaction想证明的是:真正进入物理世界的AI,不应该一直等待着被问,它应该学会看见、主动判断,并在合适的时刻提供帮助。

这也是京东AI释放的更大信号:从模型能力到产业场景,AI竞争正在从屏幕里的问答,走向真实世界。

为什么是视觉语言交互?

在真实的物理世界里,大量关键信息发生在用户来不及提问的时刻。让人觉得“来不及”,有些时候是体验问题,更多时候是模式范式造成的能力边界问题。

行业并非意识不到这个局限性。

2026年上半年,实时交互成为多模态AI最热门的关键词。行业大体沿着两条路线前进:一条是把回合制对话做得更快,另一条是让语音通话更自然。

前者强调低延迟或任意输入输出,但内核仍然是“你问它才答”;后者让模型可以边听边说、随时被打断,体验更接近真人通话,但重心仍在语音场景。

问题在于,真实世界的大量变化并不会先变成一句话。火情、摔倒、车辆靠近、屏幕内容变化、生产线异常,都是画面先于语言出现。AI如果只能等人开口,就很难真正“在场”。

真正同时和京东做出了相同判断的,是Mira Murati创办的Thinking Machines Lab。5月11日,这家公司提出了interaction models(交互模型)的概念,并发布了些研究预览Demo,指出交互模型的自主响应范式,相较于传统一问一答范式存在更大Human-AI协同合作的想象力空间。

两个团队几乎在同一时间,收敛到了同一种思路,本身就是一个信号:把交互性作为模型自身的能力来规模化,是行业未来几年绕不开的方向。

差异在于,京东把视觉语言放到了更核心的位置,将语音抽离成可插拔的I/O,让视觉语言成为模型自主决策的“一等驱动模态”。

也就是说,从摄像头开启的那一刻起,JoyAI-VL-Interaction会持续"观看"物理世界的画面变化,并自主判断该不该开口、该说什么、该不该把任务交出去。

&amp;amp;amp;amp;nbsp;

这也是视觉交互的想象力所在:它可以用于老人和儿童看护、盲人辅助、AI眼镜、赛事解说、门店巡检、仓储物流、机器人协作等场景。用户不需要先把问题组织成一句话,AI就能从环境变化中捕捉需求。

因此,视觉不只是另一种输入方式,而是AI走向“预测下一个物理状态”不可替代的感知通道。

在京东JoyAI-VL-Interaction的技术报告里也强化了这一点,报告显示,在六个真实流式场景中,JoyAI-VL-Interaction对阵国内头部模型胜率达77.6%,对阵国外模型胜率达87.9%;在最考验事件捕捉能力的监控预警场景中,胜率达到100%。报告认为,差距并不只是回答质量,而是能不能在正确时刻行动。

只不过,完成视觉主动交互的确更难。

语音交互的数据获取相对直接,大量语音指令数据集让模型可以学习人类在什么时候说话、如何打断、如何接话,视觉交互需要的数据则完全不同。模型要学的是,在连续变化的画面中,什么信号值得回应、什么信号应该沉默。

&amp;amp;amp;amp;nbsp;

更深的壁垒是场景定义能力。在场景中,语音交互有一个天然的触发边界,用户开口说话就是交互的开始。视觉交互则没有明确的开始和结束,模型必须自己在无边界的信息流里判断边界。

京东的独特之处也在这里:这家公司并不是从抽象实验室里寻找场景,而是天然运行在零售、物流、健康、工业等真实业务网络中。

这意味着,京东AI面对的不是单一聊天入口,而是海量真实任务:货物如何流转,设备如何协同,机器人如何与人配合,异常如何被提前发现。模型可以在真实需求中学习,在真实反馈中迭代。

尽管技术路线有取舍,但未来通用AGI的交互形态一定是主动智能,智能体必须具备环境感知、自主决策和实时响应的完整循环。因此,不少公司不是不想做视觉交互大模型,而是目前还缺少让视觉交互长出来的土壤。这也是为什么资本和算力先涌向了语音交互赛道。

所以,京东选择从视觉切入,不只是技术路线选择,更是战略位置决定的。相比许多大模型玩家,京东更接近物理世界的运营现场,也更需要一种能主动感知和实时响应的AI。

想让这一天来得更快,就需要有人出发得更早。

轻量、开源、可部署

全球首个全栈开源,意味着什么?

重新定义交互范式,听起来宏大,但落到真实应用中,第一道门槛很朴素:AI不能总是打扰人,也不能在该提醒时沉默。

人们通常期待AI越能说越好,但在实时视觉交互的场景里,一个不停插话的模型并不聪明。真正有价值的能力,是在关键时刻主动出现,在无关时刻保持安静。

因此,JoyAI-VL-Interaction把“沉默”也训练成一种能力。模型需要掌握三层判断:什么场景下应该主动响应,什么场景下应该保持沉默,什么场景下应该把任务分发出去,交给其他模型。

这套能力如果只能停留在论文里,价值有限。京东此次强调“全栈开源”,关键就在于把模型、推理系统和应用搭建路径一起开放,让开发者能够真正跑起来、改起来、用起来。

京东选择的是更容易扩散的工程路线:8B参数模型,单张3090显卡就能完成部署。在这个参数下,个人开发者能跑、消费级硬件能承载、端侧设备能落地。

对于实时视觉交互来说,这种轻量化并不意味着能力缩水,而是分工更清楚。

JoyAI-VL-Interaction更像一个前置交互层,负责看见环境、判断时机、完成简短沟通,遇到需要深度推理的复杂任务,就自动分发给后台用户自选的OpenClaw、Codex、Claude Code等Agent,所以8B模型足够了。

例如,模型可以先对用户说“我来想一下”,然后把难题交给后台,自己继续保持在场;后台返回结果后,再把答案同步给用户。在这个过程中,它还可以继续帮用户完成其他即时交互。

京东在底层系统上也做了轻量化设计:通过视频编码、长程记忆和上下文压缩,模型可以在较低成本下持续观看长视频流,并把端到端延迟控制在亚秒级。对普通读者来说,重点不是这些技术名词,而是结果:AI能更长时间、更低门槛地留在真实场景里。

高性价比、可落地的选择,也直接导向了京东的开源策略。只有模型足够轻量、系统足够完整、部署门槛足够低,实时视觉交互才可能从少数团队的实验,变成更多开发者和企业共同探索的应用生态。

京东已经开源了这套推理系统,目标很明确:让拥有3090及以上显卡和摄像头的任何人,都能快速搭建一套属于自己的实时视觉交互应用。

JoyAI-VL-Interaction获得了vLLM-Omni的day-0支持,已经原生合入vLLM-Omni主线。

让AI回到物理世界

开源的目的,是把应用想象力交给更大的市场。因为技术突破的价值最终还是要由现实世界来检验。

JoyAI-VL-Interaction的第一批应用想象已经很直观:赛事直播中,AI可以在关键进球或绝杀瞬间自动解说;股票盯盘时,它可以持续观察屏幕变化并提醒异常;家庭看护中,它可以在老人摔倒、儿童靠近危险区域时主动预警;搭配AI眼镜,它可以帮助用户识别道路、商品、屏幕和周围环境;服务盲人时,它能把视觉信息转化为实时辅助。

对于京东来说,更期待的是它能落到机器人身上:一个懂得何时开口、何时沉默、何时求助后台系统的模型,能让机器人更高效,也更接近人们期待中的“有分寸感”的智能助手。

京东之所以敢在这个节点上“搅动”这个领域,根本原因在于它握着其他大模型玩家不具备的物理世界数据资产。

放在2026年的行业坐标里,物理世界数据资产的分量格外重。

2026年被业界称为“具身智能数据元年”,而在宏大的背景下,一个尖锐的矛盾是:高质量的物理交互数据极其稀缺,远不能满足大规模训练需求,算法迭代的瓶颈正从模型端全面转移到数据端。

在这个时间点上,京东宣布了要在两年内积累1000万小时高质量真实场景视频数据,动员60万人参与采集。

京东有3000多个真实业务场景、覆盖零售、物流、健康、工业等领域,今年还在宿迁创新出了社区网格采集模式,批量部署自研的JoyEgoCam头戴终端,动员周边中小企业和居民在真实作业场景里采集。

布局速度很快。3月,京东宣布在宿迁建成全球首个具身智能数据采集中心;4月,发布行业首个覆盖采、存、标、训、评、仿、测全链路的具身数据基础设施;5月,JoyEgoCam实现量产,持续采集第一视角数据。

这些数据是训练具身模型和视觉交互模型最稀缺的燃料。随着具身数据加入训练,JoyAI-VL-Interaction的价值也会从“一个能主动看见的模型”,进一步落到机器人、无人车、仓储、门店和家庭等更具体的物理空间。

在模型与应用之间,京东在6月3日开源的JoyAI-Echo同样扮演关键角色。Echo擅长的是长视频的实时生成,Interaction擅长实时理解与交互,一个月内连续开源两个模型,意味着京东已经打通了视频多模态的输入与输出两端,并把AI进军物理世界放到了更长期的位置。

今年的618启动发布会上,京东说要成为“全球最大物理世界运营中心”。

人机交互时代,行业越来越关注AI如何理解物理世界,京东的解题逻辑则与大多数大模型玩家都不同:这家公司本来就运行在物理世界之中。

仓储、配送、零售、健康、工业,都是AI和具身智能的训练场和试验场。仅仅是京东物流,五年内就将计划投入300万台机器人、100万台无人车、10万架无人机,这些硬件也会成为JoyAI-VL-Interaction的用武之地。

无论是语音还是视觉,交互模型本质上就是为了连接物理世界和数字世界,理解物理世界、调度数字世界。

开源,则是京东向外打开的第一扇窗。在这个需求推动技术的赛道上,京东把模型、训练数据和完整系统一起放出来,赌的是一件更长远的事:让主动交互从少数团队的判断,变成AI走向物理世界的一条主航道。

欢迎在vLLM-Omni上一键拉起服务体验,也可以在仓库下一键启动:

代码地址:https://github.com/jd-opensource/JoyAI-VL-Interaction

模型地址:https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview

数据集地址:https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction

技术报告地址:https://huggingface.co/papers/2606.14777

你可能也喜欢

以太坊质押税收争论因验证者重定向收入提案而爆发

一项名为“验证者重定向收益”的新提案在以太坊研究论坛发布，引发了对质押经济的激烈讨论。该提案旨在解决以太坊长期面临的公共物品和生态系统资金问题，试图让验证者能够将部分收益定向捐赠给选定的受益方，从而建立一种接近协议层的资金流，支持有利于以太坊整体发展的项目。然而，该机制迅速被批评者称为“质押税”，因为它触及了验证者的收入。尽管设计上强调验证者的自愿选择和集体决策，但反对声音担心，这种收益重定向在某些条件下可能变成强制行为，从而政治化验证过程，并围绕资金分配产生压力。支持者则认为，以太坊需要更可持续的长期资助模式，验证者应当能够围绕生态系统优先事项进行协调。目前，该提案仅处于早期讨论阶段，并未获得批准或成为以太坊共识的一部分。从论坛提议到最终协议变更，路径漫长且充满不确定性。尽管如此，由于质押经济是以太坊投资价值的核心，相关讨论仍可能引起ETH持有者的关注。当前这场争论更多是治理层面的探讨，而非实际的政策变化，市场参与者应将其视为一个观察信号，而非直接的交易指令。

bitcoinist18分钟前

bitcoinist18分钟前

IOSG创始人：以太坊不需要再来一次技术信仰，它需要一次马斯克式的妥协

IOSG创始人Jocy撰文指出，以太坊当前的核心问题并非缺乏技术信仰或路线图，而是需要一个“马斯克式的妥协”——即创始人Vitalik需要更深入地理解商业现实，并亲自推动以太坊在现实世界中的杀手级应用落地。文章认为，近期由前EF研究员和大型ETH持有方支持的ETHLabs等新机构的出现，是市场对以太坊基金会“无为而治”模式投下的不信任票。Vitalik与马斯克的根本区别在于，后者善于先吃透商业逻辑再驱动技术，而以太坊则习惯从技术和价值观出发，期待生态自行生长。在当下多链竞争、注意力向AI迁移的时代，这种模式的运气已不可持续。作者指出，以太坊面临的真正威胁是注意力的流失，而不仅仅是其他区块链的竞争。解决方案在于构建一个清晰的、能吸引顶尖人才的现实世界应用叙事。尽管以太坊基金会正试图通过分散化治理（如多节点独立决策）来应对挑战，但这可能带来方向碎片化、凝聚力不足的新问题。真正的凝聚力不能仅靠共同持有ETH资产，更需要一个所有人都看得懂并愿意押注的共同目标。文章最后强调，留给以太坊“俯身入局”、专注商业应用的时间窗口可能只有12到18个月，时间是其最无情的对手。创始人需要从仰望星空转向亲自下场，才能让理想之光真正照进现实。

marsbit1小时前

marsbit1小时前

Google开卖TPU，大厂想要靠AI芯片生产“低价token”

Google开始向第三方客户直接销售自研TPU芯片及配套AI算力硬件。TPU专为AI计算中的矩阵运算设计，能高效处理大模型所需的数学计算。此前TPU仅能通过Google云租用，此举被视作Google向AI基础设施市场扩张的关键一步。文章指出，Google此举并非单纯挑战英伟达的芯片性能，而是学习其模式，将芯片、数据中心、网络、软件等打包成完整的“生产力系统”进行销售。随着AI进入普及期，企业客户在追求算力速度的同时，也越来越关注算力的性价比和长期运行成本（尤其是推理阶段的token成本）。Google的TPU方案被认为在推理场景下更具成本优势。与此同时，云服务厂商如亚马逊、微软、华为云、阿里云等也都在构建自己的算力生态，将自研芯片（如华为昇腾、阿里平头哥）与云平台、工具链和行业解决方案整合。文章认为，AI算力正日益成为像水电一样的基础资源，未来市场竞争的关键不完全是“最强算力”，而是谁能以更低的成本和更高的效率，系统性提供“最优算力”。因此，AI基础设施的竞争已从“芯片大战”升级为“系统大战”。

marsbit1小时前

marsbit1小时前

别盲目申请，2026香港身份八大主流路径横评

最近香港人才政策调整频繁，形成了八大主流获取香港身份的途径，包括高才通(TTPS)、优才(QMAS)、技术专才(TP Stream)、职专VPAS等。这些计划各有其核心逻辑、企业聘用门槛及优缺点。本文通过一张全景对比图，清晰梳理了各路径的关键信息，旨在帮助读者避免盲目申请，节省可能高达数万元的中介费用。提醒所有申请人，最终应以香港入境事务处的官方公告为准。

marsbit1小时前

marsbit1小时前

研报解读：半导体板块涨了 155%，伯恩斯坦说 NVDA 和 AVGO 还“荒谬地便宜”

伯恩斯坦发布半导体行业季度报告指出，AI已成为半导体板块的核心驱动力。费城半导体指数过去一年大涨155.6%，主要受基本面强劲的支撑，EPS预期大幅提升。板块内部分化显著，内存、CPU等涨幅领先。报告认为，尽管板块整体估值处于历史高位，但英伟达（NVDA）和博通（AVGO）作为AI供应链最核心的环节，估值相对“荒谬地便宜”。基于其未来巨大的收入潜力，两者均获“跑赢大盘”评级。AMD因其在AI和CPU领域的双重机会也被上调至“跑赢大盘”。而高通（QCOM）因智能手机业务面临压力，增长乏力，评级维持“与大盘持平”。半导体设备和模拟芯片板块前景不一。设备商因产能建设需求持续被看好；模拟芯片虽在复苏，但估值已偏高，获“与大盘持平”评级。报告同时警示风险：板块交易拥挤度和库存水平均处于高位，若下游需求出现疲软，可能引发价格战。当前环境下，选股的重要性已超过单纯看多方向。

marsbit2小时前

研报解读：半导体板块涨了 155%，伯恩斯坦说 NVDA 和 AVGO 还“荒谬地便宜”

marsbit2小时前

交易

现货

合约

京东和Open AI前CTO Mira Murati，押注了同一个AI赛道

文章摘要

为什么是视觉语言交互?

轻量、开源、可部署

让AI回到物理世界

热门币种推荐

相关问答

你可能也喜欢

以太坊质押税收争论因验证者重定向收入提案而爆发

IOSG创始人：以太坊不需要再来一次技术信仰，它需要一次马斯克式的妥协

Google开卖TPU，大厂想要靠AI芯片生产“低价token”

别盲目申请，2026香港身份八大主流路径横评

研报解读：半导体板块涨了 155%，伯恩斯坦说 NVDA 和 AVGO 还“荒谬地便宜”

交易

热门文章

如何购买MIRA

Mira：突破性的去中心化AI验证网络，或将开启DeAI新时代

成长学院：学习“MIRA“ ，瓜分价值 8000 USDT代币奖励

相关讨论

热门问答

热门分类

热门标签