用“视觉推理”探索物理世界AGI，ElorianAI融资5500万美元

marsbit發佈於 2026-04-23更新於 2026-04-23

文章摘要

AI大模型在编程和数学领域已超越人类水平，但在视觉推理方面，即使顶尖模型如Gemini 3 Pro也仅相当于3岁儿童。主要原因是现有视觉语言模型需先将视觉输入转为文本再进行推理，而许多视觉任务难以用文字精确描述，导致能力受限。谷歌资深研究员Andrew Dai与苹果AI专家Yinfei Yang联合创立Elorian AI，旨在将模型的视觉推理能力从“儿童级”提升至“成人级”，并实现真正的视觉空间思考，以推动物理世界AGI发展。公司获5500万美元早期融资，由多家知名机构领投。团队计划从底层架构革新，构建原生多模态模型，直接处理视觉表征以解析结构、关系和物理约束，而非依赖传统“文本中转”模式。他们强调高质量数据与混合比例的重要性，并深度使用合成数据。目标在2026年推出达到SOTA水平的视觉推理模型。该技术有望应用于机器人、灾害管理、工程等领域，例如使机器人在危险环境中自主决策，或通过卫星图像预防森林火灾。若成功，将显著提升具身智能和AI硬件的可靠性，拓展工业、医疗等场景的应用潜力。中国企业在物理AI领域因数据和应用场景优势，有望实现全球领先。

文 | 阿尔法公社

AI大模型的能力，在某些方面已经超过了一般人，例如编程和数学。消息称，Anthropic内部已经几乎实现100%的AI编程，Google的Gemini Deep Think在IMO 2025 中做出了6道题中的5道，达到金牌水准。

但是在视觉推理上，即便是水平领先的Gemini 3 Pro，也在BabyVision这个测试基础视觉推理能力的Benchmark上仅达到3岁孩童的水平。

为什么大模型在编程和数学上很强，在视觉推理上却很弱？这是因为它的“思考方式”存在限制，视觉语言模型 (VLM) 需要先将视觉输入转化为语言，随后再进行基于文本的推理，但是诸多视觉任务根本无法用文字进行精确的描述，这也就造成了模型的视觉推理能力差。

在Google DeepMind工作14年的Andrew Dai，联手苹果资深的AI专家Yinfei Yang，创立了一家叫Elorian AI的公司，他们的目标是让模型的视觉推理能力从“儿童级别”提升到“成年级别”，并让模型具有真正在“视觉空间”内进行原生思考的能力，从而冲击物理世界的AGI。

Elorian AI获得Striker Venture Partners, Menlo Ventures以及Altimeter等联合领投的5500万美元早期融资，49 Palms及包括Jeff Dean在内的顶尖AI科学家参投。

多模态模型的先驱，想让视觉模型拥有推理能力

作为华人的Andrew Dai，剑桥计算机本科、爱丁堡机器学习博士，他博士期间就在谷歌实习，2012年加入谷歌，一直待了14年，直到创业。

图片来源：Andrew Dai的linkedin

加入谷歌不久后，他就和Quoc V. Le共同撰写了第一篇关于语言模型预训练和监督微调的论文《Semi-supervised Sequence Learning》。这篇论文为GPT的诞生奠定基础。他的另一篇奠基性质论文是《Glam: Efficient scaling of language models with mixture-of-experts》，这为现在主流的MoE架构，趟开了道路。

图片来源：Google

在Google期间，他还深度参与了几乎所有的大模型训练，从Plam到Gemini1.5和Gemini2.5。在Jeff Dean的安排下，他在2023年开始负责领导Gemini的数据板块（包括合成数据），这个团队的规模之后扩展到了数百人。

图片来源：Yinfei Yang的linkedin

与Andrew Dai共同创业的，是Yinfei Yang，他曾在Google Research工作过四年，专注于多模态表示学习，之后加入苹果，负责多模态模型的研发工作。

图片来源：arxiv

他的代表性研究成果《Scaling up visual and vision-language representation learning with noisy text supervision》推动了多模态表示学习的发展。

Elorian AI的联合创始人还包括Seth Neel，他曾经是哈佛大学的AP（助理教授），也是数据和AI领域的专家。

为什么要讨论Elorian AI的联合创始人们写了哪些开创性论文？因为他们要做的事情不是工程层面的优化，而是从底层架构上进行范式更新，要让AI从基于文本的智能理解升级到基于视觉的智能理解。

现在AI模型的状况是，尽管在基于文本的任务上表现优秀，但即使是最顶尖的前沿多模态大模型，依然会在最基础的视觉对齐 (Visual grounding) 任务上栽跟头。

例如，如何将某个零件严丝合缝地装入某套机械装置，使其运转得更精准、更高效？这类空间物理任务对于小学生来说都很简单，但是对于现有的多模态大模型却很难。

这仍然要从生物学中去找线索，在人类大脑中，视觉是支撑诸多思维过程的底层基质，人类利用视觉和空间推理的能力，远比用语言逻辑推理要久远得多。

例如，要教别人走通一段迷宫，用语言描述，会把人绕晕，画一张草图，却能让人秒懂。

再比如，即便是一只鸟，虽然不会语言，但能够通过视觉，辨认和推理地理特征，从而实现全球远程迁徙。这是一个强烈的信号，表明要真正推进机器的推理能力，视觉大概率就是正确的演进方向。

那么，想象一下，如果从模型构建的破局之初，就尝试将这种生物学上的视觉本能刻入AI的基因，构建一个能够“同时理解和处理文本、图像、视频和音频”的原生多模态模型，就能让模型具有视觉理解能力。Andrew Dai和团队要构建一个天生的“通感者”，教会机器不仅“看见”世界，还要“看懂”世界。

在Andrew Dai和团队看来，深刻认知真实的“物理世界”是实现下一代机器智能跃升、并最终触达“视觉通用人工智能 (Visual AGI)”的关键密匙。

推理后置的VLM不是通向视觉推理的正确路径

以往不是没有团队想要做这件事，其实Andrew Dai之前在得Gemini团队，已经是全球范围内多模态领域非常领先的团队。但是传统的多模态模型，仍然以VLM（视觉语言模型）为主，它的逻辑是建立在“两步走”的基础之上：首先将视觉输入转化为语言，随后再进行基于文本的推理（有时会辅助调用外部工具）。

然而后置的推理，本质上都有局限，一方面容易产生模型幻觉，另一方面很多视觉任务根本无法用文字进行精确描述。

此外，NanoBanana等视觉生成模型，在多模态生成上能力卓越，但是生成能力和推理能力并不画等号，它们在生成之前的“思考”，本质还是依赖语言模型，不是原生的推理能力。

若要开发出能够真正洞察视觉世界中空间、结构及关系复杂性的模型，势必需要在底层技术上进行颠覆性创新。

那么，怎么创新？Elorian AI的几位创始人在多模态领域浸淫多年，他们的做法是：将多模态训练与专为多模态推理设计的全新架构进行深度融合。摒弃了将图像视为静态输入的传统做法，转而训练模型去直接交互并操作视觉表征 (Visual representations)去自主解析其中的结构、关系与物理约束。

当然，另一个核心要素是数据，它是决定这些模型性能和成败的关键。

Andrew Dai表示，他们很重视数据质量、数据混合比例、数据来源以及数据的多样性，并且在数据层进行了革新，在视觉空间中重构推理的链路，还大规模且深度地使用合成数据。

这些努力综合起来，将催生出能够跨越简单视觉“感知”，迈向高阶视觉“推理 ”的全新AI系统。

这个AI系统可以是视觉推理基础模型：即构建一个高度通用，但在特定能力集上表现极其优异的模型，这个特定能力就是视觉推理。

既然是一个通用基础模型，它的应用领域就应该广泛。

首先，在机器人赛道它可以成为强大系统的底层神经中枢，赋予其在各类陌生环境中自主作业的能力。

例如，在机器人赛道，把一个机器人派去处理危险环境中的某个突发安全故障。这就需要机器人做出快速而准确的瞬间决策。如果机器人缺乏深度推理能力的基础模型，人们不会敢让它去瞎按按钮或操作拉杆。而如果它能够有极强推理能力，它就可能思考：“在操作这个面板之前，也许我应该先拉下这根拉杆，激活安全防护机制。”

另外在灾害管理方面，具有视觉推理的模型可以通过分析卫星图像来监测和预防森林大火；在工程领域，它能精准看懂复杂的视觉图纸、系统原理图，这种能力的意义在于，物理世界的运作法则与纯代码世界有着本质的差异，你不能仅仅靠敲几行纯代码就设计出一架飞机的机翼。

不过，目前Elorian AI的模型、能力都暂时还停留在纸面上，他们计划在2026年发布一款在视觉推理领域达到SOTA水平的模型，届时可以检验他们的成果是否符合宣称。

当AI真的具备“视觉推理”能力，它将怎么改变物理世界？

为了让AI理解和影响真实的物理世界，技术已经迭代了好几次。

从传统CV时代的图像识别，到生成式AI的图像生成模型/多模态模型，再到世界模型，对于物理世界的理解一直在增强。

而视觉推理的基础模型，很有可能更进一步，因为能够实现视觉推理，AI就能更深度的理解物理世界，从而实现更高一层级的机器智能。

想象下，当具备深度理解和精细操作的模型为具身智能行业，以及AI硬件行业“充电”，将大大拓展它们的应用范围。例如，机器人可以进行对可靠性更高的工业生产，或者医疗护理领域；AI硬件，尤其是可穿戴设备，变成更聪明的个人助理。

不过，在这些技术的底层，仍然是数据。前文Andrew Dai也表示了，数据质量、数据混合比例、数据来源以及数据的多样性，都决定模型的性能。

在物理AI领域，中国的企业无论是在模型层面还是数据层面，相比文本大模型，都更接近世界领先。如果能够凭借数据，应用场景更丰富的优势，加快迭代的速度，那么无论是具身智能还是AI硬件，无论是应用在工业，医疗，还是家庭，都有更大的机会达到领先水平，当然也有机会跑出世界级的企业。

你可能也喜歡

GSR推出多资产加密ETF，提供质押收益

2026年4月22日，机构加密货币交易平台GSR推出了其首支加密货币交易所交易基金（ETF）——Crypto Core3 ETF（代码BESO），首日交易额约达500万美元。该ETF在纳斯达克上市，是首支同时覆盖比特币、以太坊和Solana三大主流加密货币，并提供质押收益及动态分配策略的美国ETF产品。 BESO采用研究驱动的动态调仓策略，每周根据市场信号调整三种加密货币的配置比例，以最大化收益。根据GSR发布的研究模型，初始配置中以太坊占51.4%，Solana占41.67%，比特币仅占6.93%。该基金收取1%的管理费。 GSR由两位前高盛交易员于2013年创立，现已成为领先的加密货币做市商。其CEO表示，推出ETF旨在吸引更广泛的投资者群体。此次推出恰逢多家华尔街机构积极布局加密货币ETF，例如摩根士丹利的现货比特币ETF自4月8日上市以来已净流入1.638亿美元，高盛也于4月14日申请了比特币收益增强型ETF。此外，新闻中还提及了孙宇晨与世界自由金融就代币冻结纠纷提起诉讼的事件。

TheNewsCrypto28 分鐘前

TheNewsCrypto28 分鐘前

姚顺雨的88天

腾讯混元大模型Hy3 preview发布，这是姚顺雨加入腾讯后推出的首款产品。该模型采用MoE架构，总参数量295B，支持256K上下文长度，从启动训练到发布仅用88天。此前，腾讯在年会上公开反思混元大模型发展滞后，存在“背题应考”、泛化能力不足、内部业务不愿接入等问题。姚顺雨于2025年9月加入腾讯，推动组织架构重组，撤销AI Lab，新设AI Infra等部门，全面聚焦混元研发。Hy3 preview采用与业务协同设计（Co-design）策略，已在元宝、QQ等核心业务中实测应用，强调从“打榜”转向真实场景落地。腾讯还通过接入DeepSeek和OpenClaw等外部技术过渡，为混元重建争取时间。当前行业竞争激烈，阿里、Kimi、字节等密集发布新模型，腾讯需持续以组织效率提升应对窗口期挑战。混元真正的转变在于拆除了模型与产品、研究与工程之间的墙，推动AI重写组织基因。

marsbit52 分鐘前

marsbit52 分鐘前

a16z：区块链如何填补AI Agent身份、支付与信任的空白？

AI Agent正从辅助工具演变为真正的经济参与者，但面临身份、支付和信任的空白。区块链技术可提供解决方案：通过公共账本、可移植钱包和稳定币，为Agent提供跨平台身份验证、可编程支付和审计能力。当前非人类身份数量远超人类，但Agent缺乏标准化身份层（如KYA“了解你的Agent”），导致协作碎片化。区块链可提供中立的身份与支付基础设施，支持Agent无许可运行。在治理层面，AI系统若由单一提供商控制，存在权威中心化风险。加密技术可确保模型行为透明、指令不可篡改，并通过链上记录实现可信执行。支付方面，稳定币成为Agent间交易的新结算层，支持无头商户和嵌入式支付，降低传统支付系统的承保障碍。随着AI执行成本趋零，验证成为新瓶颈。区块链提供可审计来源和责任追溯，将人类角色从微观监督转向战略决策。加密工具（如作用域委托和基于意图的架构）则帮助用户设定Agent权限，减少盲目信任，维护控制权。

marsbit1 小時前

marsbit1 小時前

这一次，OpenAI干掉了90%人类设计师

OpenAI发布新一代图像生成模型GPT-Image 2，标志着AI绘图从“画得像”迈入“逻辑对”的新阶段。该模型具备思维建模能力，能在生成图像前进行逻辑推理，例如准确计算里程、匹配地理信息并遵循UI规范。其图像质量在多项评测中登顶，可生成包含精准中文、复杂构图和商业级设计的图像，成本仅需几美元。模型支持多轮对话修改，通过Responses API实现自然交互，显著提升了汉字渲染能力，几乎杜绝了以往常见的乱码问题，但仍存在小字模糊等技术局限。尽管在处理极端复杂任务时可能出现延迟，且面临深度伪造的伦理挑战，GPT-Image 2已被视为可直接投入商业应用的生产力工具，可能对90%的设计师岗位造成冲击。

marsbit2 小時前

marsbit2 小時前

200亿估值，阿里、腾讯争投，梁文锋会拿谁的钱？

DeepSeek融资出现变局，阿里和腾讯正洽谈投资，估值预期被抬至200亿美元以上，较此前100亿美元估值翻倍。DeepSeek一直由母公司幻方量化支持，未接受外部投资，创始人梁文锋以独立著称，如今首次开放融资窗口。 200亿美元估值使DeepSeek成为中国创业系大模型厂商中最贵的一档，融资额可能在6亿至20亿美元之间。资金将用于缓解资本开支压力、稳定核心团队，并换取算力、渠道等非资金资源。阿里和腾讯的争夺源于生态战略需求，双方希望将DeepSeek纳入自身AI布局，避免错过头部通用大模型的最后投资机会。DeepSeek的稀缺性随其他厂商加速上市而逐渐稀释，投资窗口有限。梁文锋面临关键抉择：接受大厂投资可能获得资源但损害独立性；国资背景资金虽支持技术自由但决策慢；纯财务投资者缺乏产业协同。最终选择将影响DeepSeek的未来定位与发展路径。

marsbit2 小時前

marsbit2 小時前

交易

現貨

合約

用“视觉推理”探索物理世界AGI，ElorianAI融资5500万美元

文章摘要

多模态模型的先驱，想让视觉模型拥有推理能力

推理后置的VLM不是通向视觉推理的正确路径

当AI真的具备“视觉推理”能力，它将怎么改变物理世界？

相關問答

你可能也喜歡

GSR推出多资产加密ETF，提供质押收益

姚顺雨的88天

a16z：区块链如何填补AI Agent身份、支付与信任的空白？

这一次，OpenAI干掉了90%人类设计师

200亿估值，阿里、腾讯争投，梁文锋会拿谁的钱？

交易

熱門文章

如何購買AR

相關討論

熱門問答

熱門分類

熱門標籤