用“视觉推理”探索物理世界AGI,ElorianAI融资5500万美元

marsbit發佈於 2026-04-23更新於 2026-04-23

文章摘要

AI大模型在编程和数学领域已超越人类水平,但在视觉推理方面,即使顶尖模型如Gemini 3 Pro也仅相当于3岁儿童。主要原因是现有视觉语言模型需先将视觉输入转为文本再进行推理,而许多视觉任务难以用文字精确描述,导致能力受限。 谷歌资深研究员Andrew Dai与苹果AI专家Yinfei Yang联合创立Elorian AI,旨在将模型的视觉推理能力从“儿童级”提升至“成人级”,并实现真正的视觉空间思考,以推动物理世界AGI发展。公司获5500万美元早期融资,由多家知名机构领投。 团队计划从底层架构革新,构建原生多模态模型,直接处理视觉表征以解析结构、关系和物理约束,而非依赖传统“文本中转”模式。他们强调高质量数据与混合比例的重要性,并深度使用合成数据。目标在2026年推出达到SOTA水平的视觉推理模型。 该技术有望应用于机器人、灾害管理、工程等领域,例如使机器人在危险环境中自主决策,或通过卫星图像预防森林火灾。若成功,将显著提升具身智能和AI硬件的可靠性,拓展工业、医疗等场景的应用潜力。中国企业在物理AI领域因数据和应用场景优势,有望实现全球领先。

文 | 阿尔法公社

AI大模型的能力,在某些方面已经超过了一般人,例如编程和数学。消息称,Anthropic内部已经几乎实现100%的AI编程,Google的Gemini Deep Think在IMO 2025 中做出了6道题中的5道,达到金牌水准。

但是在视觉推理上,即便是水平领先的Gemini 3 Pro,也在BabyVision这个测试基础视觉推理能力的Benchmark上仅达到3岁孩童的水平。

为什么大模型在编程和数学上很强,在视觉推理上却很弱?这是因为它的“思考方式”存在限制,视觉语言模型 (VLM) 需要先将视觉输入转化为语言,随后再进行基于文本的推理,但是诸多视觉任务根本无法用文字进行精确的描述,这也就造成了模型的视觉推理能力差。

在Google DeepMind工作14年的Andrew Dai,联手苹果资深的AI专家Yinfei Yang,创立了一家叫Elorian AI的公司,他们的目标是让模型的视觉推理能力从“儿童级别”提升到“成年级别”,并让模型具有真正在“视觉空间”内进行原生思考的能力,从而冲击物理世界的AGI。

Elorian AI获得Striker Venture Partners, Menlo Ventures以及Altimeter等联合领投的5500万美元早期融资,49 Palms及包括Jeff Dean在内的顶尖AI科学家参投。

多模态模型的先驱,想让视觉模型拥有推理能力

作为华人的Andrew Dai,剑桥计算机本科、爱丁堡机器学习博士,他博士期间就在谷歌实习,2012年加入谷歌,一直待了14年,直到创业。


图片来源:Andrew Dai的linkedin

加入谷歌不久后,他就和Quoc V. Le共同撰写了第一篇关于语言模型预训练和监督微调的论文《Semi-supervised Sequence Learning》。这篇论文为GPT的诞生奠定基础。他的另一篇奠基性质论文是《Glam: Efficient scaling of language models with mixture-of-experts》,这为现在主流的MoE架构,趟开了道路。

图片来源:Google

在Google期间,他还深度参与了几乎所有的大模型训练,从Plam到Gemini1.5和Gemini2.5。在Jeff Dean的安排下,他在2023年开始负责领导Gemini的数据板块(包括合成数据),这个团队的规模之后扩展到了数百人。

图片来源:Yinfei Yang的linkedin

与Andrew Dai共同创业的,是Yinfei Yang,他曾在Google Research工作过四年,专注于多模态表示学习,之后加入苹果,负责多模态模型的研发工作。

图片来源:arxiv

他的代表性研究成果《Scaling up visual and vision-language representation learning with noisy text supervision》推动了多模态表示学习的发展。

Elorian AI的联合创始人还包括Seth Neel,他曾经是哈佛大学的AP(助理教授),也是数据和AI领域的专家。

为什么要讨论Elorian AI的联合创始人们写了哪些开创性论文?因为他们要做的事情不是工程层面的优化,而是从底层架构上进行范式更新,要让AI从基于文本的智能理解升级到基于视觉的智能理解。

现在AI模型的状况是,尽管在基于文本的任务上表现优秀,但即使是最顶尖的前沿多模态大模型,依然会在最基础的视觉对齐 (Visual grounding) 任务上栽跟头。

例如,如何将某个零件严丝合缝地装入某套机械装置,使其运转得更精准、更高效?这类空间物理任务对于小学生来说都很简单,但是对于现有的多模态大模型却很难。

这仍然要从生物学中去找线索,在人类大脑中,视觉是支撑诸多思维过程的底层基质,人类利用视觉和空间推理的能力,远比用语言逻辑推理要久远得多。

例如,要教别人走通一段迷宫,用语言描述,会把人绕晕,画一张草图,却能让人秒懂。

再比如,即便是一只鸟,虽然不会语言,但能够通过视觉,辨认和推理地理特征,从而实现全球远程迁徙。这是一个强烈的信号,表明要真正推进机器的推理能力,视觉大概率就是正确的演进方向。

那么,想象一下,如果从模型构建的破局之初,就尝试将这种生物学上的视觉本能刻入AI的基因,构建一个能够“同时理解和处理文本、图像、视频和音频”的原生多模态模型,就能让模型具有视觉理解能力。Andrew Dai和团队要构建一个天生的“通感者”,教会机器不仅“看见”世界,还要“看懂”世界。

在Andrew Dai和团队看来,深刻认知真实的“物理世界”是实现下一代机器智能跃升、并最终触达“视觉通用人工智能 (Visual AGI)”的关键密匙。

推理后置的VLM不是通向视觉推理的正确路径

以往不是没有团队想要做这件事,其实Andrew Dai之前在得Gemini团队,已经是全球范围内多模态领域非常领先的团队。但是传统的多模态模型,仍然以VLM(视觉语言模型)为主,它的逻辑是建立在“两步走”的基础之上:首先将视觉输入转化为语言,随后再进行基于文本的推理(有时会辅助调用外部工具)。

然而后置的推理,本质上都有局限,一方面容易产生模型幻觉,另一方面很多视觉任务根本无法用文字进行精确描述。

此外,NanoBanana等视觉生成模型,在多模态生成上能力卓越,但是生成能力和推理能力并不画等号,它们在生成之前的“思考”,本质还是依赖语言模型,不是原生的推理能力。

若要开发出能够真正洞察视觉世界中空间、结构及关系复杂性的模型,势必需要在底层技术上进行颠覆性创新。

那么,怎么创新?Elorian AI的几位创始人在多模态领域浸淫多年,他们的做法是:将多模态训练与专为多模态推理设计的全新架构进行深度融合。摒弃了将图像视为静态输入的传统做法,转而训练模型去直接交互并操作视觉表征 (Visual representations)去自主解析其中的结构、关系与物理约束。  

当然,另一个核心要素是数据,它是决定这些模型性能和成败的关键。

Andrew Dai表示,他们很重视数据质量、数据混合比例、数据来源以及数据的多样性,并且在数据层进行了革新,在视觉空间中重构推理的链路,还大规模且深度地使用合成数据。

这些努力综合起来,将催生出能够跨越简单视觉“感知”,迈向高阶视觉“推理 ”的全新AI系统。

这个AI系统可以是视觉推理基础模型:即构建一个高度通用,但在特定能力集上表现极其优异的模型,这个特定能力就是视觉推理。

既然是一个通用基础模型,它的应用领域就应该广泛。

首先,在机器人赛道它可以成为强大系统的底层神经中枢,赋予其在各类陌生环境中自主作业的能力。

例如,在机器人赛道,把一个机器人派去处理危险环境中的某个突发安全故障。这就需要机器人做出快速而准确的瞬间决策。如果机器人缺乏深度推理能力的基础模型,人们不会敢让它去瞎按按钮或操作拉杆。而如果它能够有极强推理能力,它就可能思考:“在操作这个面板之前,也许我应该先拉下这根拉杆,激活安全防护机制。”

另外在灾害管理方面,具有视觉推理的模型可以通过分析卫星图像来监测和预防森林大火;在工程领域,它能精准看懂复杂的视觉图纸、系统原理图,这种能力的意义在于,物理世界的运作法则与纯代码世界有着本质的差异,你不能仅仅靠敲几行纯代码就设计出一架飞机的机翼。

不过,目前Elorian AI的模型、能力都暂时还停留在纸面上,他们计划在2026年发布一款在视觉推理领域达到SOTA水平的模型,届时可以检验他们的成果是否符合宣称。

当AI真的具备“视觉推理”能力,它将怎么改变物理世界?

为了让AI理解和影响真实的物理世界,技术已经迭代了好几次。

从传统CV时代的图像识别,到生成式AI的图像生成模型/多模态模型,再到世界模型,对于物理世界的理解一直在增强。

而视觉推理的基础模型,很有可能更进一步,因为能够实现视觉推理,AI就能更深度的理解物理世界,从而实现更高一层级的机器智能。

想象下,当具备深度理解和精细操作的模型为具身智能行业,以及AI硬件行业“充电”,将大大拓展它们的应用范围。例如,机器人可以进行对可靠性更高的工业生产,或者医疗护理领域;AI硬件,尤其是可穿戴设备,变成更聪明的个人助理。

不过,在这些技术的底层,仍然是数据。前文Andrew Dai也表示了,数据质量、数据混合比例、数据来源以及数据的多样性,都决定模型的性能。

在物理AI领域,中国的企业无论是在模型层面还是数据层面,相比文本大模型,都更接近世界领先。如果能够凭借数据,应用场景更丰富的优势,加快迭代的速度,那么无论是具身智能还是AI硬件,无论是应用在工业,医疗,还是家庭,都有更大的机会达到领先水平,当然也有机会跑出世界级的企业。

相關問答

QElorian AI的创始团队有哪些核心成员?

AElorian AI的创始团队包括在Google DeepMind工作14年的Andrew Dai、苹果AI专家Yinfei Yang,以及哈佛大学前助理教授Seth Neel。

Q为什么当前的多模态大模型在视觉推理任务上表现不佳?

A因为当前模型采用视觉语言模型(VLM)架构,需要先将视觉输入转化为语言再进行文本推理,但许多视觉任务无法用文字精确描述,导致推理能力受限。

QElorian AI计划如何提升模型的视觉推理能力?

A通过将多模态训练与专为多模态推理设计的新架构深度融合,直接操作视觉表征解析结构、关系和物理约束,并革新数据层,大规模使用合成数据。

Q视觉推理能力的突破可能应用于哪些领域?

A可应用于机器人自主作业(如危险环境操作)、灾害管理(如卫星图像分析火灾)、工程领域(解读复杂图纸),以及具身智能和AI硬件(如工业、医疗护理)。

QElorian AI的融资情况和计划发布时间是什么?

AElorian AI获得5500万美元早期融资,由Striker Venture Partners等领投,计划在2026年发布一款视觉推理领域的SOTA模型。

你可能也喜歡

交易

現貨
合約

熱門文章

如何購買AR

歡迎來到HTX.com!在這裡,購買Arweave (AR)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Arweave (AR)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Arweave (AR)購買Arweave (AR)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Arweave (AR)在HTX的現貨市場輕鬆交易Arweave (AR)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

671 人學過發佈於 2024.12.11更新於 2025.03.21

如何購買AR

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 AR (AR)幣價的意見。

活动图片