用“视觉推理”探索物理世界AGI,ElorianAI融资5500万美元
AI大模型在编程和数学领域已超越人类水平,但在视觉推理方面,即使顶尖模型如Gemini 3 Pro也仅相当于3岁儿童。主要原因是现有视觉语言模型需先将视觉输入转为文本再进行推理,而许多视觉任务难以用文字精确描述,导致能力受限。
谷歌资深研究员Andrew Dai与苹果AI专家Yinfei Yang联合创立Elorian AI,旨在将模型的视觉推理能力从“儿童级”提升至“成人级”,并实现真正的视觉空间思考,以推动物理世界AGI发展。公司获5500万美元早期融资,由多家知名机构领投。
团队计划从底层架构革新,构建原生多模态模型,直接处理视觉表征以解析结构、关系和物理约束,而非依赖传统“文本中转”模式。他们强调高质量数据与混合比例的重要性,并深度使用合成数据。目标在2026年推出达到SOTA水平的视觉推理模型。
该技术有望应用于机器人、灾害管理、工程等领域,例如使机器人在危险环境中自主决策,或通过卫星图像预防森林火灾。若成功,将显著提升具身智能和AI硬件的可靠性,拓展工业、医疗等场景的应用潜力。中国企业在物理AI领域因数据和应用场景优势,有望实现全球领先。
marsbit04/23 10:10