视觉语言模型相关新闻 - HTX 视觉语言模型资讯汇总

用“视觉推理”探索物理世界AGI，ElorianAI融资5500万美元

AI大模型在编程和数学领域已超越人类水平，但在视觉推理方面，即使顶尖模型如Gemini 3 Pro也仅相当于3岁儿童。主要原因是现有视觉语言模型需先将视觉输入转为文本再进行推理，而许多视觉任务难以用文字精确描述，导致能力受限。谷歌资深研究员Andrew Dai与苹果AI专家Yinfei Yang联合创立Elorian AI，旨在将模型的视觉推理能力从“儿童级”提升至“成人级”，并实现真正的视觉空间思考，以推动物理世界AGI发展。公司获5500万美元早期融资，由多家知名机构领投。团队计划从底层架构革新，构建原生多模态模型，直接处理视觉表征以解析结构、关系和物理约束，而非依赖传统“文本中转”模式。他们强调高质量数据与混合比例的重要性，并深度使用合成数据。目标在2026年推出达到SOTA水平的视觉推理模型。该技术有望应用于机器人、灾害管理、工程等领域，例如使机器人在危险环境中自主决策，或通过卫星图像预防森林火灾。若成功，将显著提升具身智能和AI硬件的可靠性，拓展工业、医疗等场景的应用潜力。中国企业在物理AI领域因数据和应用场景优势，有望实现全球领先。

marsbit04/23 10:10

marsbit04/23 10:10

# 视觉语言模型的所有文章

用“视觉推理”探索物理世界AGI，ElorianAI融资5500万美元

热门分类

热门标签

其他

市场分析