AI2发布全开源网络代理 MolmoWeb:仅凭“视觉”即可掌控网页

marsbit发布于2026-03-26更新于2026-03-26

文章摘要

艾伦人工智能研究所(AI2)近日发布全开源网络代理 MolmoWeb。与传统依赖网页底层代码(DOM)的方式不同,MolmoWeb 仅通过读取屏幕截图进行决策,实现了纯视觉驱动的网络导航,标志着技术上的重大突破。 MolmoWeb 的工作原理是捕获浏览器窗口截图,通过视觉分析决定下一步操作(如点击、滚动、翻页),并循环执行。这种方式使其比传统代理更稳定,因为视觉布局通常比代码更统一,且决策过程对人类而言更透明、可解释。 尽管模型规模较小(4B 和 8B 参数),但性能表现突出:在 WebVoyager 测试中,8B 版本得分达 78.2%,接近 OpenAI 的专有模型 o3(79.3%)。通过多次运行筛选最佳结果,成功率可进一步提升至 94.7%,在 UI 元素定位测试中甚至超越了 Anthropic 的 Claude3.7。 AI2 同时开源了大规模数据集 MolmoWebMix,包含 3.6 万次真实浏览任务和超过 220 万个截图-问答对,部分合成数据经 GPT-4o 验证,显示在引导智能体方面优于人类轨迹。 MolmoWeb 已在 Hugging Face 和 GitHub 上通过 Apache 2.0 协议完全开放。尽管在复杂指令、登录验证和法律合规等方面仍存在挑战,但 AI2 强调开源与社区协作对对抗大型科技公司数据垄断的重要性。

艾伦人工智能研究所(AI2)近日发布了突破性的全开源网络代理 MolmoWeb 。与传统依赖网页底层代码(DOM)的代理不同,MolmoWeb 仅通过读取屏幕截图进行决策,标志着“视觉驱动”网络导航技术的重大飞跃。

核心技术:像人类一样“看”网页

MolmoWeb 的运作逻辑非常直观:它捕获当前浏览器窗口的截图,通过视觉分析决定下一步操作(如点击、滚动、翻页),然后执行并重复。这种“所见即所得”的模式使其比传统代理更具鲁棒性,因为网页的视觉布局通常比底层代码更稳定,且其决策过程对人类用户而言完全透明、可解释。

性能飞跃:小模型击败巨头

尽管 MolmoWeb 的参数规模仅为4B 和8B,但在性能表现上却展现出“以小博大”的实力:

  • 榜单领跑:WebVoyager 测试中,8B 版本的得分高达 78.2%,不仅在开源模型中名列前茅,更逼近了 OpenAI 的专有模型 o3(79.3%)。

  • 潜力巨大: 研究发现,通过多次运行任务并筛选最优结果,其成功率可进一步跃升至 94.7%

  • 定位精准: 在 UI 元素定位基准测试中,它甚至超越了 Anthropic 的 Claude3.7。

数据支撑:史上最大的开放数据集

AI2此次不仅开源了模型权重,还贡献了名为 MolmoWebMix 的庞大数据集。该数据集包含:

  • 由人类志愿者完成的 3.6万次真实浏览任务

  • 超过 220万个 屏幕截图-问答对。

  • 通过 GPT-4o 验证的自动化合成数据。实验证明,合成数据在引导智能体寻找“最优路径”方面甚至优于人类轨迹。

开源精神与未来挑战

目前,MolmoWeb 已在 Hugging Face GitHub 上通过 Apache2.0协议完全开放。尽管在处理复杂指令、登录验证及法律合规(如服务条款)方面仍面临挑战,但 AI2坚信,只有通过完全的透明和社区协作,才能真正对抗大型科技公司的数据垄断。

相关问答

QMolmoWeb 与传统网络代理的主要区别是什么?

AMolmoWeb 与传统依赖网页底层代码(DOM)的代理不同,它仅通过读取屏幕截图进行决策,采用“视觉驱动”的网络导航方式。

QMolmoWeb 在 WebVoyager 测试中的表现如何?

A在 WebVoyager 测试中,MolmoWeb 的8B版本得分高达78.2%,逼近OpenAI的专有模型o3(79.3%),在开源模型中名列前茅。

QMolmoWebMix 数据集包含哪些内容?

AMolmoWebMix 数据集包含3.6万次人类志愿者完成的真实浏览任务、超过220万个屏幕截图-问答对,以及通过GPT-4o验证的自动化合成数据。

QMolmoWeb 的开源协议是什么?在哪里可以获取?

AMolmoWeb 使用 Apache2.0 协议完全开放,可以在 Hugging Face 和 GitHub 上获取。

QMolmoWeb 目前面临哪些挑战?

AMolmoWeb 在处理复杂指令、登录验证以及法律合规(如服务条款)方面仍面临挑战。

你可能也喜欢

交易

现货
合约
活动图片