AI2发布全开源网络代理 MolmoWeb:仅凭“视觉”即可掌控网页
艾伦人工智能研究所(AI2)近日发布全开源网络代理 MolmoWeb。与传统依赖网页底层代码(DOM)的方式不同,MolmoWeb 仅通过读取屏幕截图进行决策,实现了纯视觉驱动的网络导航,标志着技术上的重大突破。
MolmoWeb 的工作原理是捕获浏览器窗口截图,通过视觉分析决定下一步操作(如点击、滚动、翻页),并循环执行。这种方式使其比传统代理更稳定,因为视觉布局通常比代码更统一,且决策过程对人类而言更透明、可解释。
尽管模型规模较小(4B 和 8B 参数),但性能表现突出:在 WebVoyager 测试中,8B 版本得分达 78.2%,接近 OpenAI 的专有模型 o3(79.3%)。通过多次运行筛选最佳结果,成功率可进一步提升至 94.7%,在 UI 元素定位测试中甚至超越了 Anthropic 的 Claude3.7。
AI2 同时开源了大规模数据集 MolmoWebMix,包含 3.6 万次真实浏览任务和超过 220 万个截图-问答对,部分合成数据经 GPT-4o 验证,显示在引导智能体方面优于人类轨迹。
MolmoWeb 已在 Hugging Face 和 GitHub 上通过 Apache 2.0 协议完全开放。尽管在复杂指令、登录验证和法律合规等方面仍存在挑战,但 AI2 强调开源与社区协作对对抗大型科技公司数据垄断的重要性。
marsbit03/26 01:39