AI2发布全开源网络代理 MolmoWeb:仅凭“视觉”即可掌控网页

marsbit发布于2026-03-26更新于2026-03-26

文章摘要

艾伦人工智能研究所（AI2）近日发布全开源网络代理 MolmoWeb。与传统依赖网页底层代码（DOM）的方式不同，MolmoWeb 仅通过读取屏幕截图进行决策，实现了纯视觉驱动的网络导航，标志着技术上的重大突破。 MolmoWeb 的工作原理是捕获浏览器窗口截图，通过视觉分析决定下一步操作（如点击、滚动、翻页），并循环执行。这种方式使其比传统代理更稳定，因为视觉布局通常比代码更统一，且决策过程对人类而言更透明、可解释。尽管模型规模较小（4B 和 8B 参数），但性能表现突出：在 WebVoyager 测试中，8B 版本得分达 78.2%，接近 OpenAI 的专有模型 o3（79.3%）。通过多次运行筛选最佳结果，成功率可进一步提升至 94.7%，在 UI 元素定位测试中甚至超越了 Anthropic 的 Claude3.7。 AI2 同时开源了大规模数据集 MolmoWebMix，包含 3.6 万次真实浏览任务和超过 220 万个截图-问答对，部分合成数据经 GPT-4o 验证，显示在引导智能体方面优于人类轨迹。 MolmoWeb 已在 Hugging Face 和 GitHub 上通过 Apache 2.0 协议完全开放。尽管在复杂指令、登录验证和法律合规等方面仍存在挑战，但 AI2 强调开源与社区协作对对抗大型科技公司数据垄断的重要性。

艾伦人工智能研究所(AI2)近日发布了突破性的全开源网络代理 MolmoWeb 。与传统依赖网页底层代码(DOM)的代理不同,MolmoWeb 仅通过读取屏幕截图进行决策,标志着“视觉驱动”网络导航技术的重大飞跃。

核心技术:像人类一样“看”网页

MolmoWeb 的运作逻辑非常直观:它捕获当前浏览器窗口的截图,通过视觉分析决定下一步操作(如点击、滚动、翻页),然后执行并重复。这种“所见即所得”的模式使其比传统代理更具鲁棒性,因为网页的视觉布局通常比底层代码更稳定,且其决策过程对人类用户而言完全透明、可解释。

性能飞跃:小模型击败巨头

尽管 MolmoWeb 的参数规模仅为4B 和8B,但在性能表现上却展现出“以小博大”的实力:

榜单领跑: 在 WebVoyager 测试中,8B 版本的得分高达 78.2%,不仅在开源模型中名列前茅,更逼近了 OpenAI 的专有模型 o3(79.3%)。
潜力巨大: 研究发现,通过多次运行任务并筛选最优结果,其成功率可进一步跃升至 94.7%。
定位精准: 在 UI 元素定位基准测试中,它甚至超越了 Anthropic 的 Claude3.7。

数据支撑:史上最大的开放数据集

AI2此次不仅开源了模型权重,还贡献了名为 MolmoWebMix 的庞大数据集。该数据集包含:

由人类志愿者完成的 3.6万次真实浏览任务。
超过 220万个 屏幕截图-问答对。
通过 GPT-4o 验证的自动化合成数据。实验证明,合成数据在引导智能体寻找“最优路径”方面甚至优于人类轨迹。

开源精神与未来挑战

目前,MolmoWeb 已在 Hugging Face 和 GitHub 上通过 Apache2.0协议完全开放。尽管在处理复杂指令、登录验证及法律合规(如服务条款)方面仍面临挑战,但 AI2坚信,只有通过完全的透明和社区协作,才能真正对抗大型科技公司的数据垄断。

你可能也喜欢

偏见之下的预测市场

偏见之下的预测市场：投资与赌博的界限模糊，但预测市场具备独特价值。投资与赌博的区别在于策略是否具备正期望收益，而非市场机制本身。预测市场如扑克，属技能型博弈，其性质由参与者能力决定。金融创新常被误读为赌博，但投机与对冲实为一体两面，完成风险转移。体育博彩等市场并非无社会意义，娱乐本身是经济活动，衍生品核心在于风险对冲，需投机者参与。预测市场的核心特质是精准性和有限到期日，能直接锚定事实，剔除干扰，奖励专业判断。流动性自然筛选有价值事件，内幕获利空间有限。权威媒体排斥预测市场，实因威胁其垄断的信息权力。信息本有价格，反对内幕交易的核心是信息获取权的平等。预测市场具民主价值，应理性看待其潜力。

marsbit25分钟前

你为什么总在Polymarket亏钱？因为你在赌新闻，车头在读规则

在Polymarket预测市场交易中，许多用户亏损的原因在于过度依赖新闻直觉，而忽视了对市场规则的深度解读。文章通过多个案例（如2026年委内瑞拉领导人争议、Polymarket稳定币是否算代币、伊朗铀协议定义等）说明，规则细节的歧义会导致结算争议，而“车头”玩家则像律师一样精读规则，利用规则与现实认知的差距获利。 Polymarket设有完整的争议裁决机制：用户可提交结算提案并质押保证金，2小时内无人异议则自动结算；有争议则进入UMA Discord讨论和UMA代币持有者投票，投票需满足500万代币参与且胜方得票率超65%等条件。但该机制存在根本缺陷：裁决者（UMA持有者）可同时持有相关仓位，导致利益冲突，讨论环节易受羊群效应和立场转变影响，且裁决结果不透明，缺乏先例积累，与传统法院的权力隔离和判决公开形成对比。因此，在Polymarket获胜的关键在于深入理解规则而非仅预测事件本身，谁能把握规则与现实间的缝隙，谁就能捕获价格偏差带来的收益。

marsbit35分钟前

marsbit35分钟前

DeepSeek融资，梁文锋的“现实主义”转身

DeepSeek是国内AI明星公司，由幻方量化支持，曾以低成本模型研发和拒绝资本介入著称。但2026年4月，公司启动首轮外部融资，计划以不低于100亿美元估值融资3亿美元，引发市场关注。此举打破了创始人梁文锋此前“不融资、保持独立”的理想主义立场。融资背景是公司面临多重挑战：核心产品V4模型多次延期发布，15个月内无大版本更新；同时，5名核心研发人员先后离职，人才流失严重。同业竞争加剧，智谱AI、MiniMax已上市，Anthropic年化收入突破300亿美元，行业进入算力、人才与生态的全面竞争阶段。 DeepSeek虽不缺资金，但缺乏市场化的估值“锚点”，导致员工期权难以定价和变现，削弱了人才激励效果。融资3亿美元（仅3%股权）旨在换取市场认可，重构人才机制。此外，公司正将V4模型从英伟达芯片迁移至华为昇腾平台，以适应国产算力需求，提升供应链安全性。但DeepSeek在应用生态、多模态能力和商业化闭环上明显滞后，需从“技术研究”转向“产业玩家”。融资是其加入生态竞争、补齐短板的战略一步。

marsbit1小时前

marsbit1小时前

沃什，特朗普在美联储的下一个「替罪羊」？

沃什被提名为美联储主席，即将面临参议院听证。他需在特朗普的降息压力与美联储独立性之间寻求平衡，稍有不慎可能成为“替罪羊”。沃什主张激进改革，包括减少美联储沟通频率、缩减资产负债表，但市场预计今年降息概率不足50%，远未达到特朗普要求。若顺从白宫可能重蹈1970年代滞胀覆辙，若坚持独立则可能遭政治攻击。提名程序亦存障碍，共和党参议员以调查现任主席鲍威尔为由威胁阻止投票。沃什与特朗普圈子有渊源，但并非其首选，华尔街担忧政治干预央行。若获任命，他将在巨大政治约束下应对货币政策与金融稳定挑战。

marsbit1小时前

marsbit1小时前

暴跌10%后跳涨，周末原油市场观察

周五霍尔木兹海峡重新开放引发市场乐观情绪，原油价格暴跌，美股上涨。但随后局势再度紧张：周六两艘油轮遭拒通行，特朗普威胁若未达成协议将继续封锁伊朗港口。伊朗重新限制海峡通行并向船只开火，航运几近停滞。原油合约随即跳涨4.52%，标普指数下跌0.8%。特朗普虽表示将派特使谈判，但同时威胁摧毁伊朗基础设施。伊朗拒绝参加第二轮谈判，担忧美方发动袭击。原油价格再次大涨并突破前高，标普指数跌破前低。加密股表现显著疲软。市场乐观情绪受挫，本周走势将取决于伊朗是否维持不谈判态度。

marsbit1小时前

marsbit1小时前

交易

现货

合约

AI2发布全开源网络代理 MolmoWeb:仅凭“视觉”即可掌控网页

文章摘要

核心技术:像人类一样“看”网页

性能飞跃:小模型击败巨头

数据支撑:史上最大的开放数据集

开源精神与未来挑战

相关问答

你可能也喜欢

偏见之下的预测市场

你为什么总在Polymarket亏钱？因为你在赌新闻，车头在读规则

DeepSeek融资，梁文锋的“现实主义”转身

沃什，特朗普在美联储的下一个「替罪羊」？

暴跌10%后跳涨，周末原油市场观察

交易

热门分类

热门标签