Anthropic 数据:AI Agent 近半调用集中在软件工程,这 16 个垂域仍是蓝海

marsbit发布于2026-02-24更新于2026-02-24

文章摘要

Anthropic最新研究显示,近50%的AI Agent工具调用集中在软件工程领域,而医疗、法律、教育等16个垂直领域的应用占比均不足5%,市场仍处于蓝海状态。尽管AI模型已能独立处理近5小时的任务,用户实际平均使用时长仅42分钟,存在显著的“信任赤字”,这为产品创新提供了机会。 研究发现,用户随着使用经验积累,会从逐步审批转向主动监控,但干预频率反而上升。Anthropic强调,自主权是由模型、用户和产品共同构建的,强制审批每个操作会降低效率而非提升安全性。 Box创始人指出,垂直AI的成功需结合领域专业知识、专有数据和变更管理能力,未来十年可能涌现300家垂直AI独角兽,取代的不仅是软件,还包括操作人员。目前,高风险操作占比极低,安全性可控。

作者:Garry's List

编译:深潮 TechFlow

深潮导读:Anthropic 最新发布了迄今最全面的 AI Agent 真实使用研究,核心数据是:软件工程占据近 50% 的 Agent 工具调用量,而医疗、法律、教育等 16 个垂直领域加起来还不到剩余的一半,每个领域份额均低于 5%。

这不是市场饱和的信号,而是 300 个垂直 AI 独角兽的地图——更有价值的是文章引用的一个反直觉发现:模型已经能独立工作近 5 小时,但用户实际只让它工作 42 分钟,这个"信任赤字"本身就是下一个产品机会。

全文如下:

软件工程占所有 AI Agent 工具调用量的近 50%。医疗、法律、金融等 16 个垂直领域几乎未被触及,每个领域均低于 5%。这意味着有 300 个垂直 AI 独角兽等待被建造出来。

如果我今天要创业,我会盯着上面那张柱状图的红色区域,直到我看见自己的未来。

Box 创始人 Aaron Levie 表示:

这张图很好地提醒了我们,AI Agent 领域现在有多大的机会。

水平方向当然会有大量 Agent 机会,但同样有很多工作流需要深厚的领域专业知识,才能真正帮助用户自动化其所在垂直领域的独特流程。

模板是:构建接入专有数据的 Agent 软件,以有效衔接用户与 Agent 协作的方式处理工作流,同时具备深度领域专属的上下文工程能力,以及推动客户侧变更管理的能力。

目前许多领域仍存在巨大空白。

软件工程占据了所有 AI Agent 活动的半壁江山。另一半分散在 16 个垂直领域,没有一个超过 9%。医疗占 1%,法律占 0.9%,教育占 1.8%。这些不是饱和市场,而是几乎还不存在的市场。

Anthropic 刚刚发布了迄今最全面的 AI Agent 真实使用研究。核心发现是:软件工程占其 API 上 49.7%的 Agent 工具调用量。被埋在后面的核心结论是:其他一切都是蓝海。

部署滞后

有一个数据应该让创业者兴奋不已:模型的能力已经远超用户愿意信任它的边界。

METR 的能力评估显示,Claude 可以解决需要人类近五小时才能完成的任务。但在实际使用中,第 99.9 百分位的会话时长只有约 42 分钟。这个差距——AI 能做什么与我们允许它做什么之间的差距——是一个巨大的机会。

图:Claude Code 训练的最长时长在三个月内几乎翻了一番。这不仅提升了能力,也增强了信任。

来源:x.com

从 2025 年 10 月到 2026 年 1 月,第 99.9 百分位的单次会话时长几乎翻了一倍,从不足 25 分钟增长至超过 45 分钟。增长在各个模型版本间都很平稳。这不只是模型变得更强了,而是用户一次次地在使用中学习,逐渐延伸着对 Agent 的信任。

"从 8 月到 12 月,Claude Code 在内部用户最具挑战性任务上的成功率翻了一倍,与此同时,每次会话的人工干预次数从 5.4 次减少到 3.3 次。"

能力已经在那里,部署还没跟上。这不是问题,而是产品机会。

信任是如何演化的

新用户中有 20%会自动批准 Claude Code 的操作。到 750 次会话时,超过 40%的会话完全在自动批准模式下运行。但有一个反直觉的发现:有经验的用户反而会更多地进行干预,而不是更少。新用户会在 5%的轮次中进行干预,老用户则是 9%。

图:信任是一种会不断积累的技能。新用户会自动批准 20% 的会话。到 750 次会话时,这一比例会超过 40%。

图片:Anthropic

来源: x.com

这并不矛盾,而是监督策略的转变。初学者在操作发生前逐步审批,老用户则是先授权、在出问题时再介入——他们已经从预先审批转向了主动监控。

以下是一个在安全层面值得关注的发现:在复杂任务上,Claude Code 主动请求澄清的频率超过人类主动干预频率的两倍。Agent 会暂停确认,而不是一路冲到底。这是特性,不是缺陷。

"这项研究的核心启示是:Agent 在实践中行使的自主权,是由模型、用户和产品共同构建的。Claude 在不确定时会暂停提问,以此限制自身的独立性。用户在与模型协作的过程中建立信任,并相应地调整自己的监督策略。"

Levie 的垂直 AI 打法

Aaron Levie 指出了等待被解锁的巨大财富与价值:构建接入专有数据的 Agent 软件,让它真正解决真实的人和问题,把上下文塞满以最大化智能输出,以及——这是大多数创业者忽略的部分——推动客户侧的变更管理。

最后这一点正是垂直 AI 如此难以被复制的原因。任何人都能搭一个 API 封装,但很少有人能真正驾驭医疗账单、法律发现或建筑许可证审批中特有的工作流、监管约束和组织阻力。

SaaS 在过去几十年里每十年增长十倍。过去 20 年超过 40%的风险投资资金流向了 SaaS 公司。这个行业诞生了 170 多只 SaaS 独角兽。逻辑很简单:这些独角兽中的每一只,都有一个垂直 AI 版本在等待出现。而 AI 版本可能会大十倍,因为它取代的不只是软件,还有操作人员。

共同构建的本质

Anthropic 的核心发现值得任何参与 AI 政策制定的人认真关注。自主权不是模型的固有属性,而是由模型、用户和产品共同构建的。部署前的评估无法捕捉这一点,你必须在真实使用中去衡量。

Anthropic 官方表示:

软件工程约占我们 API 上 Agent 工具调用量的 50%,但我们也看到其他行业正在涌现。随着风险与自主权的边界持续扩展,部署后的监控变得至关重要。我们鼓励其他模型开发者扩展这项研究。

安全层面的数字令人放心:73%的工具调用有人类在回路中参与,只有 0.8%的操作是不可逆的。最高风险的部署场景——如 API 密钥泄露或自主加密交易——大多是安全评估,而非真实生产环境。

"规定具体交互模式的监管要求——例如要求人类批准每一个操作——只会制造摩擦,而不一定带来安全收益。"

强制要求"批准每一个操作"的政策,会杀死生产力收益,却不会增加安全性。更好的目标是确保人类能够监控和介入,而不是规定具体的审批工作流。

独角兽藏在哪里

地图已经画好。软件工程已经有人在做了。医疗、法律、金融、教育、客服、物流——16 个垂直领域,每个市场份额均为个位数——都在等待有人把领域专业知识真正嵌入 Agent。

此前诞生了 300 只 SaaS 独角兽,接下来 300 只垂直 AI 独角兽即将出现。那些选定垂直领域、把领域专业知识嵌入 Agent、并想明白如何驱动变更管理的创始人,将拥有下一个十年的企业软件市场。

模型已经能工作五小时,用户只让它工作 42 分钟。这就是信号:我们仍然处于极早期,还有大量东西可以建造,而且在无数个还没有见过哪怕一分钟智能发挥作用的地方。

相关问答

Q根据Anthropic的研究,AI Agent工具调用量主要集中在哪个领域?

A根据Anthropic的研究,AI Agent工具调用量主要集中在软件工程领域,占据了近50%的调用量。

Q文章中提到哪些垂直领域是AI Agent的蓝海市场?

A文章中提到医疗、法律、金融、教育、客服、物流等16个垂直领域是AI Agent的蓝海市场,每个领域的市场份额均低于5%。

QAnthropic的研究发现模型的能力与用户实际使用之间存在什么差距?

AAnthropic的研究发现,模型的能力已经可以解决需要人类近五小时完成的任务,但用户实际使用中,第99.9百分位的会话时长只有约42分钟,这表明用户对AI的信任度仍有较大差距。

Q文章中提到垂直AI独角兽的出现需要哪些关键因素?

A垂直AI独角兽的出现需要构建接入专有数据的Agent软件,具备深度领域专属的上下文工程能力,以及推动客户侧变更管理的能力,同时要解决特定垂直领域的工作流和监管约束。

QAnthropic的研究在安全层面有哪些令人放心的发现?

AAnthropic的研究发现,73%的工具调用有人类在回路中参与,只有0.8%的操作是不可逆的,且最高风险的部署场景大多是安全评估而非真实生产环境,这表明AI Agent在实际使用中具有较高的安全性。

你可能也喜欢

中国AI为什么发展得这么快?答案藏在实验室内部

本文通过作者走访中国头部AI实验室的经历,探讨了中国AI快速发展的原因及其与美国的路径差异。文章指出,中国AI的优势不仅在于人才、工程和迭代速度,更在于其务实的组织方式:少谈概念,多做模型;强调团队执行而非个人明星;倾向于自研核心技术栈而非依赖外部服务。 中国AI生态呈现出与美国不同的发展模式:美国注重原创范式、资本投入和顶尖科学家的个人影响力;中国则更擅长在已有方向上快速追赶,通过开源协作、工程优化和大量年轻研究者的投入,将模型能力迅速推向前沿。中国的许多核心贡献者是学生,他们带着谦逊和专注投入工作,较少受个人主义或哲学讨论的干扰,更专注于模型构建本身。 在产业层面,中国公司普遍持有“技术所有权”心态,倾向于自建而非购买技术栈,大型科技公司纷纷研发自己的大语言模型以掌控核心技术。尽管对英伟达算力有强烈需求,且国内数据产业不如西方发达,但中国AI需求正在增长,更接近云市场的支出模式而非传统的SaaS市场。 文章认为,未来的AI竞争不仅是模型能力的比拼,更是组织能力、开发者生态和产业执行力的竞争。中国AI正以自身独特的方式参与全球前沿,两种不同的发展路径正在形成。作者最后强调,尽管存在地缘政治紧张,但全球开放AI生态的繁荣对世界更为有益,并表达了对中美在AI领域协同发展的期望。

marsbit12小时前

中国AI为什么发展得这么快?答案藏在实验室内部

marsbit12小时前

3年5倍,百年玻璃厂重生

本文探讨了拥有175年历史的玻璃制造商康宁公司如何在AI数据中心建设浪潮中,借助光纤需求爆发实现业绩与股价的飞跃。文章核心内容如下: AI数据中心对光纤的需求出现结构性爆发,根据CRU数据,年增长率高达75.9%,导致供需缺口扩大。英伟达为此投资康宁等三家公司,总金额达45亿美元,旨在打通从激光器、光芯片到光纤的全链条。康宁作为被选中的光纤供应商,承诺大幅扩张产能。 需求爆发的背后有两重逻辑:一是光纤核心材料“预制棒”的扩产周期长、工艺要求高,供给存在刚性约束;二是AI芯片算力提升迫使数据通信从电转向光,以降低能耗并提高传输效率,这直接推动了高端特种光纤(如用于CPO共封装光学)的需求。AI数据中心的光纤用量可达传统机柜的5-10倍,并随GPU集群规模超比例增长。 在此背景下,康宁光通信业务收入从2023年的13亿美元快速增长,2026年Q1同比增长93%,并获得了Meta、英伟达等科技巨头的长期大额订单。虽然从全球市场份额看康宁并非最大,但其在超低损耗、高密度、高抗弯等AI所需的高端特种光纤技术上具备优势,且企业级(数据中心)客户收入占比已超40%,这使其区别于以电信运营商客户为主的其他厂商。 文章指出,光纤涨价红利正惠及全行业。康宁当前股价和估值已大幅攀升,未来表现将取决于CPO技术落地节奏、大客户订单执行情况以及“空芯光纤”等潜在技术变革的影响。尽管前景看好,但短期过快的涨幅也可能带来波动风险。

marsbit12小时前

3年5倍,百年玻璃厂重生

marsbit12小时前

交易

现货
合约
活动图片