Claude Science几周干完两年活,10倍科研提速真来了?

marsbit发布于2026-07-01更新于2026-07-01

文章摘要

Anthropic近日推出Claude Science,这是一个面向科学家的AI工作台,旨在将科研流程整合为一条可审计的流水线,显著提升效率。据案例介绍,有神经科学家团队使用该工具将一篇长篇综述的写作时间从近两年压缩到几周。 Claude Science的关键在于整合碎片化的科研工具链。它能在同一环境中完成文献分析、计算、图表制作和论文撰写,支持本地或远程运行,并可自动调度算力资源,将分析任务扩展到数百个GPU。其突出特点是强调可复现性:生成的每张图都附带确切的生成代码、运行环境和完整对话历史,确保结果可追溯、可修改。 该平台采用多智能体协作架构,包括一个协调智能体和专门核查引用与计算的审查智能体,形成类似“AI内部同行评审”的机制,但坚持“人在回路”原则,关键决策需经用户授权。目前,Claude Science首先聚焦生命科学领域,已预置基因组、单细胞、蛋白质组等分析环境,并能连接60多个科学数据库。 在科研AI赛道,各厂商策略不同:Google依靠AlphaFold等独家模型,OpenAI侧重提升模型的科研判断力(如推出GeneBench-Pro基准测试),而Anthropic则专注于构建端到端、可审计的工作流。Claude Science的目标并非替代科学家,而是通过自动化繁琐流程,将科研真正融入实验室日常,同时解决科研中长期存在的可复现性难题。

两年的活,如今几周干完。

最近,Allen Institute的一位神经科学家Jérôme Lecoq和他的团队,把一篇长篇综述的写作时间,从将近2年压到了几周。

Jérôme Lecoq手头上积攒了约10篇综述,不少超过100页,每一条引用都被一个智能体逐句核对过。

帮他干活的,是Anthropic刚推出的新应用,Claude Science。

2026年6月30日,Anthropic发布Claude Science,定位为面向科学家的AI工作台。(图源:Anthropic官方博客)

据Anthropic介绍,这套活儿过去这位科学家和他的团队要干两年。

Anthropic给Claude Science的定位,并非一个更聪明的科研模型,而是一个面向科学家的AI工作台。

它真正的突破在于:第一次把科研这件事,拆成了一条能被逐步审计的流水线。

如今,Claude Science已在macOS和Linux上开启beta,对Pro、Max、Team、Enterprise用户开放。

真正改变的,是整条科研工具链

做过科研的人,都懂那种繁琐:

一个项目要在几十个数据库之间来回跳,每个库都有自己的schema和查询语言;

文件格式五花八门,每种都得现搭管线、现找查看器;

手边还摆着一排工具,PubMed查文献,Jupyter跑代码,R做统计,集群终端提交任务......

不停转场,真正用来思考科学问题的时间,经常被这些搬运、拼接、调试工作耗费殆尽。

而Claude Science干的事,正是将这些碎片场景打包「收纳」进同一个执行环境:

文献分析、多步计算、图表打磨、论文成稿,全部阶段在同一个环境里走完,你不必再为换一个工具而中断思路。

它能跑在你本地的macOS或Linux上,也能通过SSH连到远程机器,或者挂在高性能计算(HPC)的登录节点上。

就像你平时用Jupyter那样,数据在哪,它就去哪。

就连算力调度这块,它也包了。

折叠一个蛋白质,或者在海量数据上跑一条基因组管线,这种大活过去要研究者亲自伺候,搭计算任务、排队等集群、盯着成功还是失败、再把结果拉回来,一来一回半天就没了。

Claude Science把这套流程接管了:先起草计划,碰新资源前先问你一声,写任务、提交任务之前都让你能审查或撤销,把分析从1个GPU一路扩到数百个。

Claude Science把一次8组scVI超参扫描派到实验室A100集群运行,右侧Notebook与智能体共用同一个实时内核,变量和状态实时同步。(图源:Anthropic官方博客)

更重要的一点,敏感数据不离开原系统,只有每一步真正需要的上下文才会发给Claude。

每一张图,都自带可追溯代码

科研这行天生就跟图打交道,蛋白质三维结构、基因组浏览器轨道、化学结构式,这些本就是图。

Claude Science顺着这一点,在出图、出稿的同时,把生成它们的代码一并交出来,还能把它们原生渲染出来。

更关键的在可复现性(reproducibility)。

每当Claude Science生成一张图,它都会把生成这张图的确切代码、运行环境、纯语言说明和完整对话历史,一并打包「钉」在图上。

左侧一张跨138个物种的细胞图,右侧同屏挂着生成它的确切代码,圈注一句就能让智能体改图。每个结果都可复现、可追溯到代码。(图源:Anthropic官方博客)

一篇论文从投稿到见刊,常常隔着大半年;几个月后,等审稿人要你重跑某张图,你可以很轻松地把输入、过程、结果整条链当场复现出来。

想改图?直接说话就行——「把网格线去掉」「纵轴换成对数」,智能体直接去改自己写的代码。

你还能在任意节点把会话fork出去,同时试两条思路,原来那条线程一点不乱。

一句话,科研第一次被整合成一份可审计(auditable)的工作流,code、env、history都被放进一个闭环中。

一个智能体写,另一个专门挑错

Claude Science背后,并非一个智能体在单打独斗。

你面对的是一个会统筹的协调智能体,它手里握着60多个为基因组、单细胞、蛋白质组、结构生物学、化学信息学预配好的技能和连接器。

活一多,它自己就能派生出更多智能体来分工,也能随时调用你亲手创建的专家智能体。

最妙的是那个审查智能体(reviewer agent)。

它专门核查引用和计算,揪出错误的引用、追不到出处的数字、对不上代码的图,发现了就标出来、自己改掉。

在Allen Institute那个案例里,团队用的正是actor-critic配对,一个智能体负责写,另一个专门评它的准确性和引用真不真。

这套结构,已经有点「AI内部同行评审」的雏形了。

但有一条边界必须说清楚,全程是人在回路(human-in-the-loop)。

在需要动用新资源前,它会先征求授权,每个决策你都能复核、能撤销。它自动化的是流程,而并非自动替你做科学发现。

它还接了NVIDIA的BioNeMo Agent Toolkit,能原生连上Evo 2、Boltz-2、OpenFold3这些生命科学模型。

你实验室自己信得过的模型、数据、管线,也能存成可复用的技能挂进来,往后的会话自动继承。

Claude Science第一站是生命科学

Claude Science的第一个落点,选在了生命科学。

基因组、单细胞、蛋白质组、结构生物学、化学信息学,开箱即用。

它能读文献,能查询60+科学数据库,UniProt、PDB、Ensembl、ClinVar、ChEMBL、GEO这些规格不一的库,你不用再一个个去学着用。

Claude Science为基因组、单细胞、蛋白质组、化学信息学预配好环境,背靠60+科学数据库。(图源:Anthropic官方博客)

Manifold Bio做的是组织靶向药物。

他们用Claude Science来提名最新实验的靶点,对每个组织和靶点,逐一评估表面表达、运输和安全性,再按公司从自有数据里学到的标准给候选排序。

Manifold说,普通编程助手做不到这一点,Claude Science能端到端地干完,拿对数据,下对判断,还带着过往项目的上下文。

还有更硬核的例子。

UCSF脑瘤中心的一位流行病学副教授,用它做脑胶质瘤的分子流行病学研究,分析数千个微效种系(germline)变异如何叠加、塑造个体易感性。

据Anthropic介绍,这套种系分析,Claude Science用了过去约1/10的时间就跑完了,他的团队还独立复核过结果,确认既快又稳。

不过这些10倍提速的场景,目前只限定在综述写作、基因组分析、特定管线自动化上,并不等于「科研整体提速10倍」。

与此同时,科研可信度的门槛,也在被重新定义。

过去衡量一项研究靠不靠谱,要看同行评审,看能不能被别人复现。

而可复现,长期是科研最大的痛点之一,代码丢了,环境变了,几个月后连作者自己都跑不出当初那张图。

Claude Science每张图都有可追溯的代码,每个结果都连着它的环境和历史。可复现这道坎,它可能是第一个迈过去的。

同一条赛道,三种玩家

生物科研赛道,三巨头都在抢,只是玩法各自不同。

Google押独门模型,OpenAI押模型的科研智商,Anthropic则押的是工作流。

Google攥着AlphaFold、AlphaGenome这些别人没有的自家模型,直接下场。

OpenAI走的是另一条线。

今年4月它推出GPT-Rosalind,一个专为生物推理和药物发现打造的前沿模型。

如今更进一步,开始练模型的「科研判断力」。

它刚刚推出GeneBench-Pro,专测模型能不能像计算生物学家那样做判断:129道题,从基因组学、群体遗传一路铺到临床诊断,专测「数据撑不撑得起这个问题」「哪一步该推翻重来」的手感。

最强的GPT-5.6 Sol拿到28.7%,开Pro模式31.5%;几代前的GPT-5还不到5%。

OpenAI自己说,照这速度,年底就可能被刷爆。

可再强的模型,也只解开不到三分之一。而解不开的那部分,恰恰是人类科学家的位置。

GeneBench-Pro暴露的AI短板也很明显:

模型能起个头,却收不拢最后那一环,比如该不该剔掉一批异常数据、假设被推翻后怎么改路子,这类判断还得科学家自己拍板。

Claude Science也没有绕开这一点,方案交给人审、每个决定留给人撤,它自动化的是流程,判断权并非交给模型,人类始终在环。

对Lecoq这样的科学家,一篇综述能不能复现、几个月后还站不站得住,本就比榜单上多零点几个百分点要紧。

Claude Science赌的,正是让AI科研真正落进实验室的日常。

参考资料:

https://www.anthropic.com/news/claude-science-ai-workbench

https://openai.com/index/introducing-genebench-pro/

本文来自微信公众号“新智元”,作者:ASI启示录

相关问答

QClaude Science是如何帮助神经科学家Jérôme Lecoq将一篇长篇综述的写作时间从两年缩短到几周的?

AClaude Science通过其AI工作台,将科研工作流程化、自动化。它为Jérôme Lecoq的团队提供了一个统一的执行环境,整合了文献分析、多步计算、图表打磨和论文成稿等环节,减少了在不同工具间切换的时间损耗。更重要的是,它采用了一个“写手智能体”和一个“审查智能体”协同工作的模式,其中一个负责撰写,另一个专门核查引用的准确性和数据的真实性,确保了工作效率和质量,从而大幅缩短了综述的写作时间。

QClaude Science在提高科研工作的可复现性方面有哪些具体措施?

AClaude Science在生成任何一张图表时,都会将生成该图的确切代码、运行环境、纯语言说明以及完整的对话历史“钉”在图上。这意味着任何结果都可以追溯到其产生的完整路径。用户可以轻松复现整个分析过程,甚至在几个月后,当审稿人要求重新运行某张图时,也能完整地重现。用户还可以通过自然语言指令(如“把网格线去掉”)让智能体直接修改对应的代码,进一步增强了工作流的透明度和可审计性。

Q根据文章,Claude Science、Google和OpenAI在推动AI科研方面分别采取了什么不同的策略?

A文章指出,三大巨头在生物科研赛道的策略各有侧重: 1. Google:押注独有模型,直接下场,依靠其独有的AlphaFold、AlphaGenome等专有模型来推动科研。 2. OpenAI:押注模型的“科研智商”,通过推出像GPT-Rosalind这样的专业模型,并创建GeneBench-Pro等基准来测试和提升模型进行科学判断和推理的能力。 3. Anthropic(Claude Science):押注工作流。它并非提供一个更聪明的模型,而是构建一个面向科学家的AI工作台,重点在于将碎片化的科研工具和流程整合成一个可审计、可追溯、高效率的完整工作流,并将人类科学家置于决策环中。

QClaude Science是如何处理需要大量计算资源的任务的?这对研究人员有什么帮助?

AClaude Science能够接管复杂的算力调度流程。对于需要大量计算资源的任务(如折叠蛋白质或运行基因组管线),它可以起草计划,在动用新资源前征求用户授权,然后自动编写、提交计算任务,并支持将分析任务从一个GPU扩展到数百个GPU。它还可以连接到本地机器、远程机器或高性能计算(HPC)集群。这极大地简化了研究人员的工作,使他们不必亲自搭建任务、排队等待集群、监控任务状态和拉取结果,从而节省了大量时间和精力,可以更专注于科学问题本身。

Q文章中提到Claude Science能实现“10倍科研提速”主要是在哪些具体场景下?这是否意味着所有科研工作都能提速10倍?

A根据文章,目前观察到的“10倍提速”主要限定在几个具体场景:综述写作、基因组分析以及特定管线的自动化。例如,在Allen Institute的综述写作案例和UCSF的种系变异分析案例中,都报告了时间大幅缩短。 文章明确指出,这“并不等于‘科研整体提速10倍’”。科研的核心——提出创新性科学问题、设计实验、进行关键的判断和决策(如是否剔除异常数据、假设被推翻后如何调整方向)——仍然高度依赖人类科学家的智慧和经验。Claude Science主要自动化的是流程性、重复性的工作,将科学家从繁琐的“工具操作”中解放出来,从而提升整体效率,而非替代人类的科学发现能力。

你可能也喜欢

Collector Crypt 如何用「循环买回」制造增长幻觉

《Collector Crypt 如何用「循环买回」制造增长幻觉》摘要 文章分析指出,Collector Crypt(CC)表面上是通过链上卡包抽卡推动增长,但其核心模式依赖“循环买回”——用户购买卡包后立即以约93%的价格卖回给平台,资金得以循环,从而快速推高GMV(商品交易总额)。然而,这种增长存在幻觉。 数据显示,CC的净利率已从2025年第三季度的11.2%腰斩至2026年第二季度的5.6%。GMV的增长主要来自高价位卡包(如250美元、1000美元和2500美元档位),但这些卡包为平台带来的每美元留存率反而更低。增长主要由少数高频、大额消费的钱包驱动,而非广泛用户基础扩大。 同时,实体卡牌赎回消耗了大量利润。2026年5月,赎回成本消耗了该月平台预烧净收入的41.6%。而且赎回活动高度集中,6月仅75个钱包执行了赎回,其中前四大用户就占了近一半。赎回使卡牌永久离开平台库存,迫使CC以可能更高的市场成本重新采购,增加了运营压力。 面对GameStop等强大竞争对手进入同一市场、评级成本上升等压力,CC的经济模型显得脆弱。其B2B合作伙伴策略目前也未能带来可持续的订阅式收入,大部分整合仍将库存和履约负担留在CC身上。 结论认为,CC需要证明其能吸引更广泛的收藏者、建立更深的二级市场,并使链上所有权真正创造价值,而非仅仅依赖“循环买回”来制造GMV增长的表面繁荣。

Foresight News8分钟前

Collector Crypt 如何用「循环买回」制造增长幻觉

Foresight News8分钟前

为了赚这笔钱,他们等了7年

多家支付和科技巨头(Visa、Stripe、万事达、Coinbase、BlackRock等)宣布组建联盟,计划推出名为“Open USD”的美元稳定币,并将储备收益分给采用该币的公司。此举直接冲击了稳定币公司Circle的商业模式,因其主要收入依赖USDC储备资产的利息,导致其股价单日大跌近20%。 这让人想起2019年Facebook主导的Libra项目。当时,类似的巨头联盟试图创建全球数字货币,但因监管压力、Facebook形象问题及联盟内部分歧而失败。然而,Libra的愿景并未消失。 七年间,监管框架(如美国GENIUS法案)逐渐明晰,公链等基础设施成熟,支付公司也已积累相关经验。Open USD的叙事更为收敛,聚焦于合规的美元稳定币和企业结算管道,不再像Libra那样充满宏大但敏感的全球金融变革野心。 不过,联盟模式固有的行动缓慢、利益协调困难等挑战依然存在。稳定币的成功关键在于建立流动性、信任和用户习惯,而非一纸华丽的成员名单。Open USD短期内更可能在企业间支付和特定链上场景中取得进展,而非迅速取代USDC。 对Circle而言,市场正在重新评估其价值:它从“稳定币时代的稀缺门票”被拉回至“众多发行方之一”的竞争现实,其依赖单一收入模型(储备利息)和外部合作伙伴分发的脆弱性因此暴露。Open USD的出现,标志着稳定币领域从早期探索进入巨头合规入场、竞争加剧的新阶段。

marsbit29分钟前

为了赚这笔钱,他们等了7年

marsbit29分钟前

谷歌风雨飘摇,市值蒸发数千亿美元,Gemini Spark能救场吗?

最近,谷歌陷入内忧外患,核心人才接连流失:Transformer架构师Noam Shazeer、AlphaFold主导者John Jumper,以及Gemini预训练和编程核心贡献者Jonas Adler、Alexander Pritzel相继离职,分别投身OpenAI和Anthropic。资本市场迅速反应,Alphabet股价两天内下跌5%-6%,市值蒸发数千亿美元,反映出市场对谷歌能否留住顶尖人才的深层担忧。 与此同时,谷歌产品节奏也面临挑战,备受期待的Gemini 3.5 Pro再次推迟发布。在此背景下,谷歌推出了新的AI产品Gemini Spark。与普通聊天机器人不同,Spark作为云端持续运行的智能体,能深度集成Gmail、日历、文档等谷歌Workspace套件,根据用户设定的目标自动分解任务、跨应用执行工作流,并能通过协议连接外部服务。其目标是为用户提供一个“永不停机的数字员工”。然而,其目前仅面向每月100美元的Google AI Ultra用户开放,高价策略引发争议。 分析认为,谷歌手握最完善的生产力工具生态,本应是开发“AI劳动力”或智能体的天然赢家,但因大公司的谨慎和对风险的规避,反而在Agent竞赛中落后于OpenAI、Anthropic及众多创业公司。Spark的推出标志着谷歌终于放手让AI深入生产力环节,但能否借此挽回颓势、弥补人才流失的损失,并支撑其下一个十年,仍是巨大疑问。

marsbit53分钟前

谷歌风雨飘摇,市值蒸发数千亿美元,Gemini Spark能救场吗?

marsbit53分钟前

交易

现货
活动图片