生物学变天:小扎的新开源模型,彻底掀翻谷歌AlphaFold王座

marsbit发布于2026-05-29更新于2026-05-29

文章摘要

AlphaFold王座告急!扎克伯格旗下Biohub近日在《自然》发文,重磅推出开源AI模型ESMFold2及其预测数据库ESM Atlas。该数据库一举发布11亿个蛋白质结构预测,比AlphaFold数据库多出8亿条,且完全开源、不限商用。 ESMFold2采用不同于AlphaFold的技术路线,基于“蛋白质语言模型”构建,将蛋白质序列视为“语言”进行训练。其纳入了大量AlphaFold未覆盖的微生物蛋白质数据,模型覆盖面更广。团队声称,其在预测蛋白质复合物结构方面性能超越AlphaFold3,并已成功用于设计并实验验证了新型功能性蛋白质。 开源策略被认为是其最大杀手锏。与谷歌DeepMind对AlphaFold3等模型施加商业限制不同,ESMFold2的全面开放有望吸引全球研究社区广泛使用和创新,策略与Meta在大语言模型领域的打法一脉相承。 学界反响积极,认为这是一个“非凡资源”,但也强调预测结果需要独立验证,并对模型在全新蛋白质结构上的表现持审慎态度。有专家指出,该领域竞争白热化,ESMFold2的领先优势可能不像看上去那么绝对。 此举标志着AI在生命科学领域的深入。从预测已知结构到设计全新蛋白质,AI正将理解与设计生命的能力推向新台阶,使更多全球科学家能够免费获取海量蛋白质结构数据,加速相关研究。

AlphaFold 王座告急!

Nature 刊文:扎克伯格旗下 Biohub 放了一记王炸,一口气发布 11 亿个蛋白质结构预测,比 AlphaFold 数据库多出 8 亿条。

背后的 AI 模型 ESMFold2 号称性能全面超越 AlphaFold3。

更关键的是,完全开源,不限商用

https://www.nature.com/articles/d41586-026-01686-3

谷歌 DeepMind 苦心经营多年的蛋白质 AI 霸主地位,正在被一个开源搅局者动摇。

蛋白质 AI 赛道的格局,可能要重写了。

11 亿个蛋白质结构,一把端上桌了

5 月 27 日,扎克伯格夫妇创建的生物医学机构 Biohub,正式上线了名为 ESM Atlas 的蛋白质结构数据库。

11 亿个预测蛋白质结构,外加 68 亿条蛋白质序列信息。

AlphaFold 的数据库积累了超过 2 亿个结构预测,ESM Atlas 一来就多出 8 亿条。

生成这些预测的 AI 模型叫 ESMFold2,由 Biohub 科学负责人 Alex Rives 带队开发。

Rives 说:

这个图谱展示了蛋白质生物学的全貌,尤其是那些最未知的部分。

蛋白质结构预测为什么重要?

蛋白质是生命运转的核心零件,知道它的形状就能理解它的功能,进而设计新药、攻克疾病。

AlphaFold 靠这个拿了诺贝尔化学奖,是 AI 改变科学的标志性案例。

现在一个新模型拿着大 5 倍的数据集站了出来。

作为 AI 模型,ESMFold2 强在哪

ESMFold2 走了一条和 AlphaFold 不同的技术路线。

它基于 2024 年发布的「蛋白质语言模型」构建,核心思路借鉴了 NLP 领域的做法,把蛋白质序列当作「语言」来理解,在数十亿条蛋白质数据上训练,让模型学会从序列直接预测三维结构。

AlphaFold 的 AI 同行们看到这里应该会觉得熟悉,这和大语言模型学习人类语言的逻辑是一样的。

训练数据的覆盖范围是关键变量。

ESMFold2 纳入了大量来自土壤、海洋等环境的微生物蛋白质数据,这部分在 AlphaFold 的数据库里是空白的。

覆盖面更广,模型见过的「蛋白质世界」就更完整。

Biohub 团队称,ESMFold2 在预测蛋白质之间相互作用的复合结构方面,表现优于 AlphaFold3。

但最有说服力的不是跑分,而是落地验证。

团队用 ESMFold2 设计了全新的蛋白质,拿到实验室合成测试,高比例的设计按预期起效了。

从「预测」到「设计」再到「验证」,这条链路跑通,价值就从论文延伸到了真实世界。

全部开源,这才是最大的杀手锏

ESMFold2 最锋利的竞争武器,是完全开源且不限商用。

这个选择的战略意义,放到整个 AI 行业的语境下看更清楚。

AlphaFold 虽然有开放数据库,但 AlphaFold3 在发布初期对商业使用做了限制。

谷歌 DeepMind 旗下的 Isomorphic Labs 今年推出的蛋白质相互作用预测模型更是完全闭源。

拓展阅读:谷歌发布「AlphaFold 4」,不再开源!性能碾压上一代

MIT 的计算生物学家 Ovchinnikov 直接点明了开源的价值,「我预计很多人会很兴奋地想试一试 ESMFold2。」

开源 AI 的杠杆效应在大语言模型赛道已经被充分验证,Meta 的 Llama 系列就是最好的例子。

一个足够强的开源模型,能撬动全球社区去迭代、应用、发现原始开发者自己都没想到的用法。

蛋白质 AI 领域的情况更特殊,全球有大量实验室和研究机构迫切需要一个免费、无限制的结构预测工具,闭源模型再强,能触达的用户群就那么大。

Biohub 选择全面开源,跟 Meta 在大语言模型上的打法一脉相承。

扎克伯格系在 AI 领域的策略越来越清晰——用开源做基础设施,用生态做护城河。

同行大牛,买不买账?

学界反应积极,但保留意见也很明确。

瑞典隆德大学的 Gemma Atkinson 称 ESM Atlas 「应该成为生物学的非凡资源」。

伦敦大学学院的 Christine Orengo 认可其价值,但强调预测结果需要独立验证。

更尖锐的问题来自首尔国立大学的 Martin Steinegger。

他关心的是,ESMFold2 面对那些与已知蛋白质差异很大的「新结构」时,表现到底如何。

他的团队此前发现,ESMFold 第一版在这方面并不出色。这个问题对 ESMFold2 依然悬而未决。

MIT 的 Ovchinnikov 给出了最冷静的判断,他认为 ESM Atlas 更适合定位为 AlphaFold 数据库的补充。

他还指出,Isomorphic Labs 的闭源模型以及一些 Biohub 没有直接拿来对比的开源模型,也取得了类似水平的成果。

ESMFold2 的领先幅度,可能没有论文暗示的那么大。

这种审慎,恰恰折射出蛋白质 AI 赛道的竞争已经白热化。

开源、闭源、学术、商业,各路模型都在以极快速度迭代。

今天的「最强」,半年后可能就被刷新。这个节奏,和大语言模型赛道的军备竞赛已经非常像了。

当 AI 开始读懂生命的源代码

过去,解析一个蛋白质的三维结构可能需要几个月到几年的实验室工作。

AlphaFold 第一次证明 AI 可以在几分钟内做到。

现在 ESMFold2 把预测规模推到了 11 亿量级,覆盖了大量此前从未被解析的蛋白质。

沿着这条路往前推演,当 AI 能精准预测所有蛋白质结构,能设计全新的功能性蛋白质且实验验证有效,那距离 AGI 在生命科学领域的落地,可能比大多数人预想的更近。

如果 ASI 真正到来,生物学对它而言不再是需要「研究」的学科,而是可以被「工程化」的系统。

从分子层面设计生命,按需定制蛋白质,重写进化的规则。

这听起来像科幻,但 ESMFold2 这类工具正在一步步把「科幻」变成「工程问题」。

今天,11 亿个蛋白质结构被摊开在桌上,全球任何有网络连接的科学家都可以免费取用。

这意味着,AI 理解生命的能力,又上了一个台阶。

参考资料:https://www.nature.com/articles/d41586-026-01686-3

本文来自微信公众号“新智元”,作者:ASI启示录;编辑:马可

相关问答

QESMFold2与AlphaFold在技术路线上有何主要区别?

AESMFold2基于‘蛋白质语言模型’构建,借鉴了NLP领域的思路,将蛋白质序列当作‘语言’来理解和学习,直接从序列预测三维结构。而AlphaFold则采用了不同的计算方法。此外,ESMFold2的训练数据纳入了大量来自土壤、海洋等环境的微生物蛋白质数据,这些在AlphaFold数据库中相对空白,使其对蛋白质世界的覆盖面更广。

QBiohub新发布的ESM Atlas数据库在规模上有何突出之处?

ABiohub发布的ESM Atlas数据库包含了11亿个预测蛋白质结构和68亿条蛋白质序列信息。相比之下,AlphaFold数据库积累了超过2亿个结构预测。因此,ESM Atlas一发布就比AlphaFold数据库多出了约8亿条蛋白质结构数据,规模显著更大。

QESMFold2模型在开源策略上有何特点?这对科学界可能产生什么影响?

AESMFold2模型是完全开源且不限商用的。这为全球的研究人员、实验室和机构提供了一个免费、无限制的高性能蛋白质结构预测工具。这种策略可以极大地促进工具的普及、迭代和应用创新,有望加速整个生命科学领域的研究,特别是对于那些资源有限的研究者而言,意义重大。

Q文章中提到的科学家对ESMFold2和ESM Atlas持有哪些主要的保留意见或质疑?

A部分科学家提出了谨慎的看法:1. 预测结果需要独立的实验验证(Christine Orengo观点)。2. 对于与已知蛋白质差异很大的‘新结构’的预测能力仍有待考察(Martin Steinegger的疑问,其团队发现ESMFold第一版在此方面表现不佳)。3. ESM Atlas可能更适合作为AlphaFold数据库的补充,且ESMFold2的领先优势可能没有论文暗示的那么大(MIT的Ovchinnikov观点)。

Q根据文章,ESMFold2的突破对AI在生命科学领域的长期发展意味着什么?

AESMFold2将蛋白质结构预测规模推至11亿量级,并能有效设计并实验验证新蛋白质,标志着AI在理解和工程化生命系统方面迈出了重要一步。文章推演,当AI能精准预测和设计所有蛋白质时,生物学可能从一门研究学科转变为可被工程化的系统。这意味着未来有望从分子层面设计生命、定制蛋白质,甚至重写进化规则,将曾经的‘科幻’构想逐步变为可解决的‘工程问题’,使AI理解生命的能力提升到新台阶。

你可能也喜欢

Circle 将 Zama 协议地址列入黑名单,冻结价值 1260 万美元的用户资金 - 详情

稳定币发行商Circle已将一个与隐私协议Zama相关的智能合约列入黑名单,冻结了约1260万美元的用户资金。此次冻结首先由链上调查员ZachXBT发现,涉及Zama在以太坊上部署的保密USDC(cUSDC)合约。该合约地址在Zama的公开文档中可查,其冻结过程可被实时追踪和验证。 进一步分析显示,此次冻结可能与资产管理和收益协议Overnight Finance近期的争议及法律问题间接相关。数据显示,一个疑似与Overnight Finance相关的钱包于2026年5月11日向Zama合约存入约1240万美元USDC。Overnight Finance近期正面临治理纠纷和可能被团队“拉地毯”的指控,并因此进行了国库资产分配投票。此外,该公司还卷入一起民事诉讼,原告之一是DeFi领域以激进治理策略闻名的Patagon Management。尽管Circle的行动与这些事件之间尚无直接因果证据,但法律程序、资金流动与冻结事件的重叠,引发了人们对DeFi协议间风险传导的担忧。 Circle此次单方面行动再次引发对中心化发行商透明度的批评。据ZachXBT称,Zama团队在合约被列入黑名单前似乎未获任何通知。这加剧了人们对中心化实体在无预警情况下影响去中心化应用及其用户的担忧。此前在2026年3月,Circle曾冻结多个实体相关的热钱包而未公开说明理由。本次行动则更进一步,直接冻结了协议级别的资金池合约,而非独立钱包,这引发了人们对所谓去中心化系统中托管风险的质疑。截至目前,Circle尚未就冻结Zama合约的原因发布官方解释。

bitcoinist20分钟前

Circle 将 Zama 协议地址列入黑名单,冻结价值 1260 万美元的用户资金 - 详情

bitcoinist20分钟前

三年之后:回看 2023 年我对 ChatGPT 的判断

作者王健硕在2026年5月回看其于2023年3月对ChatGPT做出的二十条预测,并借助AI代理进行验证。整体看,其大方向判断多正确,但细节和程度常有偏差。 **看对的方面:** - **技术架构**:准确预测RAG(检索增强生成)将成为解决知识更新和幻觉的主流方法,以及LUI(自然语言用户界面)将催生巨大新产业。 - **发展趋势**:预见到“机器人网络”和新的agent寻址系统将出现,中国能快速做出可用大模型并缩小与顶尖差距。 - **本质认知**:正确指出ChatGPT没有意识,图灵测试仅测表象;判断其是巨大进步但非AGI,且短期内不会造成整体失业潮。 **看错或看偏的方面:** - **具体数据错误**:关于GPT-4有100T参数的传闻完全错误。 - **绝对化判断**:断言LLM“不可能”自己学好数学被后来模型在IMO夺金证伪;认为AI生成内容可“规避”版权,实则引发史上最大侵权赔偿。 - **价值与成本误判**:认为价值终落应用层,但最大赢家是算力层(如英伟达);模型成本“5-10亿封顶”的估算严重偏离实际。 - **社会影响误读**:认为ChatGPT的“加权平均”特性可能促进“世界大同”,但实际AI正走向个性化,并可能制造新信息茧房。 **总结规律:** 1. 预测机制和方向比具体数字更可靠。 2. 倾向于高估短期变化速度,低估长期影响程度。 3. 容易忽略问题内部的“分布”差异(如失业影响集中在年轻群体)。 4. 留有餘地、分层表述的判断更经得起时间检验。 5. 一些根本性争议,三年时间仍不足以给出定论。 这次复盘旨在为未来的判断立下更审慎的规矩。

marsbit7小时前

三年之后:回看 2023 年我对 ChatGPT 的判断

marsbit7小时前

三年之后:回看 2023 年我对 ChatGPT 的判断

2023年3月,在GPT-4发布前,作者王健硕对ChatGPT的未来做出了二十项预测。三年后的2026年,他使用AI agent对这些判断进行回顾验证,评估其准确性。 **主要看对的方面:** 1. **RAG成为主流**:预测通过外部检索而非修改模型来解决知识更新和幻觉问题,这已成为行业标准架构。 2. **LUI(自然语言界面)兴起**:预测自然语言交互将催生巨大新产业,Agent、MCP协议等发展印证了这一点,但LUI是与GUI共存而非取代。 3. **机器人网络与新寻址系统**:预测Agent将自动协作并需要新寻址方式,MCP、A2A等协议正朝此方向发展。 4. **中国能做出可用大模型**:预测中美模型差距会迅速缩小,事实如此,但真正领先的国内厂商与其当初点名不同。 5. **AI无意识与图灵测试本质**:核心判断“AI无意识,图灵测试仅测表象”基本成立,但“绝无意识”的绝对论断被后续研究置于灰区。 **看错或看偏的方面:** 1. **GPT-4参数数量**:所传“100T参数”严重错误,实际约为1.8T。 2. **LLM的数学能力**:诊断“数学差需外挂工具”正确,但“不可能自行学会”的结论被后续“推理模型”在IMO夺金证伪。 3. **价值捕获**:预测价值在应用层,但现实中算力层(如英伟达)捕获了最大利润,模型层反而亏损。 4. **版权问题**:判断“生成物可能无法登记版权”正确,但认为能“规避侵权”则错误,已出现巨额侵权赔偿案例。 5. **信息茧房与世界大同**:机制上AI会将观点向众数平均,但AI正快速走向“千人千面”的个性化,可能制造新茧房而非消解极化。 6. **大模型成本**:预测“局部战争”和玩家涌入正确,但“5-10亿美元封顶”的成本估算与前沿训练实际花费严重不符。 **总结规律:** 1. 判断**方向和机制**比具体数字、程度更可靠。 2. 倾向于**高估短期变化速度,低估长期能力上限**。 3. 容易忽略**问题内部的分布差异**(如总量正确但部分群体受损)。 4. **留有餘地、分层表述**的判断更经得起时间检验。 5. 一些根本性争论,**三年时间不足以给出最终答案**。 这次回顾表明,在快速变化的领域,把握大方向比追求精确预测更重要,同时需警惕绝对化表述并承认认知的局限性。

链捕手10小时前

三年之后:回看 2023 年我对 ChatGPT 的判断

链捕手10小时前

交易

现货
合约

热门文章

如何购买S

欢迎来到HTX.com!我们已经让购买Sonic(S)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Sonic(S)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Sonic(S)购买完您的Sonic(S)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Sonic(S)在HTX的现货市场轻松交易Sonic(S)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

2.4k人学过发布于 2025.01.15更新于 2025.03.21

如何购买S

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对S(S)币价的意见。

活动图片