生物学变天:小扎的新开源模型,彻底掀翻谷歌AlphaFold王座

marsbit发布于2026-05-29更新于2026-05-29

文章摘要

AlphaFold王座告急!扎克伯格旗下Biohub近日在《自然》发文,重磅推出开源AI模型ESMFold2及其预测数据库ESM Atlas。该数据库一举发布11亿个蛋白质结构预测,比AlphaFold数据库多出8亿条,且完全开源、不限商用。 ESMFold2采用不同于AlphaFold的技术路线,基于“蛋白质语言模型”构建,将蛋白质序列视为“语言”进行训练。其纳入了大量AlphaFold未覆盖的微生物蛋白质数据,模型覆盖面更广。团队声称,其在预测蛋白质复合物结构方面性能超越AlphaFold3,并已成功用于设计并实验验证了新型功能性蛋白质。 开源策略被认为是其最大杀手锏。与谷歌DeepMind对AlphaFold3等模型施加商业限制不同,ESMFold2的全面开放有望吸引全球研究社区广泛使用和创新,策略与Meta在大语言模型领域的打法一脉相承。 学界反响积极,认为这是一个“非凡资源”,但也强调预测结果需要独立验证,并对模型在全新蛋白质结构上的表现持审慎态度。有专家指出,该领域竞争白热化,ESMFold2的领先优势可能不像看上去那么绝对。 此举标志着AI在生命科学领域的深入。从预测已知结构到设计全新蛋白质,AI正将理解与设计生命的能力推向新台阶,使更多全球科学家能够免费获取海量蛋白质结构数据,加速相关研究。

AlphaFold 王座告急!

Nature 刊文:扎克伯格旗下 Biohub 放了一记王炸,一口气发布 11 亿个蛋白质结构预测,比 AlphaFold 数据库多出 8 亿条。

背后的 AI 模型 ESMFold2 号称性能全面超越 AlphaFold3。

更关键的是,完全开源,不限商用

https://www.nature.com/articles/d41586-026-01686-3

谷歌 DeepMind 苦心经营多年的蛋白质 AI 霸主地位,正在被一个开源搅局者动摇。

蛋白质 AI 赛道的格局,可能要重写了。

11 亿个蛋白质结构,一把端上桌了

5 月 27 日,扎克伯格夫妇创建的生物医学机构 Biohub,正式上线了名为 ESM Atlas 的蛋白质结构数据库。

11 亿个预测蛋白质结构,外加 68 亿条蛋白质序列信息。

AlphaFold 的数据库积累了超过 2 亿个结构预测,ESM Atlas 一来就多出 8 亿条。

生成这些预测的 AI 模型叫 ESMFold2,由 Biohub 科学负责人 Alex Rives 带队开发。

Rives 说:

这个图谱展示了蛋白质生物学的全貌,尤其是那些最未知的部分。

蛋白质结构预测为什么重要?

蛋白质是生命运转的核心零件,知道它的形状就能理解它的功能,进而设计新药、攻克疾病。

AlphaFold 靠这个拿了诺贝尔化学奖,是 AI 改变科学的标志性案例。

现在一个新模型拿着大 5 倍的数据集站了出来。

作为 AI 模型,ESMFold2 强在哪

ESMFold2 走了一条和 AlphaFold 不同的技术路线。

它基于 2024 年发布的「蛋白质语言模型」构建,核心思路借鉴了 NLP 领域的做法,把蛋白质序列当作「语言」来理解,在数十亿条蛋白质数据上训练,让模型学会从序列直接预测三维结构。

AlphaFold 的 AI 同行们看到这里应该会觉得熟悉,这和大语言模型学习人类语言的逻辑是一样的。

训练数据的覆盖范围是关键变量。

ESMFold2 纳入了大量来自土壤、海洋等环境的微生物蛋白质数据,这部分在 AlphaFold 的数据库里是空白的。

覆盖面更广,模型见过的「蛋白质世界」就更完整。

Biohub 团队称,ESMFold2 在预测蛋白质之间相互作用的复合结构方面,表现优于 AlphaFold3。

但最有说服力的不是跑分,而是落地验证。

团队用 ESMFold2 设计了全新的蛋白质,拿到实验室合成测试,高比例的设计按预期起效了。

从「预测」到「设计」再到「验证」,这条链路跑通,价值就从论文延伸到了真实世界。

全部开源,这才是最大的杀手锏

ESMFold2 最锋利的竞争武器,是完全开源且不限商用。

这个选择的战略意义,放到整个 AI 行业的语境下看更清楚。

AlphaFold 虽然有开放数据库,但 AlphaFold3 在发布初期对商业使用做了限制。

谷歌 DeepMind 旗下的 Isomorphic Labs 今年推出的蛋白质相互作用预测模型更是完全闭源。

拓展阅读:谷歌发布「AlphaFold 4」,不再开源!性能碾压上一代

MIT 的计算生物学家 Ovchinnikov 直接点明了开源的价值,「我预计很多人会很兴奋地想试一试 ESMFold2。」

开源 AI 的杠杆效应在大语言模型赛道已经被充分验证,Meta 的 Llama 系列就是最好的例子。

一个足够强的开源模型,能撬动全球社区去迭代、应用、发现原始开发者自己都没想到的用法。

蛋白质 AI 领域的情况更特殊,全球有大量实验室和研究机构迫切需要一个免费、无限制的结构预测工具,闭源模型再强,能触达的用户群就那么大。

Biohub 选择全面开源,跟 Meta 在大语言模型上的打法一脉相承。

扎克伯格系在 AI 领域的策略越来越清晰——用开源做基础设施,用生态做护城河。

同行大牛,买不买账?

学界反应积极,但保留意见也很明确。

瑞典隆德大学的 Gemma Atkinson 称 ESM Atlas 「应该成为生物学的非凡资源」。

伦敦大学学院的 Christine Orengo 认可其价值,但强调预测结果需要独立验证。

更尖锐的问题来自首尔国立大学的 Martin Steinegger。

他关心的是,ESMFold2 面对那些与已知蛋白质差异很大的「新结构」时,表现到底如何。

他的团队此前发现,ESMFold 第一版在这方面并不出色。这个问题对 ESMFold2 依然悬而未决。

MIT 的 Ovchinnikov 给出了最冷静的判断,他认为 ESM Atlas 更适合定位为 AlphaFold 数据库的补充。

他还指出,Isomorphic Labs 的闭源模型以及一些 Biohub 没有直接拿来对比的开源模型,也取得了类似水平的成果。

ESMFold2 的领先幅度,可能没有论文暗示的那么大。

这种审慎,恰恰折射出蛋白质 AI 赛道的竞争已经白热化。

开源、闭源、学术、商业,各路模型都在以极快速度迭代。

今天的「最强」,半年后可能就被刷新。这个节奏,和大语言模型赛道的军备竞赛已经非常像了。

当 AI 开始读懂生命的源代码

过去,解析一个蛋白质的三维结构可能需要几个月到几年的实验室工作。

AlphaFold 第一次证明 AI 可以在几分钟内做到。

现在 ESMFold2 把预测规模推到了 11 亿量级,覆盖了大量此前从未被解析的蛋白质。

沿着这条路往前推演,当 AI 能精准预测所有蛋白质结构,能设计全新的功能性蛋白质且实验验证有效,那距离 AGI 在生命科学领域的落地,可能比大多数人预想的更近。

如果 ASI 真正到来,生物学对它而言不再是需要「研究」的学科,而是可以被「工程化」的系统。

从分子层面设计生命,按需定制蛋白质,重写进化的规则。

这听起来像科幻,但 ESMFold2 这类工具正在一步步把「科幻」变成「工程问题」。

今天,11 亿个蛋白质结构被摊开在桌上,全球任何有网络连接的科学家都可以免费取用。

这意味着,AI 理解生命的能力,又上了一个台阶。

参考资料:https://www.nature.com/articles/d41586-026-01686-3

本文来自微信公众号“新智元”,作者:ASI启示录;编辑:马可

相关问答

QESMFold2与AlphaFold在技术路线上有何主要区别?

AESMFold2基于‘蛋白质语言模型’构建,借鉴了NLP领域的思路,将蛋白质序列当作‘语言’来理解和学习,直接从序列预测三维结构。而AlphaFold则采用了不同的计算方法。此外,ESMFold2的训练数据纳入了大量来自土壤、海洋等环境的微生物蛋白质数据,这些在AlphaFold数据库中相对空白,使其对蛋白质世界的覆盖面更广。

QBiohub新发布的ESM Atlas数据库在规模上有何突出之处?

ABiohub发布的ESM Atlas数据库包含了11亿个预测蛋白质结构和68亿条蛋白质序列信息。相比之下,AlphaFold数据库积累了超过2亿个结构预测。因此,ESM Atlas一发布就比AlphaFold数据库多出了约8亿条蛋白质结构数据,规模显著更大。

QESMFold2模型在开源策略上有何特点?这对科学界可能产生什么影响?

AESMFold2模型是完全开源且不限商用的。这为全球的研究人员、实验室和机构提供了一个免费、无限制的高性能蛋白质结构预测工具。这种策略可以极大地促进工具的普及、迭代和应用创新,有望加速整个生命科学领域的研究,特别是对于那些资源有限的研究者而言,意义重大。

Q文章中提到的科学家对ESMFold2和ESM Atlas持有哪些主要的保留意见或质疑?

A部分科学家提出了谨慎的看法:1. 预测结果需要独立的实验验证(Christine Orengo观点)。2. 对于与已知蛋白质差异很大的‘新结构’的预测能力仍有待考察(Martin Steinegger的疑问,其团队发现ESMFold第一版在此方面表现不佳)。3. ESM Atlas可能更适合作为AlphaFold数据库的补充,且ESMFold2的领先优势可能没有论文暗示的那么大(MIT的Ovchinnikov观点)。

Q根据文章,ESMFold2的突破对AI在生命科学领域的长期发展意味着什么?

AESMFold2将蛋白质结构预测规模推至11亿量级,并能有效设计并实验验证新蛋白质,标志着AI在理解和工程化生命系统方面迈出了重要一步。文章推演,当AI能精准预测和设计所有蛋白质时,生物学可能从一门研究学科转变为可被工程化的系统。这意味着未来有望从分子层面设计生命、定制蛋白质,甚至重写进化规则,将曾经的‘科幻’构想逐步变为可解决的‘工程问题’,使AI理解生命的能力提升到新台阶。

你可能也喜欢

交易

现货
合约

热门文章

如何购买S

欢迎来到HTX.com!我们已经让购买Sonic(S)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Sonic(S)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Sonic(S)购买完您的Sonic(S)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Sonic(S)在HTX的现货市场轻松交易Sonic(S)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

2.3k人学过发布于 2025.01.15更新于 2025.03.21

如何购买S

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对S(S)币价的意见。

活动图片