Vương vị AlphaFold lâm nguy!
Nature đăng bài: Biohub, thuộc quyền sở hữu của Mark Zuckerberg, tung ra một đòn chí mạng, công bố một lúc 1,1 tỷ dự đoán cấu trúc protein, nhiều hơn cơ sở dữ liệu AlphaFold tới 800 triệu mục.
Mô hình AI đứng sau mang tên ESMFold2, được cho là có hiệu năng vượt trội hoàn toàn AlphaFold3.
Điểm then chốt hơn nữa là hoàn toàn nguồn mở, không hạn chế thương mại.
https://www.nature.com/articles/d41586-026-01686-3
Vị thế bá chủ AI về protein mà Google DeepMind vun đắp nhiều năm nay đang bị lung lay bởi một kẻ phá rối nguồn mở.
Bố cục của đường đua AI protein có thể sẽ được viết lại.
1,1 tỷ cấu trúc protein, được dọn ngay lên bàn
Ngày 27 tháng 5, tổ chức y sinh Biohub do vợ chồng Mark Zuckerberg sáng lập đã chính thức ra mắt cơ sở dữ liệu cấu trúc protein mang tên ESM Atlas.
1,1 tỷ dự đoán cấu trúc protein, cùng với 6,8 tỷ mục thông tin trình tự protein.
Cơ sở dữ liệu AlphaFold tích lũy hơn 200 triệu dự đoán cấu trúc, ngay khi ra mắt, ESM Atlas đã nhiều hơn tới 800 triệu mục.
Mô hình AI tạo ra những dự đoán này gọi là ESMFold2, do trưởng phòng khoa học Biohub là Alex Rives dẫn đầu phát triển.
Rives nói:
Bản đồ này cho thấy toàn cảnh sinh học protein, đặc biệt là những phần bí ẩn nhất.
Tại sao dự đoán cấu trúc protein lại quan trọng?
Protein là bộ phận cốt lõi vận hành sự sống, biết được hình dạng của nó là có thể hiểu được chức năng, từ đó thiết kế thuốc mới, chinh phục bệnh tật.
AlphaFold đã nhờ điều này mà đoạt giải Nobel Hóa học, là trường hợp tiêu biểu cho việc AI thay đổi khoa học.
Giờ đây, một mô hình mới với tập dữ liệu lớn gấp 5 lần đã xuất hiện.
Là mô hình AI, ESMFold2 mạnh ở điểm nào
ESMFold2 đi theo một hướng công nghệ khác với AlphaFold.
Nó được xây dựng dựa trên "Mô hình ngôn ngữ protein" ra mắt năm 2024, ý tưởng cốt lõi tham khảo cách làm trong lĩnh vực NLP, coi trình tự protein như "ngôn ngữ" để hiểu, huấn luyện trên hàng chục tỷ mục dữ liệu protein, để mô hình học cách dự đoán trực tiếp cấu trúc ba chiều từ trình tự.
Các đồng nghiệp AI của AlphaFold nhìn thấy đây chắc sẽ cảm thấy quen thuộc, logic này giống với việc mô hình ngôn ngữ lớn học ngôn ngữ con người.
Phạm vi bao phủ của dữ liệu huấn luyện là biến số then chốt.
ESMFold2 đưa vào lượng lớn dữ liệu protein vi sinh vật từ môi trường như đất, biển, phần này vốn trống trong cơ sở dữ liệu AlphaFold.
Phạm vi bao phủ rộng hơn, "thế giới protein" mà mô hình thấy sẽ đầy đủ hơn.
Nhóm Biohub tuyên bố, ESMFold2 có biểu hiện vượt trội AlphaFold3 trong việc dự đoán cấu trúc phức hợp tương tác giữa các protein.
Nhưng thuyết phục nhất không phải là điểm số chạy benchmark, mà là kiểm chứng thực tế.
Nhóm đã sử dụng ESMFold2 để thiết kế protein hoàn toàn mới, mang đến phòng thí nghiệm tổng hợp thử nghiệm, tỷ lệ cao thiết kế hoạt động theo dự kiến.
Từ "dự đoán" đến "thiết kế" rồi "kiểm chứng", khi chạy thông mạch này, giá trị sẽ mở rộng từ bài báo ra thế giới thực.
Hoàn toàn nguồn mở, đây mới là vũ khí sát thủ lớn nhất
Vũ khí cạnh tranh sắc bén nhất của ESMFold2 là hoàn toàn nguồn mở và không hạn chế thương mại.
Ý nghĩa chiến lược của lựa chọn này càng rõ ràng hơn khi đặt trong ngữ cảnh toàn ngành AI.
AlphaFold tuy có cơ sở dữ liệu mở, nhưng AlphaFold3 lúc đầu ra mắt đã đặt ra hạn chế đối với sử dụng thương mại.
Mô hình dự đoán tương tác protein do Isomorphic Labs thuộc Google DeepMind ra mắt năm nay thậm chí hoàn toàn đóng.
Đọc mở rộng: Google ra mắt "AlphaFold 4", không còn nguồn mở! Hiệu năng áp đảo thế hệ trước
Nhà sinh học tính toán Ovchinnikov của MIT chỉ rõ giá trị của nguồn mở, "Tôi dự đoán nhiều người sẽ rất hào hứng muốn thử ESMFold2."
Hiệu ứng đòn bẩy của AI nguồn mở đã được xác thực đầy đủ ở đường đua mô hình ngôn ngữ lớn, loạt Llama của Meta là ví dụ điển hình nhất.
Một mô hình nguồn mở đủ mạnh có thể kích hoạt cộng đồng toàn cầu lặp lại, ứng dụng, phát hiện cách dùng mà chính nhà phát triển ban đầu cũng không nghĩ tới.
Tình hình trong lĩnh vực AI protein càng đặc biệt hơn, có một lượng lớn phòng thí nghiệm và tổ chức nghiên cứu toàn cầu cần kíp một công cụ dự đoán cấu trúc miễn phí, không hạn chế, mô hình đóng dù mạnh đến đâu thì nhóm người dùng tiếp cận được cũng chỉ lớn vậy.
Biohub lựa chọn nguồn mở toàn diện, hoàn toàn nhất quán với cách đánh của Meta trên mô hình ngôn ngữ lớn.
Chiến lược của hệ thống Mark Zuckerberg trong lĩnh vực AI ngày càng rõ ràng - dùng nguồn mở làm cơ sở hạ tầng, dùng hệ sinh thái làm hào bảo vệ.
Đồng nghiệp đại cao thủ, có chấp nhận không?
Phản ứng của giới học thuật tích cực, nhưng ý kiến bảo lưu cũng rất rõ ràng.
Gemma Atkinson từ Đại học Lund, Thụy Điển gọi ESM Atlas là "nên trở thành nguồn tài nguyên phi thường cho sinh học".
Christine Orengo từ Đại học College London công nhận giá trị của nó, nhưng nhấn mạnh kết quả dự đoán cần được kiểm chứng độc lập.
Vấn đề sắc bén hơn đến từ Martin Steinegger của Đại học Quốc gia Seoul.
Ông quan tâm là, khi đối mặt với những "cấu trúc mới" khác biệt rất lớn với protein đã biết, biểu hiện của ESMFold2 thực sự thế nào.
Nhóm của ông trước đây phát hiện, bản đầu tiên ESMFold không xuất sắc ở mặt này. Vấn đề này đối với ESMFold2 vẫn chưa được giải quyết.
Ovchinnikov của MIT đưa ra đánh giá lạnh lùng nhất, ông cho rằng ESM Atlas phù hợp hơn nếu được định vị là bổ sung cho cơ sở dữ liệu AlphaFold.
Ông còn chỉ ra, mô hình đóng của Isomorphic Labs và một số mô hình nguồn mở mà Biohub không trực tiếp đem ra so sánh, cũng đã đạt được thành quả ở mức độ tương tự.
Mức độ dẫn đầu của ESMFold2, có thể không lớn như bài báo ám chỉ.
Thái độ thận trọng này lại phản chiếu cạnh tranh ở đường đua AI protein đã cực kỳ gay gắt.
Nguồn mở, đóng, học thuật, thương mại, các loại mô hình đều đang lặp lại với tốc độ cực nhanh.
"Mạnh nhất" hôm nay, nửa năm sau có thể đã bị làm mới. Nhịp độ này, rất giống với cuộc chạy đua vũ trang trên đường đua mô hình ngôn ngữ lớn rồi.
Khi AI bắt đầu đọc hiểu mã nguồn của sự sống
Trước đây, phân giải một cấu trúc ba chiều của protein có thể cần vài tháng đến vài năm công việc trong phòng thí nghiệm.
AlphaFold lần đầu chứng minh AI có thể làm được trong vài phút.
Giờ đây ESMFold2 đẩy quy mô dự đoán lên mức 1,1 tỷ, bao phủ lượng lớn protein chưa từng được phân giải trước đây.
Theo con đường này suy luận, khi AI có thể dự đoán chính xác tất cả cấu trúc protein, có thể thiết kế protein chức năng hoàn toàn mới và được kiểm chứng thí nghiệm hiệu quả, thì khoảng cách với việc AGI ứng dụng trong khoa học sự sống, có thể gần hơn dự tưởng của đa số.
Nếu ASI thực sự đến, sinh học đối với nó không còn là môn học cần "nghiên cứu", mà là hệ thống có thể được "kỹ thuật hóa".
Từ cấp độ phân tử thiết kế sự sống, tùy chỉnh protein theo nhu cầu, viết lại quy tắc tiến hóa.
Nghe giống khoa học viễn tưởng, nhưng công cụ loại như ESMFold2 đang từng bước biến "khoa học viễn tưởng" thành "vấn đề kỹ thuật".
Hôm nay, 1,1 tỷ cấu trúc protein được trải ra trên bàn, nhà khoa học toàn cầu nào có kết nối internet đều có thể lấy dùng miễn phí.
Điều này có nghĩa, khả năng hiểu sự sống của AI, lại lên một tầng nữa.
Tài liệu tham khảo: https://www.nature.com/articles/d41586-026-01686-3
Bài viết này đến từ tài khoản công chúng WeChat "Tân Trí Nguyên", tác giả: ASI Khải Thị Lục; Biên tập: Mã Khả
















