Tám người cha đẻ của Transformer, hiện nay họ ở đâu?

marsbitXuất bản vào 2026-06-28Cập nhật gần nhất vào 2026-06-28

Tóm tắt

Biên tập bởi Panda. Tám tác giả của bài báo nền tảng "Attention Is All You Need" (2017) - kiến trúc Transformer đã định hình AI hiện đại - giờ đây đều đã rời Google. Họ đang theo đuổi những con đường khác nhau: **Jakob Uszkoreit:** Đồng sáng lập Inceptive, tập trung vào thiết kế RNA và dược phẩm bằng AI. **Ashish Vaswani:** Đồng sáng lập Essential AI (mô hình Rnj-1), có thông tin đang được Nvidia tuyển dụng. **Noam Shazeer:** Đồng sáng lập Character.AI, trở lại Google rồi lại chuyển sang OpenAI. **Niki Parmar:** Từ Essential AI chuyển sang Anthropic, tham gia phát triển Claude. **Llion Jones:** Đồng sáng lập Sakana AI tại Tokyo, nghiên cứu mô hình hợp tác kiểu bầy đàn. **Aidan N. Gomez:** Đồng sáng lập Cohere, tập trung vào AI cho doanh nghiệp và chủ quyền số. **Łukasz Kaiser:** Ở lại môi trường nghiên cứu thuần túy tại OpenAI, đóng góp cho GPT-4 và mô hình suy luận. **Illia Polosukhin:** Đồng sáng lập giao thức blockchain NEAR, hướng tới nền kinh tế tác nhân AI. Dù phân tán, họ đều chia sẻ quan điểm rằng Transformer không phải là điểm kết thúc. Thách thức lớn tiếp theo là tìm ra một kiến trúc mới vượt trội hơn hẳn. Cuộc hành trình tìm kiếm câu trả lời tiếp theo cho tương lai AI vẫn tiếp diễn.

Biên tập | Panda

Vài ngày trước, Google liên tiếp mất hai viên tướng.

Ngày 18 tháng 6, Noam Shazeer, một trong những tác giả chung của bài báo về Transformer, đã thông báo trên X về việc rời đi để gia nhập OpenAI. Hai ngày sau, John Jumper, người đoạt giải Nobel Hóa học 2024, người đứng đầu nhóm AlphaFold, cũng thông báo rời khỏi Google DeepMind để đến với Anthropic.

Hai tin tức liên tiếp này đã tạo ra phản ứng lớn trên thị trường vốn: cổ phiếu của Alphabet, công ty mẹ của Google, đã từng lao dốc hơn 7%, vốn hóa thị trường bốc hơi hơn 3000 tỷ USD. Nhiều tổ chức phân tích đều cho rằng đợt bán tháo này là do "nhân tài ra đi". Nhà phân tích Gil Luria của D.A. Davidson thẳng thắn nói rằng việc Shazeer gia nhập OpenAI và Jumper gia nhập Anthropic, cả hai rời đi liên tiếp, khiến thị trường bắt đầu lo ngại rằng Google đang thua trong cuộc chiến giành nhân tài AI.

Việc Shazeer rời đi lần này đặc biệt đáng chú ý – đây đã là lần thứ hai anh rời Google.

Năm 2021, vì không hài lòng với việc công ty không muốn công bố chatbot do mình phát triển, anh đã rời đi để thành lập Character.AI; đến tháng 8 năm 2024, Google lại chi khoảng 27 tỷ USD để mua bản quyền công nghệ của Character.AI, nhân cơ hội mời anh quay lại DeepMind, giữ chức Phó Chủ tịch Kỹ thuật cho dự án Gemini, cùng với Jeff Dean đồng lãnh đạo dự án này. Chưa đầy hai năm sau, anh lại đi, lần này đến với "kẻ thù không đội trời chung" OpenAI.

Đến lúc này, tất cả tám tác giả chung của bài báo "Attention Is All You Need" được công bố chín năm trước, đều đã rời khỏi Google.

Người dùng X Tyler Maran đã làm một bức ảnh, vẽ tất cả nơi họ đang đến hiện nay, bức ảnh này được chia sẻ điên cuồng trên mạng xã hội.

Tuy nhiên, bức ảnh này có lẽ sắp lỗi thời. Ngay trong hai ngày qua, thị trường đã lan truyền tin tức rằng NVIDIA đang âm thầm thu nạp đội ngũ lõi của Essential AI, trong đó có Ashish Vaswani, một trong những tác giả bài báo Transformer, đồng sáng lập kiêm CEO của Essential AI. Tính đến thời điểm bài viết này được đăng, cả NVIDIA và Essential AI đều chưa đưa ra phản hồi chính thức về việc này.

Nhân cơ hội này, chúng ta hãy điểm lại một cách đầy đủ sự nghiệp trong chín năm qua của tám người được gọi là "cha đẻ của Transformer", và nơi ở thực sự của họ hiện nay.

Cần phải nói rõ rằng thứ tự tác giả trong bài báo "Attention Is All You Need" là sắp xếp ngẫu nhiên. Chú thích cuối bài viết đã viết rõ: Tất cả các tác giả đều đóng góp như nhau, thứ tự được sắp xếp ngẫu nhiên, do đó không tồn tại khái niệm "tác giả đầu tiên" hay "tác giả liên hệ". Bài viết này cũng sẽ giới thiệu tám người này theo thứ tự ký tên ban đầu trong bài báo.

"Nguồn gốc của vạn vật": Tám người Google không chuyên tâm vào nghề

Để hiểu được nơi đến của họ ngày nay, phải quay lại năm 2017. Khi đó, cách làm chủ đạo trong lĩnh vực dịch máy là mạng nơ-ron hồi quy (RNN), mô hình phải xử lý câu từng từ một theo thứ tự, giống như xếp hàng qua đường một chiều, không thể tính toán song song, việc huấn luyện vừa chậm vừa đắt đỏ.

Tám người thuộc Google Brain đã quyết định thử một ý tưởng gần như liều lĩnh: vứt bỏ toàn bộ cấu trúc hồi quy, chỉ giữ lại "cơ chế chú ý", để mô hình xem toàn bộ câu một lần, tự đánh giá từ nào cần tập trung vào từ nào. Câu "Attention Is All You Need" trong tiêu đề bài báo, mượn từ bài hát "All You Need Is Love" của The Beatles, sau này cũng trở thành hình thức được nhiều bài báo khác bắt chước.

Phần mô tả đóng góp tác giả trong bài báo đã ghi lại ngắn gọn việc mỗi người cụ thể đã làm gì:

Jakob Uszkoreit đầu tiên đề xuất việc sử dụng tự chú ý thay thế cấu trúc hồi quy, và dẫn dắt việc xác minh sớm ý tưởng này;

Ashish Vaswani cùng với Illia Polosukhin thiết kế và triển khai mô hình Transformer ban đầu, tham gia hầu hết mọi khía cạnh của dự án;

Noam Shazeer đề xuất cơ chế chú ý tích vô hướng có tỷ lệ (scaled dot-product attention), cơ chế chú ý đa đầu (multi-head attention) và phương pháp biểu diễn vị trí không tham số (positional representation), là một người khác hầu như tham gia mọi việc;

Niki Parmar đã thiết kế, triển khai và gỡ lỗi vô số biến thể mô hình trong codebase ban đầu và sau đó là framework tensor2tensor;

Llion Jones cũng thử nghiệm rất nhiều biến thể mô hình mới, và chịu trách nhiệm cho codebase ban đầu, tối ưu hóa hiệu quả suy luận và công việc trực quan hóa;

Łukasz KaiserAidan N. Gomez thì dành vô số ngày đêm xây dựng các module của tensor2tensor, thay thế codebase cũ, cải thiện đáng kể kết quả thí nghiệm và hiệu quả nghiên cứu.

Phần mô tả này cũng gián tiếp tiết lộ một chi tiết: mặc dù thứ tự tác giả trong bài báo là ngẫu nhiên, nhưng Uszkoreit, Vaswani, Polosukhin và Shazeer rõ ràng đã đảm nhận vai trò cốt lõi hơn ở tầng kiến trúc, trong khi Parmar, Jones, Kaiser và Gomez thì đã gánh vác trọng trách lớn trong việc triển khai kỹ thuật và xây dựng hệ thống – đây cũng chính là một chú thích sớm về sự khác biệt trong tính cách và chuyên môn của tám người khi họ sau này lựa chọn những con đường khác nhau.

Bản thân cái tên "Transformer" cũng có một giai thoại. Uszkoreit thích cách phát âm của từ này, nên nhóm nội bộ đơn giản tự gọi mình là "Team Transformer", trang bìa của tài liệu thiết kế ban đầu còn vẽ sáu nhân vật từ phim hoạt hình Transformers.

Từ khi được công bố đến nay, bài báo đã được trích dẫn hơn 260 nghìn lần, là một trong những bài báo được trích dẫn nhiều nhất thế kỷ 21.

Ashish Vaswani

Vaswani sinh năm 1986, người Ấn Độ, năm 2002 lấy bằng Cử nhân Khoa học Máy tính từ Học viện Công nghệ Birla Ấn Độ (BIT Mesra), sau đó sang Mỹ, theo học tiến sĩ tại Đại học Nam California dưới sự hướng dẫn của David Chiang, nghiên cứu về dịch máy thống kê và mô hình hóa ngôn ngữ mạng nơ-ron. Sau khi hoàn thành nghiên cứu tiến sĩ, anh làm nhà khoa học máy tính hai năm tại Viện Khoa học Thông tin, Đại học Nam California, năm 2016 chính thức gia nhập Google Brain, trở thành nhà khoa học nghiên cứu, làm việc đến năm 2021.

Theo phần mô tả đóng góp tác giả trong bài báo, Vaswani cùng với Illia Polosukhin đã thiết kế và triển khai mô hình Transformer ban đầu, là một trong những nhân vật cốt lõi "tham gia hầu hết mọi khía cạnh của dự án".

Sau khi rời Google, năm 2021, Vaswani cùng với Niki Parmar, cựu Phó Chủ tịch Kỹ thuật của OpenAI David Luan và những người khác đồng sáng lập Adept AI, giữ chức Nhà khoa học Trưởng, với mục tiêu xây dựng "mô hình hành vi" có thể tự chủ hoàn thành thao tác trong bất kỳ phần mềm nào.

Adept từng huy động được hơn 400 triệu USD, định giá khoảng 1 tỷ USD, nhưng sản phẩm mãi không ra mắt, bên trong đội ngũ cũng xuất hiện bất đồng. Vaswani và Parmar đã sớm lựa chọn rút lui – nhiệm kỳ Nhà khoa học Trưởng của anh tại Adept kết thúc vào tháng 11 năm 2022.

Đầu năm 2023, Vaswani lại hợp tác với Parmar, đồng sáng lập Essential AI, anh giữ chức CEO. Công ty lần lượt nhận được đầu tư chiến lược từ Google, NVIDIA, AMD: Vòng hạt giống 8.3 triệu USD do Thrive Capital dẫn đầu, vòng A 56.5 triệu USD cuối năm 2023 do March Capital dẫn đầu, các tổ chức như Google, NVIDIA, AMD, KB Investment, Franklin Templeton theo sau. Đầu năm 2026, công ty hoàn thành vòng B 175 triệu USD, do Lightspeed Venture Partners dẫn đầu, Thrive Capital tham gia, định giá đạt 1 tỷ USD, chính thức trở thành kỳ lân.

Cuối năm 2025, công ty phát hành loạt mô hình mã nguồn mở đầu tiên Rnj-1 (đặt tên theo nhà toán học Ấn Độ Ramanujan).

Nhưng ngay trong hai ngày qua, tình hình đột nhiên thay đổi. Theo báo cáo, NVIDIA đang tuyển dụng đội ngũ lõi của Essential AI, bản thân Vaswani cũng nằm trong số đó, tương lai sẽ tham gia vào việc phát triển mô hình mã nguồn mở Nemotron của NVIDIA.

Các nguồn tin tiết lộ, lý do khá thực tế: việc huy động vốn của Essential AI đang gặp khó khăn, và việc kéo Vaswani cùng đội ngũ ra khỏi phe của AMD – đối thủ của NVIDIA (AMD vốn là một trong những nhà đầu tư chiến lược sớm của Essential AI, công ty cũng lâu nay phụ thuộc vào GPU của AMD) – bản thân nó đã là một thương vụ có lời. Một vài nhà nghiên cứu của Essential AI (bao gồm Alok Tripathy, Saurabh Srivastava) đã cập nhật hồ sơ LinkedIn, cho thấy đã gia nhập NVIDIA. Tuy nhiên, tính đến thời điểm hiện tại, cả NVIDIA và Essential AI đều chưa chính thức xác nhận tin tức này.

Noam Shazeer

Shazeer sinh năm 1976 tại Philadelphia, là một tín đồ Do Thái giáo chính thống; cha ông Dov Shazeer là kỹ sư xuất thân từ giáo viên toán, chị gái được Học viện Do Thái trao tư cách Rabbi. Thời trẻ, ông đã bộc lộ tài năng phi thường, năm 1994 là thành viên đội tuyển Mỹ tham gia kỳ thi Olympic Toán học Quốc tế và giành huy chương vàng với điểm tuyệt đối, sau đó vào Đại học Duke học toán và khoa học máy tính, là người nhận học bổng tưởng niệm Angier B. Duke, và giành giải trong cuộc thi toán Putnam.

Năm 2000, Shazeer gia nhập Google, tác phẩm nổi tiếng thời kỳ đầu là sửa chữa chức năng sửa lỗi chính tả của Google Tìm kiếm.

Theo phần mô tả đóng góp tác giả trong bài báo Transformer, ông đề xuất cơ chế chú ý tích vô hướng có tỷ lệ, cơ chế chú ý đa đầu và phương pháp biểu diễn vị trí không tham số, là người ngoài Vaswani và Polosukhin ra, "tham gia hầu như mọi chi tiết".

Sau khi đồng tác giả bài báo Transformer năm 2017, ông cùng đồng nghiệp Daniel De Freitas đã tạo ra chatbot Meena, nhưng Google vì lý do thận trọng đã không công bố nó rộng rãi. Hai người năm 2021 lựa chọn rời đi, thành lập Character.AI, từng huy động được hơn 150 triệu USD từ các tổ chức như a16z, tạo ra một ứng dụng chat nhập vai khá được yêu thích.

Tháng 8 năm 2024, câu chuyện xuất hiện bước ngoặt: Google đạt được thỏa thuận cấp phép với Character.AI, số tiền được báo cáo lên tới 27 tỷ USD, Shazeer và De Freitas mang theo một nhóm nhỏ đồng nghiệp trở lại Google DeepMind, ông được bổ nhiệm làm Phó Chủ tịch Kỹ thuật, cùng với Jeff Dean, Oriol Vinyals đồng lãnh đạo dự án Gemini. Do bản thân ông sở hữu khoảng 30% đến 40% cổ phần của Character.AI, thương vụ này khiến ông cá nhân thu về số tiền theo ước tính khoảng 7.5 tỷ đến 10 tỷ USD. Năm 2026, ông được bầu vào Viện Hàn lâm Kỹ thuật Quốc gia Hoa Kỳ, sự nghiệp có vẻ đang lên như diều gặp gió.

Nhưng chỉ vài tháng sau, ông lại một lần nữa lựa chọn rời đi, lần này đến với OpenAI, được báo cáo sẽ phụ trách một hướng nghiên cứu có tên "Architecture Research", vừa kịp thời điểm OpenAI đang mở rộng đội ngũ để hướng tới IPO (công ty đã vào ngày 8/6 bí mật nộp hồ sơ S-1 lên Ủy ban Chứng khoán Hoa Kỳ, định giá đồn đại lên tới 8,520 tỷ USD).

CEO OpenAI Sam Altman hiếm hoi bày tỏ công khai: "Từ ngày đầu tiên thành lập OpenAI, ông ấy là một trong những người tôi muốn hợp tác nhất", còn nói rằng lần tuyển dụng này "đã được ấp ủ suốt mười năm".

Đối với Google, đây là một lần "mua lại không thành" đắt giá: người được mời về với giá 27 tỷ USD hai năm trước, giờ lại đầu quân cho đối thủ số một, và đây cũng trở thành một trong những nguyên nhân trực tiếp khiến cổ phiếu Google tuần này lao dốc.

Niki Parmar

Parmar sinh ra ở Pune, Ấn Độ, đại học học tại Học viện Công nghệ Máy tính Pune (Pune Institute of Computer Technology), chuyên ngành công nghệ thông tin. Trong thời gian học, cô đã thông qua các khóa học trực tuyến mở do Andrew Ng và Peter Norvig giảng dạy mà có hứng thú với trí tuệ nhân tạo và học máy, sau đó sang Mỹ học thạc sĩ khoa học máy tính tại Đại học Nam California, theo giáo sư Morteza Dehghani nghiên cứu vấn đề khoa học xã hội bằng phương pháp học máy.

Năm 2015, Parmar gia nhập Google Research làm kỹ sư phần mềm, năm 2017 chuyển sang Google Brain làm kỹ sư phần mềm nghiên cứu – theo báo cáo, cô là nhà nghiên cứu trẻ nhất và cũng là người duy nhất không có bằng tiến sĩ trong đội ngũ Google Brain thời đó.

Theo phần mô tả đóng góp tác giả trong bài báo, cô đã thiết kế, triển khai và gỡ lỗi vô số biến thể mô hình trong codebase ban đầu và framework tensor2tensor. Sau khi bài báo được công bố, cô tiếp tục đưa Transformer đến các lĩnh vực ngoài ngôn ngữ, tham gia nghiên cứu mở rộng cơ chế tự chú ý sang tạo hình ảnh và thị giác máy tính.

Năm 2021, Parmar rời Google, cùng với Ashish Vaswani, David Luan và những người khác đồng sáng lập Adept AI, giữ chức Giám đốc Kỹ thuật. Cô và Vaswani đều rất sớm rút khỏi Adept, đầu năm 2023 lại cùng Vaswani thành lập Essential AI, tiếp tục làm đồng sáng lập.

Nhưng cô đã không chờ đến vòng B và danh hiệu kỳ lân sau đó của Essential AI. Cuối năm 2024, Parmar âm thầm rời Essential AI, quay người gia nhập Anthropic, và công bố tin này vào tháng 2 năm 2025. Cô viết trên X: "Hôm nay là một ngày như mọi ngày để chia sẻ: Tôi đã gia nhập Anthropic vào tháng 12 năm ngoái."

Cô sau đó tham gia phát triển Claude 3.7 Sonnet – một trong những lần phát hành mô hình quan trọng nhất trong lịch sử Anthropic. Hiện nay cô là thành viên đội ngũ kỹ thuật (Member of Technical Staff) tại Anthropic, tập trung vào nghiên cứu năng lực tiên phong và công việc hướng học tăng cường.

Hai đồng tác giả từng gắn bó như hình với bóng, hai lần cùng khởi nghiệp, cuối cùng lại đi đến hai điểm đến hoàn toàn khác biệt: Parmar rút lui âm thầm hơn một năm trước, lặng lẽ hòa vào một phòng thí nghiệm hàng đầu; còn Vaswani chọn tiếp tục đẩy Essential AI tiến lên, cho đến tuần này mới được bàn tay của đối thủ dang ra đón lấy.

Jakob Uszkoreit

Uszkoreit sinh ra trong một gia đình có truyền thống ngôn ngữ học. Cha ông, Hans Uszkoreit, là một nhà ngôn ngữ học tính toán nổi tiếng. Khi con trai đưa ra giả thuyết "chỉ cần cơ chế chú ý là đủ", ngay cả bản thân người cha cũng nghi ngờ. Uszkoreit lấy bằng tiến sĩ tại Đại học Công nghệ Berlin, sau đó tại Google Brain đã đạt đến cấp độ "Nhà khoa học Xuất sắc" (Distinguished Scientist).

Theo phần mô tả đóng góp tác giả trong bài báo, chính Uszkoreit đầu tiên đề xuất sử dụng cơ chế tự chú ý thay thế mạng nơ-ron hồi quy, và dẫn dắt việc xác minh sớm ý tưởng này – hạt giống của giả thuyết này thực ra đã được gieo trong bài báo "Decomposable Attention Model" năm 2016 của ông cùng với Ankur Parikh, Oscar Täckström, Dipanjan Das.

Cái tên "Transformer" cũng là vì ông thích cách phát âm của từ này mới quyết định; nội bộ nhóm tự gọi mình là "Team Transformer", trang bìa tài liệu thiết kế ban đầu vẽ sáu nhân vật từ phim hoạt hình Transformers.

Cuối năm 2020, AlphaFold2 của DeepMind đã chứng minh mô hình kiểu Transformer có thể giải quyết được những bài toán khó ở cấp độ "Chén thánh của sinh học" như gấp protein. Ông cũng ngày càng nhận thức rõ ràng hơn rằng, lý do học sâu vẫn chưa thực sự thay đổi được sinh học, không phải thiếu thuật toán, mà là thiếu dữ liệu. "Điều này gần như trở thành một nghĩa vụ đạo đức," ông sau này nhớ lại.

Vì vậy, năm 2021, ông cùng với Giáo sư hóa sinh Đại học Stanford, nhà phát triển trò chơi thiết kế RNA nổi tiếng Eterna, Rhiju Das, đồng sáng lập Inceptive, trụ sở công ty đặt tại Berkeley, đội ngũ nghiên cứu ở lại Berlin – bản thân ông sống ở Berlin, nhân viên còn phân bố tại Zurich, London, Vancouver và nhiều thành phố ở bờ Đông nước Mỹ. Ý tưởng cốt lõi của công ty là làm thí nghiệm ngược lại: không phải có dữ liệu rồi mới huấn luyện mô hình, mà là sử dụng robot và con người tạo ra dữ liệu thí nghiệm RNA hoàn toàn mới với quy mô lớn, rồi mới đưa cho mô hình học.

Inceptive đã huy động được khoảng 120 triệu USD từ các tổ chức như NVIDIA, a16z, Obvious Ventures, Section 32. Tiến triển mới nhất xảy ra vào tháng này: đầu tháng 6, nhà tiên phong về liệu pháp can thiệp RNA, hãng dược Alnylam, đã ký kết hợp tác chiến lược với Inceptive, dựa vào mô hình cơ sở của Inceptive để tăng tốc thiết kế ứng viên thuốc siRNA, số tiền trả trước 30 triệu USD, tổng số tiền tiềm năng của toàn bộ hợp tác được báo cáo có thể lên tới khoảng 2 tỷ USD. Uszkoreit nói trong tuyên bố: "Hầu hết việc thiết kế thuốc vẫn dựa vào thử sai – thử hàng ngàn phân tử, đánh cược một trong số đó thành công. Inceptive xuất phát từ một hướng khác: sự sống tuân theo những quy luật cực kỳ phức tạp, chỉ có AI mới có thể học được chúng."

Trong tám tác giả, ông là người duy nhất chuyển hẳn sang làm công nghệ sinh học, và điều này tình cờ chứng minh cho một lời tiên tri mà bài báo năm đó để lại: tiềm năng của cơ chế chú ý, xa hơn nhiều so với dịch máy.

Llion Jones

Jones là người xứ Wales, tốt nghiệp Đại học Birmingham, năm 2011 gia nhập Google làm kỹ sư phần mềm, làm việc hơn mười năm, là một trong số ít tám tác giả không có bằng tiến sĩ, hoàn toàn dựa vào trực giác kỹ thuật mà tìm ra lối đi.

Theo phần mô tả đóng góp tác giả trong bài báo, ông đã thử nghiệm rất nhiều biến thể mô hình mới, và chịu trách nhiệm cho codebase ban đầu, tối ưu hóa hiệu quả suy luận và công việc trực quan hóa.

Ông sau này nhớ lại khoảnh khắc quyết định đó: "Khi đó chúng tôi mới bắt đầu thử nghiệm cắt bỏ trực tiếp một số phần của mô hình, chỉ để xem hiệu quả sẽ giảm đi bao nhiêu. Kết quả đáng ngạc nhiên là, nó lại trở nên tốt hơn." Đây chính là thời khắc lần đầu tiên giả thuyết "cấu trúc hồi quy thực ra là thừa" được xác minh.

Năm 2023, Jones cùng với David Ha cũng xuất thân từ Google, thành lập Sakana AI tại Tokyo. "Sakana" trong tiếng Nhật có nghĩa là "cá". Ha giữ chức CEO, Jones giữ chức CTO, đồng sáng lập khác của công ty là Ren Ito giữ chức COO.

Jones hiện nay thường trú tại Tokyo, trên mạng xã hội tự xưng là "nhà nghiên cứu AI người Wales sống ở Tokyo". Công ty này có lộ trình nghiên cứu mang màu sắc phản xu hướng rõ rệt: thay vì chỉ chăm chăm đổ sức tính toán, đổ tham số, hãy vay mượn logic tiến hóa tự nhiên, để một nhóm mô hình nhỏ hơn hợp tác như đàn cá, thành quả nghiên cứu tiêu biểu của công ty bao gồm Continuous Thought Machine (Máy tư duy liên tục) và dự án "AI Scientist" có thể tự chủ tiến hành nghiên cứu end-to-end. Gần đây, công ty này còn phát hành mô hình Sakana Fugu có hiệu suất tiên phong.

Sakana AI đã huy động tổng cộng 379 triệu USD, bao gồm vòng B hoàn thành vào tháng 3 năm 2026, Mitsubishi Electric cũng là một trong những nhà đầu tư. Tháng 3 năm 2026, công ty còn giành được thỏa thuận hợp tác nhiều năm với Tập đoàn Tài chính Mitsubishi UFJ (MUFG). MUFG có kế hoạch sử dụng công nghệ của Sakana để cải tạo hệ thống ngân hàng, báo cáo cho biết thỏa thuận hợp tác này có thể giúp công ty có định giá khoảng 1.5 tỷ USD này đạt lợi nhuận trong vòng một năm.

Bản thân Jones đã nhiều lần bày tỏ sự nghi ngờ đối với việc chỉ đơn thuần "scaling" (mở rộng quy mô). Tháng 3 năm 2026, trong một sự kiện nội bộ ngành ngân hàng, ông nói, nghiên cứu AI hiện nay đối mặt với một thực tế khó xử: đầu tư và nhân tài đổ dồn vào nhiều, về lý thuyết phải thúc đẩy nhiều đột phá hơn, nhưng hiệu quả thực tế có lẽ lại ngược lại: nhà đầu tư thúc giục ra kết quả, cạnh tranh thúc giục ra mắt sớm, không gian "tự do mò mẫm" dành cho nhà nghiên cứu ngược lại bị thu hẹp. Ông đề cập, nội bộ Sakana luôn giữ lại một phần nhỏ tự do nghiên cứu "không có KPI", bởi vì đột phá tiếp theo chắc chắn đến từ sự đầu tư dài hạn không tính toán hậu quả này – đây thực chất chính là cách mà văn phòng Google Brain ngày xưa đã ấp ủ ra Transformer.

Ông còn nói một câu được trích dẫn nhiều lần: để một kiến trúc mới thực sự thay thế Transformer, chỉ "tốt hơn" là không đủ, phải "rõ ràng hơn, không còn nghi ngờ gì nữa là tốt hơn".

Aidan N. Gomez

Gomez là người trẻ nhất trong tám tác giả. Năm bài báo được công bố, anh chỉ là một thực tập sinh đại học 20 tuổi tại Google Brain, đang học song bằng khoa học máy tính và toán tại Đại học Toronto.

Theo phần mô tả đóng góp tác giả trong bài báo, anh và Łukasz Kaiser đã dành vô số ngày đêm xây dựng các module của framework tensor2tensor, thay thế codebase cũ, cải thiện đáng kể kết quả thí nghiệm và hiệu quả nghiên cứu. "Khi đó tôi chỉ muốn tìm hiểu rõ cơ chế chú ý vận hành thế nào," anh sau này nhớ lại, "hoàn toàn không ngờ nó sẽ trở thành 'kiến trúc của vạn vật'." Sau bài báo, anh đến Đại học Oxford học tiến sĩ, giữa chừng tạm dừng học vị để khởi nghiệp, đến năm 2024 mới chính thức lấy được bằng tiến sĩ – có thể nói anh vừa khởi nghiệp vừa bổ sung học vị.

Năm 2019, Gomez cùng với Ivan Zhang, Nick Frosst thành lập Cohere, định vị công ty là nhà cung cấp dịch vụ AI cấp doanh nghiệp, cố ý tránh cuộc đốt tiền của chatbot cấp người dùng, tập trung vào quyền riêng tư dữ liệu, triển khai tại chỗ và khả năng đa ngôn ngữ, khách hàng chủ yếu là các doanh nghiệp lớn và chính phủ các nước. Năm 2023, Gomez được chọn vào danh sách 100 người có ảnh hưởng trong lĩnh vực AI do tạp chí Time bình chọn, anh và hai đồng sáng lập cũng cùng nhau đứng đầu bảng tiên phong xu hướng AI do tạp chí Maclean's bình chọn năm đó; tháng 4 năm 2025, anh lại được chọn vào hội đồng quản trị công ty xe điện Rivian.

Cách làm tương đối "không sexy" này ngược lại giúp công ty chạy ra được số liệu tài chính khá tốt: tính đến giữa năm 2026, doanh thu thường niên hóa của Cohere đã vượt 200 triệu USD, năm qua tăng 6 lần, tỷ suất lợi nhuận gộp khoảng 70%, tổng huy động vốn gần 1.7 tỷ USD, định giá khoảng 7 tỷ USD; công ty tháng 8 năm 2025 mời Francois Chadwick từng tham gia IPO của Uber giữ chức CFO đầu tiên, cửa sổ cho nhân viên bán cổ phiếu thị trường thứ cấp cũng đã mở qua một vòng, bản thân Gomez nhiều lần biểu thị IPO "sắp rồi", nhưng tính đến hiện tại công ty vẫn chưa nộp hồ sơ chào bán lên cơ quan quản lý.

Gomez vài năm nay ngày càng giống một phát ngôn viên AI về mặt địa chính trị. Ngay trong tuần này, anh viết bài trên tạp chí Fortune, kêu gọi các nước đối diện với vấn đề "chủ quyền số". Bài viết trực tiếp đề cập đến sự kiện quyền truy cập mô hình của Anthropic gần đây bị thắt chặt, cảnh báo các nước không thể "cho thuê" tương lai của mình cho một số ít các gã khổng lồ công nghệ tập trung, và đề xuất xây dựng một hệ sinh thái thực sự đa dạng, để các nước có thể dựa vào các nhà cung cấp AI khác nhau, đồng thời giữ lại hệ giá trị, ngôn ngữ và hệ thống pháp luật của riêng mình.

Anh còn công khai biểu thị, lo ngại về rủi ro tồn tại kiểu "tận thế AI" bị phóng đại, rủi ro thực tế anh lo ngại hơn, là thông tin sai lệch bị khuếch đại tự động trên mạng xã hội. Gomez hiện nay đã không chỉ nói về bản thân mô hình nữa, mà là ai có tư cách quyết định cả thế giới dùng AI kiểu gì.

Łukasz Kaiser

Kaiser là người Ba Lan, sự đào tạo học thuật ban đầu là logic học, lý thuyết automata, lý thuyết mô hình thuật toán và lý thuyết trò chơi và các hướng lý thuyết khoa học máy tính khác: anh lấy bằng thạc sĩ kép toán và khoa học máy tính tại Đại học Wrocław, sau đó hoàn thành nghiên cứu tiến sĩ tại Đại học Công nghệ RWTH Aachen, Đức, tiếp theo có vị trí giảng viên suốt đời tại Trung tâm Nghiên cứu Khoa học Quốc gia Pháp (CNRS) và Đại học Paris 7, tập trung vào nghiên cứu thuần túy logic học và lý thuyết automata. Sau đó anh chuyển hướng ứng dụng, làm việc tại Google Brain gần tám năm, trong thời gian đó cũng là đồng tác giả của TensorFlow, và từng hợp tác với Samy Bengio công bố bài báo sớm về "Liệu bộ nhớ chủ động có thể thay thế cơ chế chú ý", hợp tác với Ilya Sutskever công bố bài báo "Thuật toán học Neural GPU".

Theo phần mô tả đóng góp tác giả trong bài báo, anh và Aidan N. Gomez đã dành vô số ngày đêm xây dựng framework tensor2tensor, cải thiện đáng kể kết quả thí nghiệm và hiệu quả nghiên cứu.

Trong tám tác giả, anh là người duy nhất không đi khởi nghiệp, luôn ở lại các phòng thí nghiệm lớn làm nghiên cứu thuần túy.

Năm 2021 anh gia nhập OpenAI, khi đó ChatGPT vẫn chưa ra mắt. Tại OpenAI, anh tham gia phát triển Codex (sau này trở thành nền tảng công nghệ của GitHub Copilot) và bộ benchmark lập trình HumanEval đi kèm, cũng tham gia nghiên cứu bộ dữ liệu toán GSM8K, công việc này sớm cho thấy "để mô hình tính nhiều hơn một chút, lấy mẫu nhiều lần hơn khi suy luận" có thể cải thiện đáng kể độ chính xác – đây chính là hình mẫu sơ khai của mô hình suy luận (reasoning model) sau này.

Anh còn là tác giả ký tên trong báo cáo kỹ thuật GPT-4, sau đó trở thành nhân vật đóng góp cốt lõi cho mô hình suy luận đầu tiên của OpenAI là o1 (phát hành tháng 9/2024), được coi là vai trò ở cấp "nghiên cứu trưởng", sau đó tiếp tục đến o3 và mô hình suy luận mới hơn, cho đến loạt GPT-5 ngày nay.

Gần đây anh trong podcast MAD do Matt Turck chủ trì có nói, Transformer đã được chứng minh bằng toán học có thể giải quyết bất kỳ vấn đề nào, chỉ cần cho phép mô hình tạo ra đủ bước suy luận trung gian. Ở một mức độ nào đó, đây là một chú giải muộn màng, chính xác hơn cho bài báo chín năm trước.

Illia Polosukhin

Polosukhin đến từ Kharkiv, Ukraine, đại học học toán ứng dụng, còn là quán quân cuộc thi lập trình sinh viên quốc tế (ICPC). Theo chính anh nhớ lại, năm mười tuổi sau khi xem phim "Ma trận" (The Matrix), anh đã có hứng thú với trí tuệ nhân tạo gần như ám ảnh. Năm 2014, anh gia nhập Google, tham gia nghiên cứu liên quan đến TensorFlow, cũng làm nghiên cứu về đọc hiểu máy và hệ thống hỏi đáp.

Theo phần mô tả đóng góp tác giả trong bài báo, anh cùng với Ashish Vaswani thiết kế và triển khai mô hình Transformer ban đầu, phần việc của anh chủ yếu là xác minh tính hiệu quả của kiến trúc này trong nhiệm vụ dịch máy.

Sau khi bài báo được công bố, năm 2017 anh rời Google, cùng với Alexander Skidanov đồng sáng lập một công ty trí tuệ nhân tạo ban đầu có tên NEAR.AI. Nhưng rất nhanh họ phát hiện, làm hạ tầng phi tập trung có lẽ thú vị hơn làm mô hình, nên công ty khoảng năm 2018 chuyển thành dự án blockchain NEAR Protocol.

NEAR sử dụng công nghệ phân mảnh (sharding) có tên Nightshade, và thông qua Aurora cung cấp mạng lớp 2 tương thích với Ethereum, năm 2020 mainnet chính thức ra mắt, đến nay đã huy động hơn 530 triệu USD từ các tổ chức như a16z, Coinbase, Tiger Global, Hashed, Dragonfly Capital.

Polosukhin hiện nay đang cố gắng ghép lại hai căn tính ban đầu của mình: tháng 3 năm 2026, anh nói với truyền thông, "người dùng tương lai của blockchain sẽ là tác nhân thông minh AI, không phải con người", và định vị NEAR là "tầng thanh toán" của kinh tế tác nhân thông minh. Tháng 4 cùng năm, anh công khai kêu gọi xây dựng khung pháp lý hoàn thiện hơn để ứng phó với tác nhân thông minh AI tự chủ; ông cho rằng các thể chế và chế độ hiện có chưa sẵn sàng xử lý các vấn đề về phân định trách nhiệm và rủi ro hệ thống mà các hệ thống loại này mang lại, kêu gọi xây dựng cơ chế giải trình trách nhiệm rõ ràng hơn và sự giám sát kiểu "con người trong vòng lặp" (human-in-the-loop).

Ông hiện thường trú tại Bồ Đào Nha. Giữa hai căn tính "viết bài báo nền tảng về LLM" và "điều hành một công ty blockchain có vốn hóa hàng chục tỷ USD", người có thể đồng thời sở hữu cả hai, trên thế giới có lẽ chỉ có ông.

Tám con đường, tiếp tục khám phá

Tháng 3 năm 2024, tại hội nghị GTC của NVIDIA, bảy trong số tám tác giả (Niki Parmar vắng mặt vì lý do) lần đầu tiên xuất hiện cùng nhau với tư cách tập thể, nhận phỏng vấn từ Jensen Huang.

Jensen Huang nói: "Tất cả những gì chúng ta tận hưởng ngày nay, đều có thể truy ngược về khoảnh khắc đó."

Khi cuộc trò chuyện kết thúc, ông tặng mỗi người một tấm bảng kỷ niệm bằng máy tính siêu cấp DGX-1 của NVIDIA có khắc chữ "Các bạn đã thay đổi thế giới (You transformed the world)". Tháng 11 cùng năm, Quỹ NEC C&C Nhật Bản trao giải C&C năm đó cho "Đội Transformer" gồm tám người này, cùng nhận giải với họ là ba kỹ sư kỳ cựu nghiên cứu công nghệ truyền dẫn cáp quang xuyên đại dương. Hai loại nhà xây dựng hạ tầng cơ sở hoàn toàn khác lĩnh vực, được đặt trong cùng một giải thưởng.

Chín năm qua, tám quỹ đạo cuộc đời này đã phân tán đến những nơi hầu như không còn giao nhau nữa: lĩnh vực dịch vụ doanh nghiệp ở Thung lũng Silicon, phòng thí nghiệm thuật toán tiến hóa ở Tokyo, công ty sinh học phân tử ở Berlin, giao thức blockchain ở Bồ Đào Nha, và những phòng thí nghiệm AI hàng đầu vẫn đang sắp xếp lại trong tuần này.

Nhưng nếu đặt những lời họ đã nói trong những năm qua cạnh nhau, sẽ thấy một đánh giá chung xuất hiện lặp đi lặp lại: Không ai thực sự tin Transformer sẽ là điểm kết thúc.

Aidan N. Gomez nói, thế giới cần thứ gì đó tốt hơn Transformer; Llion Jones nói, kiến trúc tiếp theo phải "rõ ràng hơn, không còn nghi ngờ gì nữa là tốt hơn" mới có thể thay thế nó; Łukasz Kaiser thì vẫn dùng ngôn ngữ toán học, cố gắng nói rõ bộ kiến trúc ra đời chín năm trước này, cuối cùng có thể đưa con người đi xa đến đâu.

Có lẽ đây mới là di sản lâu bền nhất mà bài báo này để lại: tám tác giả của nó tản mác khắp nơi, nhưng không một ai ngừng tìm kiếm câu trả lời tiếp theo.

Liên kết tham khảo

https://www.wired.com/story/eight-google-employees-invented-modern-ai-transformers-paper/

https://x.com/TylerMaran/status/2067772926695522454

https://www.nvidia.com/zh-tw/on-demand/session/gtc24-s63046/

Bài viết này đến từ tài khoản công chúng WeChat "机器之心" (ID:almosthuman2014), tác giả: 关注AI的

Câu hỏi Liên quan

QTheo bài viết, tác giả của công trình nghiên cứu "Attention Is All You Need" có bao nhiêu người và họ có đặc điểm gì chung về thứ tự được ghi tên?

ABài báo "Attention Is All You Need" có tám tác giả. Theo bài viết, thứ tự ghi tên của họ là ngẫu nhiên, không phản ánh mức độ đóng góp. Ghi chú trong bài báo nêu rõ: "Tất cả các tác giả đều đóng góp như nhau, thứ tự được sắp xếp ngẫu nhiên."

QAshish Vaswani hiện đang làm gì, và có thông tin mới nhất gì về anh ấy theo bài viết?

AAshish Vaswani là đồng sáng lập và CEO của Essential AI. Thông tin mới nhất trong bài viết cho biết có tin đồn rằng NVIDIA đang tuyển dụng nhóm cốt lõi của Essential AI, trong đó có Vaswani. Anh ấy được cho là sẽ tham gia phát triển mô hình mã nguồn mở Nemotron của NVIDIA. Tuy nhiên, cả NVIDIA và Essential AI đều chưa chính thức xác nhận thông tin này.

QNoam Shazeer có hành trình nghề nghiệp đặc biệt như thế nào liên quan đến Google và OpenAI?

AHành trình của Noam Shazeer khá đặc biệt: lần đầu rời Google năm 2021 để thành lập Character.AI. Năm 2024, Google mua lại bản quyền công nghệ của Character.AI với giá khoảng 2,7 tỷ USD và mời ông trở lại làm Phó chủ tịch kỹ thuật. Tuy nhiên, chỉ chưa đầy hai năm sau, vào tháng 6/2026, ông lại rời đi và gia nhập OpenAI - đối thủ cạnh tranh chính của Google.

QTrong số tám tác giả, ai là người duy nhất chuyển hẳn sang lĩnh vực công nghệ sinh học và công ty của họ tên là gì?

AJakob Uszkoreit là tác giả duy nhất chuyển hẳn sang lĩnh vực công nghệ sinh học. Ông đồng sáng lập công ty Inceptive vào năm 2021, tập trung vào việc sử dụng AI để thiết kế phân tử RNA cho mục đích y tế.

QLlion Jones đồng sáng lập công ty AI nào và triết lý nghiên cứu chính của công ty đó là gì?

ALlion Jones đồng sáng lập Sakana AI, một công ty có trụ sở tại Tokyo. Triết lý nghiên cứu chính của họ là tập trung vào việc phát triển các mô hình nhỏ hơn có thể hợp tác với nhau giống như một đàn cá, thay vì chỉ mở rộng quy mô (scaling up) các mô hình lớn đơn lẻ. Họ tin rằng cách tiếp cận lấy cảm hứng từ tự nhiên này có thể hiệu quả hơn.

Nội dung Liên quan

Câu trả lời nội địa cho năng lực tính toán không gian: Sử dụng photon hiệu quả hơn, Musk và Hoàng Nhân Huân đều quá rắc rối

Cuộc đua sức mạnh tính toán trong không gian đã trở thành một cuộc chạy đua vũ trang thực sự. Các tập đoàn như SpaceX của Elon Musk và NVIDIA của Jensen Huang đang định hướng tương lai, nhưng các thách thức kỹ thuật trong không gian - như bức xạ, tản nhiệt và tiêu thụ năng lượng - vô cùng khắc nghiệt so với trên mặt đất. Giải pháp tiềm năng nằm ở chip tính toán bằng quang tử (quang học). Không giống chip điện tử truyền thống, chip quang học sử dụng photon, có ba lợi thế chính cho môi trường vũ trụ: kháng bức xạ tự nhiên (vì photon không mang điện tích), gần như không sinh nhiệt và tiêu thụ điện năng cực thấp. Những đặc điểm này cho phép đạt được tổng sức mạnh tính toán cao hơn trong cùng một trọng tải và không gian hạn chế của vệ tinh. Trong khi chip điện tử đang tiến gần đến giới hạn vật lý của quy trình vi chế tạo, chip quang học phát triển sức mạnh thông qua việc mở rộng quy mô và tận dụng các chiều không gian của ánh sáng như bước sóng và phân cực. Tuy nhiên, ngành công nghiệp vẫn cần vượt qua những thách thức như sự tách biệt giữa bộ nhớ và tính toán, khó khăn trong tích hợp quy mô lớn, và đặc biệt là các rào cản kỹ thuật để đưa hệ thống lên không gian (như độ ổn định cấu trúc dưới rung động phóng tên lửa). Con đường phát triển sức mạnh tính toán trên quỹ đạo (thiên cơ) vẫn còn ở giai đoạn rất sớm, đòi hỏi vượt qua nhiều vấn đề về xác minh công nghệ, tích hợp hệ thống và triển khai quy mô. Khi chi phí tổng hợp trở nên cạnh tranh với tính toán mặt đất hoặc mang lại các dịch vụ độc đáo, việc thương mại hóa mới thực sự cất cánh. Tính toán và kết nối bằng quang tử (quang toán quang liên) có thể là lá bài then chốt để vượt qua các ràng buộc vật lý và định hình tương lai của chòm sao năng lực tính toán trong không gian.

marsbit2 giờ trước

Câu trả lời nội địa cho năng lực tính toán không gian: Sử dụng photon hiệu quả hơn, Musk và Hoàng Nhân Huân đều quá rắc rối

marsbit2 giờ trước

Cá voi lớn đặt lệnh short ZEC trị giá 4,92 triệu USD – Zcash có thể phục hồi về mức 520 đô la?

Cá voi lớn Garrett Bullish đã mở một vị thế short mới trị giá 4,92 triệu USD với đòn bẩy 2x vào ZEC ở mức giá 417,80 USD, củng cố lập trường giảm giá của mình sau hai giao dịch thành công trước đó. Tuy nhiên, dữ liệu phái sinh cho thấy một bức tranh khác: Chỉ số 90 ngày Futures Taker CVD vẫn cho thấy sự thống trị của phe mua, với các lệnh thị trường liên tục được hấp thụ. Về mặt kỹ thuật, ZEC đang giao dịch dưới kênh giá tăng đã bị phá vỡ, với kháng cự chính gần nhất ở 520 USD và hỗ trợ ở 335,50 USD. Áp lực giảm giá có vẻ chậm lại khi giá ổn định quanh 413 USD. Chỉ báo Stochastic RSI rơi vào vùng quá bán mạnh, phản ánh điều kiện bán tháo có thể đã kiệt sức, trong khi Parabolic SAR vẫn ở dưới giá, cho thấy xu hướng lớn vẫn có lợi cho phe mua. Tóm lại, dù vị thế short của cá voi gia tăng áp lực giảm giá, áp lực mua từ phía dẫn dắt thị trường vẫn tồn tại. Khả năng phục hồi của ZEC phụ thuộc vào việc giá có vượt lên được kênh cũ và mức 520 USD hay không. Nếu thất bại, mức hỗ trợ 335,50 USD có thể là mục tiêu tiếp theo.

ambcrypto3 giờ trước

Cá voi lớn đặt lệnh short ZEC trị giá 4,92 triệu USD – Zcash có thể phục hồi về mức 520 đô la?

ambcrypto3 giờ trước

Giao dịch

Giao ngay
活动图片