Trong thị trường đầu tư mạo hiểm hiện nay, "Mô hình Thế giới" (World Model) chắc chắn là từ khóa nổi bật nhất. Hầu như ngày nào chúng ta cũng thấy một công ty "Mô hình Thế giới" mới hoàn thành vòng gọi vốn, định giá tăng mạnh, danh sách cổ đông đẳng cấp. Và trong các thông cáo báo chí về tin tức gọi vốn này, mọi người còn thường xuyên nhấn mạnh một thực tế: Một siêu trí tuệ nhân tạo đủ tiêu chuẩn không nên chỉ dựa vào việc 'nuôi' dữ liệu để có được khả năng, mà phải hiểu về thế giới vật lý một cách chủ động như con người.
Nhưng Pete Florence sau khi khởi nghiệp lại viết một bức thư ngỏ dài, ngay từ đầu đã viết: "Đừng dán nhãn Mô hình Thế giới cho công ty của tôi."
Điều này thật sự trái khoáy. Bởi vì Pete Florence không chỉ đơn giản là một "nhà khởi nghiệp". Trước khi khởi nghiệp, Pete Florence đã làm việc trong nhóm Google DeepMind, từ một nhà nghiên cứu thông thường thăng tiến lên thành Nhà khoa học Nghiên cứu Cấp cao. Mô hình điều khiển robot Gemini Robotics mà DeepMind ra mắt vào năm 2025, Pete Florence chính là một trong những nhà phát triển cốt lõi nhất. Tuy nhiên, thành tựu có ảnh hưởng nhất của anh trong thời gian này là vào năm 2023, cùng với các đồng nghiệp, đã giới thiệu với thế giới một kiến trúc mô hình robot hoàn toàn mới: "Vision-Language-Action Models" (Mô hình Thị giác-Ngôn ngữ-Hành động).
(Pete Florence, Nguồn: Mạng xã hội)
Đúng vậy, nếu nói rằng hiện nay "Mô hình Thế giới" hay "VLA" là hướng đi tiên phong nhất, có được sự đồng thuận cao nhất, thì Pete Florence chính là người tiên phong xứng đáng trên con đường này. Một người như vậy lại dẫn đầu việc vứt bỏ nhãn "Mô hình Thế giới", quả thực là một cú sốc.
Và bây giờ, cú sốc còn tăng gấp bội. Gần đây, công ty trí tuệ thể hiện (embodied AI) Generalist AI do Pete Florence sáng lập đã hoàn thành một vòng gọi vốn mới, với tổng quy mô 4 tỷ USD (khoảng 27 tỷ nhân dân tệ), định giá 20 tỷ USD (khoảng 135,5 tỷ nhân dân tệ). Các nhà đầu tư vòng này bao gồm NVentures thuộc sở hữu của NVIDIA, các nhà đầu tư thiên thần nổi tiếng Nat Friedman và Daniel Gross cùng quản lý quỹ NFDG, văn phòng gia đình Bezos Expeditions của Jeff Bezos, đồng sáng lập Xiaomi Lâm Bân, nhà sáng lập Zoom Viên Trưng, và nhà khoa học tiêu biểu nhất trong lĩnh vực Mô hình Thế giới - Lý Phi Phi.
"Mục tiêu" quan trọng hơn "Nhãn mác"
Tại sao với tư cách là một trong những người đặt nền móng chính cho Mô hình Thế giới, Pete Florence lại phản đối việc bị dán nhãn "Mô hình Thế giới" đến vậy? Tại sao Lý Phi Phi, với tư cách là học giả tiêu biểu nhất trong lĩnh vực Mô hình Thế giới, lại dùng tiền thật để ủng hộ một người dị giáo công khai "ly kinh bạn đạo" như vậy? Câu chuyện có lẽ phải bắt đầu từ năm 2019.
Vào thời điểm đó, Pete Florence đang theo học Tiến sĩ Khoa học Máy tính tại Học viện Công nghệ Massachusetts (MIT), nghiên cứu chính về lĩnh vực điều khiển robot, thị giác máy tính và xử lý ngôn ngữ tự nhiên - xét về xuất thân này, Pete Florence có thể coi là "chính thống", hướng nghiên cứu chính thống, nền tảng học thuật cũng chính thống, không phải là một "giang hồ nhi nữ" cần dựa vào "đặc lập đặc hành" để tranh giành tài nguyên. Nhưng vấn đề là, MIT lại phân cho anh một người cố vấn tên là Russ Tedrake.
Russ Tedrake là ai? Trước hết, ông ấy chắc chắn là một học giả lớn. Vào năm 2019, ông đồng thời đảm nhận vị trí Giáo sư ngành Kỹ thuật Điện và Khoa học Máy tính tại MIT, Giám đốc Trung tâm Robot thuộc Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo. Mỗi năm đến cuộc thi DARPA Robotics Challenge nổi tiếng, ông còn phụ trách dẫn dắt đội tuyển MIT tham gia. Bên ngoài trường học, ông còn kiêm nhiệm Phó Chủ tịch Trung tâm Nghiên cứu Robot của Viện Nghiên cứu Toyota. Có thể nói, Russ Tedrake là một trong những học giả hàng đầu trong lĩnh vực robot, có đủ nguồn lực để giúp Pete Florence trẻ tuổi hiện thực hóa giấc mơ học thuật của mình.
Tuy nhiên, trong nhận thức bản thân của Russ Tedrake, thứ khiến ông say mê không phải là mã lập trình, mà là "vật lý". Trong một bài giới thiệu về bản thân, Russ Tedrake hồi tưởng rằng, lý do ông bước vào con đường học thuật khoa học máy tính, tất cả bắt nguồn từ khi nghiên cứu "robot đứng thẳng hai chân", ông đã nhìn thấy "các đặc tính động lực học phong phú", khiến ông nảy sinh hứng thú sâu sắc với "điều khiển động lực học chất lưu phức tạp". Do đó, so với các nhà nghiên cứu khác khi mới vào nghề, thường đầu tiên sẽ nghiên cứu cách để robot bắt táo, gấp chăn, thì ông đầu tiên nghiên cứu đề tài là cách điều khiển "máy bay sau khi mất tốc độ hoặc máy bay vỗ cánh", cách "xuyên qua chướng ngại vật dày đặc với tốc độ cao".
Bối cảnh như vậy, đã định sẵn Russ Tedrake rất coi trọng việc "hiểu thế giới vật lý". Trang web chính thức của MIT giới thiệu đặc điểm học thuật của Russ Tedrake như sau: "Trọng tâm nghiên cứu của giáo sư này là tìm kiếm các giải pháp điều khiển tinh tế cho các hệ thống động lực thú vị (thiếu lái, ngẫu nhiên và/hoặc khó mô hình hóa), và có thể xây dựng các hệ thống này để kiểm chứng thực nghiệm. Ông đặc biệt quan tâm đến mối liên hệ giữa cơ học (đặc biệt là cơ học không trơn) với lý thuyết học máy/tối ưu hóa, từ đó đạt được thiết kế điều khiển mạnh mẽ cho các hệ thống cơ khí phức tạp."
Pete Florence chịu ảnh hưởng, đương nhiên cũng trở thành "phái vật lý" trong khoa học máy tính. Ví dụ, thành tựu học thuật tiêu biểu nhất trong thời gian làm tiến sĩ, là một bài báo có tiêu đề "Self-supervised Correspondence in Visual Motor Policy Learning" (Tương quan tự giám sát trong học chính sách vận động thị giác). Bài báo này đề xuất rằng, họ đã tìm ra một phương pháp thông qua học bắt chước, có thể để robot chỉ với 50 lần trình diễn là hoàn thành các nhiệm vụ thao tác đầy thách thức, còn có thể khái quát hóa cho các đối tượng thuộc các loại khác nhau, thích ứng với cấu hình của vật thể biến dạng. Bài báo này cũng nhờ đó giành được Giải thưởng Bài báo Xuất sắc Nhất năm 2020 của IEEE (Hiệp hội Kỹ sư Điện và Điện tử Quốc tế) trong lĩnh vực Robot và Tự động hóa.
Tất nhiên, thuộc về "phái" nào không quan trọng, quan trọng là Pete Florence dưới sự ảnh hưởng của môi trường như vậy, đã có được cách tư duy khác biệt. Nhiều nhà nghiên cứu quen với việc dựa trên công nghệ hiện có, sau đó thông qua thực nghiệm để suy ra khả năng của công nghệ, cuối cùng mới xác định kịch bản ứng dụng của công nghệ. Trong khi Pete Florence tin rằng trình tự đúng nên là "đầu tiên thiết lập mục tiêu cụ thể", sau đó mới thiết kế con đường công nghệ.
Sau khi gia nhập nhóm Google DeepMind, Pete Florence chính là đi theo hướng này để triển khai công việc của mình, tác phẩm tiêu biểu đầu tiên là kiến trúc mô hình robot thế hệ đầu tiên Transporter Network do Google ra mắt năm 2021. Trong bài báo công bố mô hình, Pete Florence nói rằng sắp xếp đồ vật vốn dĩ phải là một kỹ năng rất cơ bản, nhưng đối với robot, hoàn thành động tác này có nghĩa là "suy luận nhận thức cấp cao và cấp thấp", cần phải xem xét xem sách nên đặt ở đâu, và xếp chồng theo thứ tự nào, đồng thời còn phải đảm bảo các mép sách thẳng hàng với nhau, tạo thành chồng sách gọn gàng.
Transporter Network chính là kiến trúc mô hình được ra mắt nhằm mục đích "làm cho các động tác đơn giản trở nên dễ dàng", có thể để robot hoàn thành các thao tác khác nhau một cách phổ quát dựa trên thị giác, tốc độ huấn luyện nhanh, sự phụ thuộc vào môi trường huấn luyện cũng thấp hơn.
Việc cùng nhóm DeepMind ra mắt kiến trúc VLA vào năm 2023, cũng chính là "xuôi dòng nước đẩy thuyền" dựa trên tư duy này. Trong bài báo mở ra thời kỳ thịnh vượng của Mô hình Thế giới ngày nay, các tác giả cho biết họ hy vọng kiến trúc VLA có thể "nâng cao đáng kể khả năng khái quát hóa cho các đối tượng mới, có thể giải thích các chỉ dẫn chưa xuất hiện trong dữ liệu huấn luyện robot (ví dụ như đặt vật thể lên một con số hoặc biểu tượng cụ thể), và có thể thực hiện suy luận cơ bản dựa trên chỉ dẫn của người dùng (ví dụ như nhặt vật thể nhỏ nhất hoặc lớn nhất, hoặc nhặt vật thể gần nhất với vật thể khác)".
Quay lại câu hỏi ban đầu, với tư cách là một trong những người đặt nền móng chính cho Mô hình Thế giới, tại sao Pete Florence lại phản đối việc bị dán nhãn "Mô hình Thế giới" đến vậy? Câu trả lời cũng như vậy: Pete Florence cho rằng "mục tiêu" quan trọng hơn "nhãn mác".
Theo quan điểm của anh, nhiệt tình hiện nay về Mô hình Thế giới, thực chất là kiểu "dẫn dắt bởi lý niệm", ví dụ như khá nhiều nhiệt tình có thể quy về sự phấn khích của thị trường vốn khi phát hiện ra sự không đồng thuận trong một hướng đi nóng. Và nếu thực sự muốn thúc đẩy robot bước vào công việc và cuộc sống của chúng ta, tạo ra năng suất lao động, thì việc xây dựng "Mô hình Thế giới" rõ ràng không phải là một mục tiêu. Mục tiêu thực sự thực chất nên là robot có thể hoàn thành các loại nhiệm vụ chưa từng thấy với tỷ lệ thành công và tốc độ cực cao, và hoàn toàn không cần bất kỳ dữ liệu cụ thể cho nhiệm vụ nào.
Và đây cũng chính là lý do Pete Florence quyết định rời Google DeepMind để khởi nghiệp độc lập. Tại hội nghị GTC của NVIDIA năm 2025, Pete Florence lần đầu tiên xuất hiện trước mắt mọi người với tư cách là Đồng sáng lập kiêm Giám đốc điều hành của Generalist AI. Anh nói: "Chúng tôi quyết tâm tạo ra những robot có thể làm bất cứ việc gì... Hãy thử tưởng tượng, nếu chi phí biên của lao động chân tay giảm xuống bằng 0, thì đó sẽ là một cảnh tượng như thế nào."
Tỷ lệ thành công 99%
Ngoài việc "ly kinh bạn đạo" về mặt lý niệm công nghệ, con đường khởi nghiệp của Pete Florence cũng tỏ ra không chính thống.
Về lý thuyết, một nhà khởi nghiệp có lý lịch như vậy, trong hoàn cảnh hiện nay chắc chắn sẽ nhận được sự săn đón nồng nhiệt của các VC. Yann LeCun, Ilya Sutskever, Mira Murati đều là ví dụ, công ty vừa đăng ký thành lập (thậm chí chưa đăng ký) đã hoàn thành vòng hạt giống hơn 10 tỷ USD. Nhưng Generalist AI của Pete Florence trong giai đoạn khởi đầu chỉ nhận đầu tư từ một số ít tổ chức như NVIDIA, văn phòng gia đình Bezos, NFDG. Nếu không phải bộ phận đầu tư mạo hiểm NVentures của NVIDIA tổ chức một buổi "tọa đàm các công ty trong danh mục đầu tư" tại hội nghị GTC năm 2025, mọi người đều không biết người này đã nghỉ việc khởi nghiệp.
Tại sao lại như vậy? Câu trả lời khả dĩ nhất, chính là sự lựa chọn chủ động của Pete Florence. Như đã đề cập ở trên, Pete Florence sau khi tốt nghiệp đã vào nhóm Google DeepMind, từ năm 2019 làm đến năm 2025, giữa chừng không có lý lịch làm việc nào khác. Tức là, Generalist AI là lần khởi nghiệp đầu tiên trong đời anh, hoàn toàn cần thiết phải thận trọng hơn nữa.
Trên thực tế, tại hội nghị GTC của NVIDIA năm 2025, lần đầu tiên xuất hiện công khai với tư cách nhà khởi nghiệp, Pete Florence đã thể hiện rất trực quan sự "thận trọng" của mình. Ngoài việc nói với mọi người rằng mình đang chế tạo "robot", anh không tiết lộ bất kỳ hướng đi kinh doanh cụ thể nào, trực tiếp nói rằng "chúng tôi hiện vẫn đang trong trạng thái bí mật".
Mãi đến tháng 11 năm 2025, mọi người mới lần đầu nhìn thấy hoạt động kinh doanh cụ thể của Generalist AI. Tháng 11 năm 2025, Generalist AI ra mắt mô hình trí tuệ thể hiện thế hệ đầu tiên của họ là GEN-0. Trong phần giới thiệu chính thức, Generalist AI cho biết GEN-0 kết hợp ưu thế của mô hình thị giác và mô hình ngôn ngữ, đồng thời hoàn thành bước đột phá vượt bậc - Gen-0 có thể nắm bắt khả năng phản xạ và kiến thức vật lý ở cấp độ con người.
Nói một cách đơn giản, nó có thể tiếp tục nâng cao khả năng khi quy mô mô hình và dữ liệu huấn luyện tăng lên, vượt qua điểm tắc nghẽn của các mô hình nhỏ trước đây; nó có thể vừa suy nghĩ vừa hành động như con người, phản ứng nhanh chóng và tự nhiên trong môi trường vật lý thực tế; nó tương thích tự nhiên với các loại robot khác nhau, không cần cải tạo thêm; quan trọng hơn, nó dựa trên lượng lớn dữ liệu thao tác thực tế, không còn bị hạn chế bởi sự thiếu hụt dữ liệu, và thông qua việc điều chỉnh linh hoạt cấu thành dữ liệu huấn luyện. Nhiều phương tiện truyền thông công nghệ chỉ ra rằng, GEN-0 chứng minh rằng "quy luật mở rộng" toán học thúc đẩy các mô hình ngôn ngữ lớn như ChatGPT cũng áp dụng được cho vận động vật lý.
Tuy nhiên, GEN-0 không phải là hoàn hảo. Ví dụ, GEN-0 cũng không giải quyết được vấn đề tập dữ liệu làm phiền lĩnh vực trí tuệ thể hiện. Do đó, đến tháng 4 năm 2026, Generalist AI nhanh chóng lặp phiên bản lên GEN-1 hoàn toàn mới.
(“Bàn tay cơ khí”, Nguồn: Mạng xã hội Generalist AI)
Để giải quyết vấn đề tập dữ liệu, Generalist AI đã phát triển một thiết bị đeo được, dùng để thu thập các chuyển động nhỏ và thông tin thị giác khi con người thực hiện các nhiệm vụ thủ công. Generalist AI cho biết trong quá trình phát triển GEN-1, họ đã thu thập hơn 500.000 giờ "dữ liệu tương tác vật lý cấp PB" thông qua đôi bàn tay cơ khí này, để huấn luyện mô hình vật lý của họ. Sau khi được huấn luyện đầy đủ, Generalist AI cho biết GEN-1 đạt tỷ lệ thành công cao tới 99% trong các nhiệm vụ cơ khí lặp đi lặp lại nhưng tinh tế như gấp hộp carton, đóng gói điện thoại và bảo trì robot hút bụi, tốc độ khoảng gấp ba lần so với mẫu GEN-0 thế hệ trước, và chỉ mất khoảng một giờ đồng hồ để đạt được mục tiêu này.
Từ đó, Generalist AI tự hào tuyên bố, mô hình vật lý của GEN-1 đã tiệm cận điểm uốn tương tự như GPT-3, hiệu suất của một số nhiệm vụ bắt đầu "đạt đến mức độ cần thiết để triển khai trong môi trường thương mại thực tế", và "chúng ta có thể kỳ vọng mỗi thế hệ mô hình mới sẽ mang đến một loạt nhiệm vụ mới ngày càng phức tạp, những nhiệm vụ này đều có thể được nắm vững".
Trong blog chính thức, Pete Florence chỉ ra rằng, quá trình phát triển GEN-1 là sự diễn giải tốt nhất cho lý niệm công nghệ cá nhân của anh: Đầu tiên, anh đặt ra một mục tiêu hợp lý, đó là robot có thể hoàn thành các loại nhiệm vụ chưa từng thấy với tỷ lệ thành công và tốc độ cực cao, và hoàn toàn không cần dữ liệu cụ thể cho nhiệm vụ nào. Sau đó, dựa trên mục tiêu này, anh đặt ra một con đường giải quyết, cho phép sử dụng một lượng nhỏ dữ liệu robot cho nhiệm vụ cụ thể (gọi là X), và đạt được mức độ thực thi cao cho nhiệm vụ đó, sau đó liên tục giảm X, đồng thời nâng cao hiệu suất.
Nói đến đây, câu hỏi chúng ta đặt ra trước đó cũng đã được trả lời. Sản phẩm do Generalist AI phát triển rốt cuộc có gọi là "Mô hình Thế giới" hay không đã không quan trọng nữa, chỉ cần bạn nhìn thấy ngành trí tuệ thể hiện, lạc quan về việc robot có thể quy mô lớn bước vào sản xuất thực tế, thì Generalist AI thực sự là lựa chọn đáng để đặt cược. Và vòng gọi vốn này của Generalist AI thực sự đã được thỏa thuận nhanh chóng trong vòng hai tháng sau khi GEN-1 ra mắt.
Theo báo cáo, các cổ đông cũ như NVIDIA, Bezos Expeditions, NDFG đều chọn đầu tư lại, và là đầu tư tăng gấp bội. Ngoài ra, các nhà đầu tư mới bao gồm đồng sáng lập Xiaomi Lâm Bân, nhà sáng lập Zoom Viên Trưng, nhà khoa học người Hoa Lý Phi Phi, cũng bao gồm các nhà đầu tư tổ chức như Radical Ventures, 8VC, Union Square Ventures, Hanabi Capital, Norwest.
Nói cách khác, Pete Florence của tháng 6 năm 2026 không cần phải chứng minh bản thân nữa. Ít nhất là những lời khoác lác anh từng nói những năm đó - ví dụ như Pete Florence mới khởi nghiệp năm 2025 từng nói trong một podcast: "Robot đa năng không phải là cái gì cũng nếm thử một chút, mà phải chuyên nghiệp đến mức đủ hữu ích trong các nhiệm vụ thực tế" - đang đi trên con đường "lần lượt hiện thực hóa".
Bài viết này đến từ tài khoản công chúng WeChat "Touzhongwang", tác giả: Bồ Phàm







