5 triệu năm, đó là tuổi đời của ngôn ngữ loài người trong lịch sử tiến hóa.540 triệu năm, đó là thời điểm khởi đầu của Sự bùng nổ Sự sống Kỷ Cambri được thúc đẩy bởi nhận thức thị giác và không gian.
Trong giai đoạn 2025 và 2026 khi hầu hết các phòng thí nghiệm hàng đầu tại Thung lũng Silicon đều đang chạy đua mô hình ngôn ngữ, Giáo sư Đại học Stanford, người sáng lập World Labs Fei-Fei Li liên tục đặt ra một câu hỏi khiến ngành công nghiệp không thể không ngước nhìn: Nếu AI chỉ biết nói chuyện và xem ảnh, nó sẽ không bao giờ thực sự “hiểu” thế giới này.
Trong ba cuộc phỏng vấn quan trọng, bao gồm Podcast a16z tháng 6/2025, Hội nghị Thượng đỉnh AI của Cisco (Cisco AI Summit) tháng 2/2026, và cuộc đối thoại sâu kéo dài 1 giờ 19 phút trên Lenny's Podcast được công bố ngày 22/5/2026, cô đã hệ thống hóa một đánh giá đang được xác nhận ngày càng nhanh: Trí tuệ Không gian (Spatial Intelligence) mới là biên giới tiếp theo của AI.
Các phát biểu như "tạo ra vũ trụ vô tận", "sống trong đa vũ trụ" trong cuộc đối thoại a16z, cũng như các quan điểm như "mô hình thế giới mới là biên giới tiếp theo", "AGI giống thuật ngữ tiếp thị hơn" trên Lenny's Podcast gần đây lại một lần nữa được chia sẻ rộng rãi trên nền tảng X.
“Chúng ta thiếu một mô hình thế giới”
Theo lời kể của đối tác a16z Martin Casado, tại một bữa tiệc trưa ở Thung lũng Silicon, những người làm AI ngồi đầy bàn đang hào hứng bàn luận về các mô hình ngôn ngữ lớn. Fei-Fei Li ngồi ở đầu bàn bên kia, bất ngờ quay sang hỏi ông:
“Anh biết chúng ta thiếu gì không? Chúng ta thiếu một mô hình thế giới.”
Casado là nhà đầu tư sớm của World Labs, cũng là bạn lâu năm của Fei-Fei Li từ thời Stanford. Ông nhớ lại khoảnh khắc đó: “Mọi thứ đều khớp”. Lúc đó, ông vừa tự mình đi đến kết luận tương tự từ nhiều khoản đầu tư trong lĩnh vực hình ảnh: Ngôn ngữ không phải là điểm kết của câu chuyện.
Nhưng suy nghĩ của Fei-Fei Li về vấn đề này đã lâu đời hơn hầu hết mọi người.
Tháng 4/2024, cô có bài phát biểu 15 phút tại hội nghị TED, dùng thuyết tiến hóa để mở đề: Sự xuất hiện của bọ ba thùy cách đây 540 triệu năm lần đầu tiên khiến sự sống “nhìn thấy” thế giới. Sự ra đời của thị giác đã kích nổ cuộc chạy đua tiến hóa trí tuệ, hệ thần kinh bắt đầu phát triển, động vật trở nên năng động, trí tuệ từ đó nảy mầm. Còn ngôn ngữ, chỉ là sản phẩm rất muộn trong cuộc chạy đua dài đằng đẵng này.
Phán đoán này được củng cố liên tục trong ba cuộc phỏng vấn. Tại Hội nghị Thượng đỉnh AI của Cisco, cách diễn đạt của cô càng trực tiếp hơn:
“Lịch sử của ngôn ngữ chỉ khoảng 500.000 năm. Nhưng từ 1,5 tỷ năm trước, động vật đã bắt đầu cảm nhận ánh sáng và chạm vào môi trường. Khả năng hiểu, suy luận, tương tác và điều hướng trong thế giới vật lý 3D, 4D thực tế là nền tảng, quan trọng không kém trí thông minh ngôn ngữ.”
Fei-Fei Li không phủ nhận giá trị của trí tuệ ngôn ngữ. Luận điểm cốt lõi của cô là: Về bản chất, ngôn ngữ là một cách thức mã hóa thế giới “có tổn thất thông tin”.
Trong cuộc phỏng vấn a16z, Casado đưa ra một thử nghiệm tư duy: Bịt mắt bạn lại, dùng ngôn ngữ để mô tả một căn phòng, sau đó yêu cầu bạn hoàn thành một nhiệm vụ, xác suất thành công của bạn cực kỳ thấp. Bởi vì mô tả của ngôn ngữ về thực tại luôn thô sơ. Bỏ miếng bịt mắt ra, bộ não của bạn ngay lập tức tái tạo không gian 3D, bạn có thể thao tác, chạm vào, di chuyển.
Fei-Fei Li bổ sung một ví dụ cực đoan hơn, đó là một lần suy luận không gian nổi tiếng nhất trong lịch sử khoa học: Bức ảnh nhiễu xạ tia X DNA do Rosalind Franklin chụp là một hình ảnh phẳng hai chiều, cấu trúc trên đó trông giống một chữ thập với nhiễu xạ. Nhưng Watson và Crick thông qua bức ảnh hai chiều đó đã suy luận ra cấu trúc xoắn kép của DNA trong không gian ba chiều. “Cấu trúc đó không thể là hai chiều. Bạn không thể dùng tư duy hai chiều để suy ra cấu trúc đó.”
“Nếu bạn quan sát trí thông minh của con người, rất nhiều thứ vượt ra ngoài phạm trù ngôn ngữ. Ngôn ngữ là một cách nắm bắt thế giới có tổn thất thông tin. Thứ ‘ngôn ngữ’ thuần túy tạo sinh không tồn tại trong tự nhiên; chúng ta nhìn xung quanh, không có câu hay từ ngữ có sẵn, trong khi toàn bộ thế giới vật lý, cảm nhận, thị giác lại tồn tại thực sự.”
Đây là một góc nhìn dễ bị bỏ qua: Phần lớn năng lực của các mô hình lớn hiện nay được xây dựng trên một định dạng nén thông tin vốn dĩ có tổn thất. Trong Lenny's Podcast, cô dùng một bài kiểm tra thường ngày hơn để xuyên thủng ảo tưởng này:
“Hôm nay, bạn lấy một mô hình, cho nó chạy một đoạn video chứa vài phòng văn phòng, sau đó yêu cầu mô hình đếm số lượng ghế. Đây là việc trẻ nhỏ có thể làm được, mà trí tuệ nhân tạo lại không làm được.”
Chưa kể đến việc từ chuyển động thiên thể suy ra định luật vật lý: “Hãy đưa tất cả dữ liệu cho trí tuệ nhân tạo, bao gồm cả dữ liệu dụng cụ hiện đại mà Newton không có, để nó tạo ra một hệ phương trình về quy luật chuyển động vật thể ở thế kỷ 17. Trí tuệ nhân tạo ngày nay không làm được.”
Marble: Nhỏ hơn vài bậc độ lớn so với GPT-5
Đưa phán đoán này thành sản phẩm là mô hình thế hệ đầu tiên của World Labs, Marble, ra mắt cuối năm 2024.
Fei-Fei Li tại Hội nghị Thượng đỉnh AI của Cisco đã phân tích chi tiết vị trí kỹ thuật của Marble: Tiếp nhận đầu vào văn bản, hình ảnh, video hoặc 3D đơn giản, tạo ra một “thế giới 3D hoàn toàn có thể điều hướng, tương tác và có tính nhất quán vĩnh viễn”. Cô đặc biệt nhấn mạnh, điều này khác biệt cơ bản với các mô hình tạo video như Sora, môi trường do Marble tạo ra có cấu trúc hình học, không phải là một đoạn hoạt hình pixel “trông giống như” video.
Trong Lenny's Podcast, cô dùng ngụ ngôn hang động của Plato để diễn giải sâu hơn: Những tù nhân bị trói trên ghế, chỉ có thể nhìn thấy bóng hai chiều chiếu lên tường, nhưng vở kịch thực sự diễn ra trong không gian ba chiều đằng sau. Mô hình video chính là những cái bóng đó, còn trí tuệ không gian muốn làm là tạo ra và suy luận thế giới thực đằng sau những cái bóng đó.
Một so sánh: Lượng tính toán huấn luyện GPT-5 vào khoảng 10^26 FLOPS, trong khi Marble về quy mô nhỏ hơn vài bậc độ lớn. Nguyên nhân có hai lớp: Độ khó thu thập dữ liệu hoàn toàn khác nhau (dữ liệu vật lý 3D chất lượng cao cực kỳ khan hiếm), và lĩnh vực này vẫn đang ở giai đoạn đầu của “đường cong đi lên của Scaling Law”.
Trong Lenny's Podcast, cô giải thích thêm vì sao việc học của robot không thể đơn giản sao chép “bài học cay đắng” của mô hình ngôn ngữ. Trong lĩnh vực AI có một luận điểm nổi tiếng: Mô hình đơn giản với lượng dữ liệu khổng lồ cuối cùng luôn vượt qua mô hình phức tạp. Nhưng “mô hình ngôn ngữ có một thiết lập hoàn hảo: Dữ liệu huấn luyện là từ, đầu ra cũng là chữ.” Còn trong công nghệ robot, “bạn muốn có hành động, dữ liệu huấn luyện lại thiếu hành động trong thế giới 3D.” Sự lệch pha cơ bản giữa mục tiêu huấn luyện và hình thái dữ liệu này mới là vấn đề nan giải cốt lõi của việc học robot.
World Labs áp dụng chiến lược dữ liệu hỗn hợp: Văn bản, hình ảnh và video quy mô internet, cộng với dữ liệu mô phỏng, cộng với dữ liệu thu thập từ thế giới thực. Fei-Fei Li thừa nhận thẳng thắn, “chúng tôi vẫn đang ở giai đoạn tương đối sớm trong việc khám phá kiến trúc mô hình”, nhưng cô dự đoán “vài năm tới sẽ rất thú vị”.
Vừa dứt lời, World Labs đã hoàn thành vòng gọi vốn 10 tỷ USD vào tháng 2/2026, với sự tham gia của NVIDIA, AMD, a16z, định giá từ 10 tỷ USD một năm trước tăng vọt lên khoảng 50 tỷ USD. Tháng 4, nhóm đã mã nguồn mở công cụ kết xuất Gaussian Splatting 3D Spark 2.0, có thể thực hiện kết xuất thời gian thực cảnh 3D trăm triệu điểm trên nền web, chuyển từ sản phẩm độc quyền sang chiến lược song đôi “sản phẩm + hệ sinh thái mã nguồn mở”, rào cản kỹ thuật của trí tuệ không gian đang bị hạ thấp nhanh chóng.
Trong Lenny's Podcast, Fei-Fei Li cũng hiếm hoi bộc lộ sự gian khó của khởi nghiệp: “Nếu tôi có thể thì thầm một câu với chính mình 18 tháng trước: ‘Cường độ cạnh tranh trong lĩnh vực này, cả về kỹ thuật lẫn nhân tài, vượt xa tưởng tượng của bạn.’”
Vũ trụ vô tận và đa vũ trụ
Điều thực sự khiến cuộc phỏng vấn a16z đó liên tục nổi bật trên X là cách diễn đạt của Fei-Fei Li về “vũ trụ vô tận”:
“Trong toàn bộ lịch sử văn minh nhân loại, tất cả chúng ta đều cùng chung sống trong một thế giới 3D. Chỉ một số ít người đã lên mặt trăng, nhưng số lượng rất ít. Và công nghệ này khiến thế giới ảo kỹ thuật số trở nên vô cùng tuyệt vời. Đột nhiên, chúng ta thực sự có thể tạo ra vũ trụ vô tận, một số được tạo cho robot, một số cho sáng tạo, một số cho xã hội, một số cho du lịch, một số cho kể chuyện. Đột nhiên, chúng ta có thể sống trong một đa vũ trụ, không gian tưởng tượng là vô hạn.”
Casado từ góc độ kỹ thuật diễn giải cụ thể hơn: Thông qua một bức ảnh hai chiều, mô hình có thể tạo ra biểu diễn 3D hoàn chỉnh 360 độ, bao gồm cả mặt sau của chiếc bàn. Bạn có thể thao tác, đo đạc, xếp chồng, bất cứ điều gì có thể làm trong không gian đều có thể thực hiện.
Đây không phải là khoa học viễn tưởng. Trong hai cuộc phỏng vấn, Fei-Fei Li liệt kê các ứng dụng Marble đã triển khai:
• Nhà phát triển trò chơi dùng phiên bản sớm để phát triển game
• Nhóm sản xuất ảo hợp tác với Sony rút ngắn chu kỳ làm phim 40 lần
• Phòng thí nghiệm học thuật NVIDIA và nhiều nơi khác dùng Marble để huấn luyện robot
• Kiến trúc sư và nhà thiết kế dùng nó để thiết kế nội thất
• Nhà nghiên cứu lâm sàng tạo môi trường kích hoạt cá nhân hóa cho bệnh nhân rối loạn ám ảnh cưỡng chế, sợ độ cao
• Có người dùng nó tạo không gian tập yoga cá nhân hóa
Ứng dụng cuối cùng đặc biệt bất ngờ. Fei-Fei Li trong hội nghị thượng đỉnh có đề cập, bệnh nhân OCD bị kích hoạt bởi những cảnh cụ thể, “ví dụ cá nhân tôi bị làm phiền bởi quần áo bẩn chất đống, nhưng điểm kích hoạt của mỗi người khác nhau”. Trong Lenny's Podcast cô bổ sung, sau khi phát hành một người bạn đã gọi điện hỏi cô cả đêm xem liệu có thể dùng Marble trị chứng sợ độ cao không. Chi phí dựng môi trường thực thể cực cao, trong khi Marble chỉ cần nhập từ khóa gợi ý, vài phút có thể tạo ra các môi trường khác nhau.
Ngụ ngôn hang động của Plato, vừa vặn cũng là lối vào tốt nhất để hiểu sự phân kỳ giữa 2D và 3D.
Fei-Fei Li dùng ngụ ngôn này giải thích: Những tù nhân bị trói trên ghế chỉ có thể nhìn thấy bóng hai chiều chiếu lên tường. Các mô hình ngôn ngữ và video hiện nay, về bản chất đều là những cái bóng đó, từ hai chiều đoán ba chiều. Tham vọng của trí tuệ không gian là tạo ra, suy luận và tương tác với thế giới thực đằng sau cái bóng đó.
Trên tuyến đường công nghệ, cô dùng một so sánh ngắn gọn để vạch rõ ranh giới:
“Ô tô có thể được xem như một robot hình khối di chuyển trên mặt phẳng hai chiều, mục tiêu của nó là không chạm vào bất cứ thứ gì. Còn robot là một thực thể ba chiều, hoạt động trong thế giới ba chiều, mục tiêu của robot thông dụng là phải tiếp xúc với vật thể mà không phá hủy chúng. Đây là vấn đề chiều kích cao hơn.”
Cô còn đưa ra một thang thời gian từ trải nghiệm cá nhân: Năm 2006, cô tham gia tạo ra chiếc ô tô tự lái đầu tiên chạy được 138 dặm trên sa mạc, lúc đó dự đoán 20 năm sau sẽ có ô tô tự lái. Mãi đến năm 2025, Waymo mới bắt đầu vận hành quy mô lớn trên đường phố thành phố.
“Nhìn thấy sao Bắc Cực không có nghĩa hành trình sẽ ngắn.”
Casado trong cuộc đối thoại a16z bổ sung quan sát mang tính trực giác thương mại hơn: Chỉ riêng một đường đua lái xe tự động, ngành công nghiệp đã đầu tư khoảng 100 tỷ USD, 20 năm mới đi đến hôm nay. “Lộ trình ban đầu của chúng tôi là giải quyết vấn đề điều hướng thế giới trước, nhưng kết quả cực kỳ khó khăn.”
Fei-Fei Li thậm chí trong cuộc phỏng vấn a16z đã chia sẻ một trải nghiệm cá nhân để củng cố luận điểm: Khoảng năm năm trước, cô bị thương giác mạc mất thị giác lập thể vài tháng. “Dù tôi rất rõ xe tôi to bao nhiêu, cũng đại khái biết xe hàng xóm đậu to bao nhiêu, và tôi đã lái xe trên con đường này nhiều năm, nhưng tôi không thể đánh giá tốt khoảng cách giữa xe tôi và chiếc xe đang đậu bên lề đường. Tôi chỉ có thể lái với tốc độ mười dặm một giờ để không cào vào xe khác.”
Một nhà khoa học nghiên cứu trí tuệ thị giác suốt đời, dùng tình thế khốn cùng của chính mình sau khi mất nhận thức chiều sâu, trả lời câu hỏi “tại sao 3D không thể thay thế”.
Lưỡi kiếm công nghệ và thước đo văn minh
Giữa chủ nghĩa lạc quan công nghệ và thuyết tận thế, Fei-Fei Li chọn một lập trường dè dặt hơn và có tính vận hành hơn. Cô đã bày tỏ rõ ràng sự lo ngại trước các luận điệu cực đoan tại Hội nghị Thượng đỉnh AI của Cisco:
“Các thảo luận trên mạng thường là đen trắng: Hoặc là chủ nghĩa không tưởng công nghệ hoàn toàn, bỏ qua việc công nghệ là lưỡi kiếm hai lưỡi; hoặc là luận điệu tận thế, như thể nhân loại lúc nào cũng đối mặt với khủng hoảng sinh tồn. Đối với một công nghệ có tác động sâu sắc đến văn minh nhân loại như vậy, cách thảo luận này là vô trách nhiệm.”
Cô không dừng lại ở việc phê phán, mà đưa ra một điểm neo giá trị có thể định lượng: Điện.
“Nếu quay ngược hơn một trăm năm, tưởng tượng lúc đó mọi người định nghĩa thành công của điện như thế nào. Tôi hy vọng tầm nhìn lúc đó là: Trường học rực sáng, mái ấm ấm áp, máy móc được trao sức mạnh hiện thực hóa công nghiệp hóa, từ đó kéo dài tuổi thọ con người, khiến nhiều trẻ em hơn được học hành.”
Sau đó dịch chuyển điểm neo này sang AI: “Định nghĩa thành công nên là văn minh trở nên tốt đẹp hơn, mà văn minh được tạo thành từ mỗi cá nhân theo đuổi hạnh phúc, thịnh vượng và có phẩm giá. Đó chính là định nghĩa thành công của AI và mỗi công nghệ.”
Ở cuối Lenny's Podcast, cô đặt sự quan tâm này vào những con người cụ thể. Cô nói mỗi nơi cô đến đều bị hỏi cùng một câu hỏi: Nếu tôi là nông dân, y tá, nhạc sĩ, AI có thay thế tôi không? Câu trả lời của cô là: “Xét cho cùng, AI là về con người. Bất kỳ công nghệ nào cũng không nên tước đoạt phẩm giá con người. Phẩm giá và tính tự chủ của con người nên trở thành cốt lõi trong phát triển, triển khai cũng như quản trị mỗi công nghệ.”
Nhìn lại ba cuộc phỏng vấn, một mạch suy nghĩ rõ ràng nổi lên.
Suy nghĩ của Fei-Fei Li về trí tuệ không gian không phải là sự phản kháng lại làn sóng mô hình lớn, mà là sự mở rộng trên cơ sở đó. Cô nhìn thấy giới hạn của mô hình ngôn ngữ sớm hơn hầu hết mọi người, một định dạng nén thông tin có tổn thất cuối cùng có thể làm được có hạn. Và vấn đề trí tuệ không gian cần giải quyết là: Để AI tiến hóa từ “nói về thế giới” đến “hiểu thế giới”, cuối cùng là “hành động trong thế giới”.
Đội ngũ World Labs khoảng 30 người, đã gọi vốn hơn 10 tỷ USD. Marble là sản phẩm thế hệ đầu, quy mô còn xa các mô hình ngôn ngữ đỉnh cao. Sự khan hiếm dữ liệu 3D và trạng thái sớm của kiến trúc mô hình quyết định đây sẽ không phải là một tuyến đường một bước đến đích. Nhưng Fei-Fei Li trong Lenny's Podcast đã nói một câu khác, có lẽ là lời chú giải tốt nhất cho sự kiên nhẫn này:
“Bộ não chúng ta chỉ tiêu thụ khoảng 20 watt, còn tối hơn bất kỳ bóng đèn nào trong phòng, lại có thể làm được nhiều việc như vậy. Tôi làm việc trong lĩnh vực AI càng lâu, càng tôn trọng con người.”
540 triệu năm tiến hóa, mới khiến sự sống carbon có được trí tuệ không gian 20 watt này. Sự tiến hóa của AI này, đang được nén lại hoàn thành trong vài năm.
Fei-Fei Li trong ba cuộc phỏng vấn đều không đưa ra biểu thời gian. Cô chỉ liên tục trở lại phán đoán rút ra từ thuyết tiến hóa: Cảm nhận có trước ngôn ngữ, không gian có trước ký hiệu. Cuộc đang diễn ra tại phòng thí nghiệm Thung lũng Silicon, Stanford và văn phòng World Labs không phải là một lần lặp lại công nghệ, mà là một lần diễn lại được tăng tốc của thuyết tiến hóa.(Bài viết này được đăng tải lần đầu trên Titan Media APP, tác giả | Silicon Valley tech news, biên tập | Zhao Hongyu)
Phụ lục: Địa chỉ lưu trữ bản ghi chép văn bản ba cuộc phỏng vấn trên [ima cơ sở kiến thức] Cuộc phỏng vấn Fei-Fei Li https://ima.qq.com/wiki/?shareId=3f1d4b4c0d6cb2aeca250e2c5d068390e2d45895816ad607309820e25cb2e9c5









