Khám phá AGI thế giới vật lý với 'Suy luận thị giác', ElorianAI huy động được 55 triệu USD

marsbitXuất bản vào 2026-04-23Cập nhật gần nhất vào 2026-04-23

Tóm tắt

Mặc dù AI mô hình lớn đã vượt trội trong lập trình và toán học, khả năng lập luận thị giác của chúng vẫn chỉ ở mức trẻ 3 tuổi. ElorianAI, do Andrew Dai (cựu Google DeepMind) và Yinfei Yang (chuyên gia AI của Apple) sáng lập, đã huy động 55 triệu USD để phát triển mô hình đa phương thức "suy nghĩ nguyên sinh trong không gian thị giác", nhằm đạt được AGI cho thế giới vật lý. Thay vì chuyển đổi hình ảnh thành văn bản như VLM truyền thống, họ xây dựng kiến trúc mới để AI trực tiếp thao tác và hiểu sâu biểu diễn thị giác, kết hợp dữ liệu tổng hợp chất lượng cao. Mô hình dự kiến ra mắt năm 2026, hứa hẹn ứng dụng trong robot, quản lý thiên tai và kỹ thuật, nơi cần ra quyết định phức tạp trong môi trường vật lý.

Văn | Công xã Alpha

Khả năng của mô hình AI lớn trong một số lĩnh vực đã vượt quá người bình thường, chẳng hạn như lập trình và toán học. Theo tin tức, Anthropic nội bộ gần như đã đạt được 100% lập trình AI, Gemini Deep Think của Google đã giải được 5 trong 6 bài toán tại IMO 2025, đạt trình độ huy chương vàng.

Nhưng về suy luận thị giác, ngay cả Gemini 3 Pro dẫn đầu về trình độ, cũng chỉ đạt mức độ của trẻ 3 tuổi trên Benchmark BabyVision - một bài kiểm tra khả năng suy luận thị giác cơ bản.

Tại sao mô hình lớn mạnh về lập trình và toán học, nhưng lại yếu về suy luận thị giác? Điều này là do "cách suy nghĩ" của nó có hạn chế. Mô hình ngôn ngữ hình ảnh (VLM) cần chuyển đổi đầu vào thị giác thành ngôn ngữ trước, sau đó mới thực hiện suy luận dựa trên văn bản. Tuy nhiên, nhiều nhiệm vụ thị giác hoàn toàn không thể mô tả chính xác bằng văn bản, điều này dẫn đến khả năng suy luận thị giác của mô hình kém.

Andrew Dai, người đã làm việc tại Google DeepMind 14 năm, cùng với chuyên gia AI kỳ cựu của Apple là Yinfei Yang, đã thành lập một công ty tên là Elorian AI. Mục tiêu của họ là nâng cao khả năng suy luận thị giác của mô hình từ "trình độ trẻ em" lên "trình độ người lớn", và cho mô hình có khả năng suy nghĩ nguyên sinh thực sự trong "không gian thị giác", từ đó hướng tới AGI của thế giới vật lý.

Elorian AI đã huy động được 55 triệu USD vốn đầu tư giai đoạn đầu do Striker Venture Partners, Menlo Ventures và Altimeter cùng dẫn đầu, với sự tham gia của 49 Palms và các nhà khoa học AI hàng đầu bao gồm Jeff Dean.

Người tiên phong về mô hình đa phương thức, muốn mô hình thị giác có khả năng suy luận

Là người gốc Hoa, Andrew Dai, cử nhân khoa học máy tính Cambridge, tiến sĩ học máy Edinburgh, đã thực tập tại Google trong thời gian học tiến sĩ và gia nhập Google vào năm 2012, ở lại 14 năm cho đến khi khởi nghiệp.


Nguồn ảnh:Linkedin của Andrew Dai

Không lâu sau khi gia nhập Google, ông cùng với Quoc V. Le đã đồng viết bài báo đầu tiên về huấn luyện trước mô hình ngôn ngữ và vi chỉnh có giám sát 《Semi-supervised Sequence Learning》. Bài báo này đặt nền móng cho sự ra đời của GPT. Một bài báo nền tảng khác của ông là 《Glam: Efficient scaling of language models with mixture-of-experts》, mở đường cho kiến trúc MoE phổ biến hiện nay.

Nguồn ảnh: Google

Trong thời gian ở Google, ông cũng tham gia sâu vào hầu hết các quá trình huấn luyện mô hình lớn, từ Palm đến Gemini1.5 và Gemini2.5. Dưới sự sắp xếp của Jeff Dean, ông bắt đầu phụ trách lãnh đạo mảng dữ liệu của Gemini (bao gồm dữ liệu tổng hợp) vào năm 2023, quy mô đội ngũ sau đó đã mở rộng lên đến hàng trăm người.

Nguồn ảnh:Linkedin của Yinfei Yang

Cùng khởi nghiệp với Andrew Dai là Yinfei Yang, người đã từng làm việc tại Google Research bốn năm, tập trung vào học biểu diễn đa phương thức, sau đó gia nhập Apple, phụ trách nghiên cứu và phát triển mô hình đa phương thức.

Nguồn ảnh:arxiv

Nghiên cứu tiêu biểu của ông 《Scaling up visual and vision-language representation learning with noisy text supervision》 đã thúc đẩy sự phát triển của học biểu diễn đa phương thức.

Đồng sáng lập Elorian AI còn có Seth Neel, từng là AP (Trợ lý Giáo sư) tại Đại học Harvard, cũng là chuyên gia về dữ liệu và AI.

Tại sao phải thảo luận về những bài báo mang tính khai phá mà các nhà đồng sáng lập Elorian AI đã viết? Bởi vì việc họ làm không phải là tối ưu hóa ở tầng kỹ thuật, mà là cập nhật mô hình từ kiến trúc cơ sở, để nâng cấp AI từ hiểu thông minh dựa trên văn bản lên hiểu thông minh dựa trên thị giác.

Tình trạng hiện tại của mô hình AI là, mặc dù thể hiện xuất sắc trong các nhiệm vụ dựa trên văn bản, nhưng ngay cả mô hình đa phương thức lớn tiên tiến nhất, vẫn sẽ vấp ngã trong nhiệm vụ căn chỉnh thị giác (Visual grounding) cơ bản nhất.

Ví dụ, làm thế nào để lắp một linh kiện nào đó khít vào một thiết bị cơ khí, làm cho nó hoạt động chính xác hơn, hiệu quả hơn? Loại nhiệm vụ vật lý không gian này rất đơn giản đối với học sinh tiểu học, nhưng lại rất khó đối với các mô hình đa phương thức lớn hiện có.

Điều này vẫn phải tìm manh mối từ sinh học. Trong não người, thị giác là chất nền cơ sở hỗ trợ nhiều quá trình tư duy. Khả năng sử dụng thị giác và suy luận không gian của con người lâu đời hơn nhiều so với suy luận logic ngôn ngữ.

Ví dụ, dạy người khác đi qua một mê cung, dùng ngôn ngữ mô tả sẽ làm người ta hoa mắt, nhưng vẽ một bản phác thảo lại có thể khiến người ta hiểu ngay.

Lại ví dụ, ngay cả một con chim, dù không có ngôn ngữ, nhưng có thể thông qua thị giác, nhận biết và suy luận đặc điểm địa lý, từ đó thực hiện di cư đường dài toàn cầu. Đây là một tín hiệu mạnh mẽ, cho thấy để thực sự thúc đẩy khả năng suy luận của máy móc, thị giác rất có thể là hướng đi đúng đắn.

Vậy, hãy tưởng tượng, nếu ngay từ lúc đột phá xây dựng mô hình, đã thử khắc bản năng thị giác sinh học này vào gen của AI, xây dựng một mô hình đa phương thức nguyên sinh có thể "đồng thời hiểu và xử lý văn bản, hình ảnh, video và âm thanh", thì có thể cho mô hình có khả năng hiểu thị giác. Andrew Dai và đội ngũ muốn xây dựng một "người cảm thụ đa giác quan" bẩm sinh, dạy máy móc không chỉ "nhìn thấy" thế giới, mà còn "hiểu" thế giới.

Theo Andrew Dai và đội ngũ, nhận thức sâu sắc "thế giới vật lý" thực sự là chìa khóa để đạt được bước nhảy vọt thông minh máy móc thế hệ tiếp theo, và cuối cùng chạm tới "Trí tuệ nhân tạo phổ quát thị giác (Visual AGI)".

VLM với suy luận hậu kỳ không phải là con đường đúng đắn dẫn đến suy luận thị giác

Trước đây không phải không có đội ngũ muốn làm việc này, thực tế đội ngũ Gemini trước đây của Andrew Dai, đã là đội ngũ rất tiên tiến trong lĩnh vực đa phương thức trên toàn cầu. Nhưng mô hình đa phương thức truyền thống, vẫn chủ yếu là VLM (mô hình ngôn ngữ hình ảnh), logic của nó được xây dựng trên cơ sở "hai bước": đầu tiên chuyển đổi đầu vào thị giác thành ngôn ngữ, sau đó mới thực hiện suy luận dựa trên văn bản (đôi khi hỗ trợ gọi công cụ bên ngoài).

Tuy nhiên, suy luận hậu kỳ về bản chất đều có hạn chế, một mặt dễ sinh ra ảo giác mô hình, mặt khác nhiều nhiệm vụ thị giác hoàn toàn không thể mô tả chính xác bằng văn bản.

Ngoài ra, các mô hình tạo sinh thị giác như NanoBanana, có khả năng tạo đa phương thức xuất sắc, nhưng khả năng tạo sinh và khả năng suy luận không ngang bằng nhau, "suy nghĩ" của chúng trước khi tạo sinh, về bản chất vẫn phụ thuộc vào mô hình ngôn ngữ, không phải là khả năng suy luận nguyên sinh.

Nếu muốn phát triển mô hình có thể thấu hiểu sự phức tạp về không gian, cấu trúc và quan hệ trong thế giới thị giác, tất yếu cần đổi mới mang tính đột phá trong công nghệ cơ sở.

Vậy, đổi mới như thế nào? Mấy nhà sáng lập Elorian AI ngâm mình nhiều năm trong lĩnh vực đa phương thức, cách làm của họ là: kết hợp sâu giữa huấn luyện đa phương thức và kiến trúc mới được thiết kế chuyên cho suy luận đa phương thức. Loại bỏ cách làm truyền thống xem hình ảnh là đầu vào tĩnh, chuyển sang huấn luyện mô hình tương tác trực tiếp và thao tác biểu diễn thị giác (Visual representations) để tự phân giải cấu trúc, quan hệ và ràng buộc vật lý trong đó.

Tất nhiên, yếu tố cốt lõi khác là dữ liệu, nó là chìa khóa quyết định hiệu suất và thành bại của các mô hình này.

Andrew Dai表示, họ rất coi trọng chất lượng dữ liệu, tỷ lệ pha trộn dữ liệu, nguồn gốc dữ liệu và sự đa dạng của dữ liệu, đồng thời đã đổi mới ở tầng dữ liệu, tái cấu trúc liên kết suy luận trong không gian thị giác, còn sử dụng sâu rộng dữ liệu tổng hợp trên quy mô lớn.

Những nỗ lực tổng hợp này, sẽ thúc đẩy ra đời hệ thống AI mới có thể vượt qua "nhận thức" thị giác đơn giản, tiến tới "suy luận" thị giác cao cấp.

Hệ thống AI này có thể là mô hình cơ sở suy luận thị giác: tức xây dựng một mô hình có tính phổ dụng cao, nhưng thể hiện cực kỳ xuất sắc trên tập năng lực cụ thể, năng lực cụ thể này chính là suy luận thị giác.

Vì là một mô hình cơ sở phổ dụng, lĩnh vực ứng dụng của nó nên rộng rãi.

Đầu tiên, trong đường đua robot, nó có thể trở thành trung tâm thần kinh cơ sở của hệ thống mạnh mẽ, trao cho nó khả năng tác nghiệp tự chủ trong các môi trường lạ lẫm khác nhau.

Ví dụ, trong đường đua robot, phái một robot xử lý một sự cố an toàn đột xuất trong môi trường nguy hiểm. Điều này đòi hỏi robot đưa ra quyết định nhanh chóng và chính xác trong chớp mắt. Nếu robot thiếu mô hình cơ sở có khả năng suy luận sâu, người ta sẽ không dám để nó bấm nút bừa bãi hoặc vận hành cần gạt. Nhưng nếu nó có khả năng suy luận cực mạnh, nó có thể nghĩ: "Trước khi vận hành bảng điều khiển này, có lẽ tôi nên kéo cần gạt này trước, kích hoạt cơ chế bảo vệ an toàn."

Ngoài ra trong quản lý thiên tai, mô hình có suy luận thị giác có thể thông qua phân tích hình ảnh vệ tinh để giám sát và phòng ngừa cháy rừng; trong lĩnh vực kỹ thuật, nó có thể nhìn chính xác các bản vẽ thị giác phức tạp, sơ đồ nguyên lý hệ thống, ý nghĩa của năng lực này nằm ở chỗ, quy tắc vận hành của thế giới vật lý khác biệt cơ bản với thế giới thuần mã, bạn không thể chỉ dựa vào gõ vài dòng mã thuần túy để thiết kế ra cánh máy bay.

Tuy nhiên, hiện tại mô hình, năng lực của Elorian AI tạm thời vẫn chỉ nằm trên giấy, họ dự kiến sẽ phát hành một mô hình đạt trình độ SOTA trong lĩnh vực suy luận thị giác vào năm 2026, đến lúc đó có thể kiểm tra thành quả của họ có phù hợp với tuyên bố hay không.

Khi AI thực sự có khả năng "suy luận thị giác", nó sẽ thay đổi thế giới vật lý như thế nào?

Để AI hiểu và ảnh hưởng thế giới vật lý thực, công nghệ đã lặp lại nhiều lần.

Từ nhận dạng hình ảnh thời CV truyền thống, đến mô hình tạo sinh hình ảnh/mô hình đa phương thức của AI生成, rồi đến mô hình thế giới, sự hiểu biết về thế giới vật lý luôn được tăng cường.

Mà mô hình cơ sở suy luận thị giác, rất có thể tiến thêm một bước, bởi vì có thể thực hiện suy luận thị giác, AI sẽ hiểu sâu hơn thế giới vật lý, từ đó đạt được trí thông minh máy móc tầng cao hơn.

Hãy tưởng tượng, khi mô hình có khả năng hiểu sâu và thao tác tinh tế "nạp điện" cho ngành trí thông minh thể hiện, cũng như ngành phần cứng AI, sẽ mở rộng đáng kể phạm vi ứng dụng của chúng. Ví dụ, robot có thể tiến hành sản xuất công nghiệp có độ tin cậy cao hơn, hoặc lĩnh vực chăm sóc y tế; phần cứng AI, đặc biệt là thiết bị đeo, trở thành trợ lý cá nhân thông minh hơn.

Tuy nhiên, ở cơ sở của những công nghệ này, vẫn là dữ liệu. Andrew Dai ở trên cũng表示, chất lượng dữ liệu, tỷ lệ pha trộn dữ liệu, nguồn gốc dữ liệu và sự đa dạng của dữ liệu, đều quyết định hiệu suất của mô hình.

Trong lĩnh vực AI vật lý, doanh nghiệp Trung Quốc dù ở tầng mô hình hay tầng dữ liệu, so với mô hình lớn văn bản, đều gần với trình độ dẫn đầu thế giới hơn. Nếu có thể dựa vào lợi thế dữ liệu, ứng dụng场景 phong phú hơn, đẩy nhanh tốc độ lặp, thì dù là trí thông minh thể hiện hay phần cứng AI, dù ứng dụng trong công nghiệp, y tế, hay gia đình, đều có cơ hội lớn hơn để đạt trình độ dẫn đầu, tất nhiên cũng có cơ hội chạy ra doanh nghiệp tầm cỡ thế giới.

Câu hỏi Liên quan

QTại sao các mô hình AI lớn như Gemini 3 Pro chỉ có khả năng lý luận thị giác tương đương trẻ 3 tuổi?

AVì các mô hình ngôn ngữ thị giác (VLM) hiện tại phải chuyển đổi đầu vào hình ảnh thành văn bản trước khi suy luận, nhưng nhiều nhiệm vụ thị giác không thể mô tả chính xác bằng ngôn ngữ, dẫn đến hạn chế trong khả năng lý luận.

QElorian AI được thành lập bởi những ai và mục tiêu của họ là gì?

AĐược đồng sáng lập bởi Andrew Dai (cựu Google DeepMind) và Yinfei Yang (chuyên gia AI của Apple). Mục tiêu là nâng cao khả năng lý luận thị giác của AI từ 'mức trẻ em' lên 'mức người lớn' và hướng tới AGI cho thế giới vật lý.

QElorian AI đã huy động được bao nhiêu vốn và từ những nhà đầu tư nào?

ACông ty đã huy động được 55 triệu USD từ các nhà đầu tư dẫn đầu như Striker Venture Partners, Menlo Ventures, Altimeter, cùng sự tham gia của 49 Palms và các nhà khoa học AI hàng đầu như Jeff Dean.

QCông nghệ của Elorian AI khác biệt thế nào so với mô hình đa phương tiện truyền thống?

AHọ tập trung vào kiến trúc mới cho phép mô hình xử lý và suy luận trực tiếp trong không gian thị giác, thay vì chuyển đổi hình ảnh thành văn bản trước. Điều này giúp giảm ảo giác và xử lý các tác vụ phức tạp như không gian vật lý.

QỨng dụng tiềm năng của mô hình lý luận thị giác trong thế giới thực là gì?

ABao gồm robot tự động xử lý môi trường nguy hiểm, phân tích hình ảnh vệ tinh để quản lý thiên tai, hiểu bản vẽ kỹ thuật phức tạp, và nâng cao khả năng của thiết bị đeo thông minh trong y tế hoặc công nghiệp.

Nội dung Liên quan

Sentora và Firelight Hợp Tác Mang Lại Bảo Hiểm DeFi Nguyên Bản

Sentora, một nền tảng quản lý rủi ro và trí tuệ DeFi thể chế, đã hợp tác với Firelight Protocol để cung cấp bảo hiểm gốc (native coverage) cho các khoản đầu tư trên nền tảng của mình. Sự hợp tác này nhằm lấp đầy khoảng trống về bảo mật, vốn là rào cản cho sự tham gia của các tổ chức vào DeFi, bằng cách tích hợp một lớp bảo vệ được hỗ trợ bởi vốn trực tiếp vào cơ sở hạ tầng kho tiền (vault). Thông qua quan hệ đối tác, người tham gia vào các vault của Sentora sẽ được bảo vệ bẩm sinh trước các rủi ro như nợ xấu, lỗi Oracle và khai thác hợp đồng thông minh. Firelight, được xây dựng trên Flare Network, sử dụng FXRP (một đại diện 1:1 của XRP) làm cơ chế tài sản thế chấp chính, biến XRP thành một tài sản sinh lời. Giám đốc điều hành Sentora, Anthony DeMartino, nhấn mạnh nhu cầu về một lớp bảo vệ rõ ràng để thúc đẩy áp dụng DeFi rộng rãi hơn. Hugo Philion, đồng sáng lập Flare, cũng đánh giá cao mô hình này như một cơ sở hạ tầng cấp thể chế. Đây được xem là một bước tiến nhằm chuẩn hóa bảo hiểm như một yếu tố cơ bản trong triển khai vốn DeFi, từ đó xây dựng niềm tin và tạo điều kiện cho việc áp dụng trên quy mô lớn.

TheNewsCrypto1 giờ trước

Sentora và Firelight Hợp Tác Mang Lại Bảo Hiểm DeFi Nguyên Bản

TheNewsCrypto1 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua AR

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Arweave (AR) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Arweave (AR) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Arweave (AR) của BạnSau khi mua Arweave (AR), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Arweave (AR)Giao dịch Arweave (AR) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 540Xuất bản vào 2024.12.11Cập nhật vào 2025.03.21

Làm thế nào để Mua AR

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của AR (AR) được trình bày dưới đây.

活动图片