Khám phá AGI thế giới vật lý với 'Suy luận thị giác', ElorianAI huy động được 55 triệu USD

marsbit發佈於 2026-04-23更新於 2026-04-23

文章摘要

Mặc dù AI mô hình lớn đã vượt trội trong lập trình và toán học, khả năng lập luận thị giác của chúng vẫn chỉ ở mức trẻ 3 tuổi. ElorianAI, do Andrew Dai (cựu Google DeepMind) và Yinfei Yang (chuyên gia AI của Apple) sáng lập, đã huy động 55 triệu USD để phát triển mô hình đa phương thức "suy nghĩ nguyên sinh trong không gian thị giác", nhằm đạt được AGI cho thế giới vật lý. Thay vì chuyển đổi hình ảnh thành văn bản như VLM truyền thống, họ xây dựng kiến trúc mới để AI trực tiếp thao tác và hiểu sâu biểu diễn thị giác, kết hợp dữ liệu tổng hợp chất lượng cao. Mô hình dự kiến ra mắt năm 2026, hứa hẹn ứng dụng trong robot, quản lý thiên tai và kỹ thuật, nơi cần ra quyết định phức tạp trong môi trường vật lý.

Văn | Công xã Alpha

Khả năng của mô hình AI lớn trong một số lĩnh vực đã vượt quá người bình thường, chẳng hạn như lập trình và toán học. Theo tin tức, Anthropic nội bộ gần như đã đạt được 100% lập trình AI, Gemini Deep Think của Google đã giải được 5 trong 6 bài toán tại IMO 2025, đạt trình độ huy chương vàng.

Nhưng về suy luận thị giác, ngay cả Gemini 3 Pro dẫn đầu về trình độ, cũng chỉ đạt mức độ của trẻ 3 tuổi trên Benchmark BabyVision - một bài kiểm tra khả năng suy luận thị giác cơ bản.

Tại sao mô hình lớn mạnh về lập trình và toán học, nhưng lại yếu về suy luận thị giác? Điều này là do "cách suy nghĩ" của nó có hạn chế. Mô hình ngôn ngữ hình ảnh (VLM) cần chuyển đổi đầu vào thị giác thành ngôn ngữ trước, sau đó mới thực hiện suy luận dựa trên văn bản. Tuy nhiên, nhiều nhiệm vụ thị giác hoàn toàn không thể mô tả chính xác bằng văn bản, điều này dẫn đến khả năng suy luận thị giác của mô hình kém.

Andrew Dai, người đã làm việc tại Google DeepMind 14 năm, cùng với chuyên gia AI kỳ cựu của Apple là Yinfei Yang, đã thành lập một công ty tên là Elorian AI. Mục tiêu của họ là nâng cao khả năng suy luận thị giác của mô hình từ "trình độ trẻ em" lên "trình độ người lớn", và cho mô hình có khả năng suy nghĩ nguyên sinh thực sự trong "không gian thị giác", từ đó hướng tới AGI của thế giới vật lý.

Elorian AI đã huy động được 55 triệu USD vốn đầu tư giai đoạn đầu do Striker Venture Partners, Menlo Ventures và Altimeter cùng dẫn đầu, với sự tham gia của 49 Palms và các nhà khoa học AI hàng đầu bao gồm Jeff Dean.

Người tiên phong về mô hình đa phương thức, muốn mô hình thị giác có khả năng suy luận

Là người gốc Hoa, Andrew Dai, cử nhân khoa học máy tính Cambridge, tiến sĩ học máy Edinburgh, đã thực tập tại Google trong thời gian học tiến sĩ và gia nhập Google vào năm 2012, ở lại 14 năm cho đến khi khởi nghiệp.


Nguồn ảnh:Linkedin của Andrew Dai

Không lâu sau khi gia nhập Google, ông cùng với Quoc V. Le đã đồng viết bài báo đầu tiên về huấn luyện trước mô hình ngôn ngữ và vi chỉnh có giám sát 《Semi-supervised Sequence Learning》. Bài báo này đặt nền móng cho sự ra đời của GPT. Một bài báo nền tảng khác của ông là 《Glam: Efficient scaling of language models with mixture-of-experts》, mở đường cho kiến trúc MoE phổ biến hiện nay.

Nguồn ảnh: Google

Trong thời gian ở Google, ông cũng tham gia sâu vào hầu hết các quá trình huấn luyện mô hình lớn, từ Palm đến Gemini1.5 và Gemini2.5. Dưới sự sắp xếp của Jeff Dean, ông bắt đầu phụ trách lãnh đạo mảng dữ liệu của Gemini (bao gồm dữ liệu tổng hợp) vào năm 2023, quy mô đội ngũ sau đó đã mở rộng lên đến hàng trăm người.

Nguồn ảnh:Linkedin của Yinfei Yang

Cùng khởi nghiệp với Andrew Dai là Yinfei Yang, người đã từng làm việc tại Google Research bốn năm, tập trung vào học biểu diễn đa phương thức, sau đó gia nhập Apple, phụ trách nghiên cứu và phát triển mô hình đa phương thức.

Nguồn ảnh:arxiv

Nghiên cứu tiêu biểu của ông 《Scaling up visual and vision-language representation learning with noisy text supervision》 đã thúc đẩy sự phát triển của học biểu diễn đa phương thức.

Đồng sáng lập Elorian AI còn có Seth Neel, từng là AP (Trợ lý Giáo sư) tại Đại học Harvard, cũng là chuyên gia về dữ liệu và AI.

Tại sao phải thảo luận về những bài báo mang tính khai phá mà các nhà đồng sáng lập Elorian AI đã viết? Bởi vì việc họ làm không phải là tối ưu hóa ở tầng kỹ thuật, mà là cập nhật mô hình từ kiến trúc cơ sở, để nâng cấp AI từ hiểu thông minh dựa trên văn bản lên hiểu thông minh dựa trên thị giác.

Tình trạng hiện tại của mô hình AI là, mặc dù thể hiện xuất sắc trong các nhiệm vụ dựa trên văn bản, nhưng ngay cả mô hình đa phương thức lớn tiên tiến nhất, vẫn sẽ vấp ngã trong nhiệm vụ căn chỉnh thị giác (Visual grounding) cơ bản nhất.

Ví dụ, làm thế nào để lắp một linh kiện nào đó khít vào một thiết bị cơ khí, làm cho nó hoạt động chính xác hơn, hiệu quả hơn? Loại nhiệm vụ vật lý không gian này rất đơn giản đối với học sinh tiểu học, nhưng lại rất khó đối với các mô hình đa phương thức lớn hiện có.

Điều này vẫn phải tìm manh mối từ sinh học. Trong não người, thị giác là chất nền cơ sở hỗ trợ nhiều quá trình tư duy. Khả năng sử dụng thị giác và suy luận không gian của con người lâu đời hơn nhiều so với suy luận logic ngôn ngữ.

Ví dụ, dạy người khác đi qua một mê cung, dùng ngôn ngữ mô tả sẽ làm người ta hoa mắt, nhưng vẽ một bản phác thảo lại có thể khiến người ta hiểu ngay.

Lại ví dụ, ngay cả một con chim, dù không có ngôn ngữ, nhưng có thể thông qua thị giác, nhận biết và suy luận đặc điểm địa lý, từ đó thực hiện di cư đường dài toàn cầu. Đây là một tín hiệu mạnh mẽ, cho thấy để thực sự thúc đẩy khả năng suy luận của máy móc, thị giác rất có thể là hướng đi đúng đắn.

Vậy, hãy tưởng tượng, nếu ngay từ lúc đột phá xây dựng mô hình, đã thử khắc bản năng thị giác sinh học này vào gen của AI, xây dựng một mô hình đa phương thức nguyên sinh có thể "đồng thời hiểu và xử lý văn bản, hình ảnh, video và âm thanh", thì có thể cho mô hình có khả năng hiểu thị giác. Andrew Dai và đội ngũ muốn xây dựng một "người cảm thụ đa giác quan" bẩm sinh, dạy máy móc không chỉ "nhìn thấy" thế giới, mà còn "hiểu" thế giới.

Theo Andrew Dai và đội ngũ, nhận thức sâu sắc "thế giới vật lý" thực sự là chìa khóa để đạt được bước nhảy vọt thông minh máy móc thế hệ tiếp theo, và cuối cùng chạm tới "Trí tuệ nhân tạo phổ quát thị giác (Visual AGI)".

VLM với suy luận hậu kỳ không phải là con đường đúng đắn dẫn đến suy luận thị giác

Trước đây không phải không có đội ngũ muốn làm việc này, thực tế đội ngũ Gemini trước đây của Andrew Dai, đã là đội ngũ rất tiên tiến trong lĩnh vực đa phương thức trên toàn cầu. Nhưng mô hình đa phương thức truyền thống, vẫn chủ yếu là VLM (mô hình ngôn ngữ hình ảnh), logic của nó được xây dựng trên cơ sở "hai bước": đầu tiên chuyển đổi đầu vào thị giác thành ngôn ngữ, sau đó mới thực hiện suy luận dựa trên văn bản (đôi khi hỗ trợ gọi công cụ bên ngoài).

Tuy nhiên, suy luận hậu kỳ về bản chất đều có hạn chế, một mặt dễ sinh ra ảo giác mô hình, mặt khác nhiều nhiệm vụ thị giác hoàn toàn không thể mô tả chính xác bằng văn bản.

Ngoài ra, các mô hình tạo sinh thị giác như NanoBanana, có khả năng tạo đa phương thức xuất sắc, nhưng khả năng tạo sinh và khả năng suy luận không ngang bằng nhau, "suy nghĩ" của chúng trước khi tạo sinh, về bản chất vẫn phụ thuộc vào mô hình ngôn ngữ, không phải là khả năng suy luận nguyên sinh.

Nếu muốn phát triển mô hình có thể thấu hiểu sự phức tạp về không gian, cấu trúc và quan hệ trong thế giới thị giác, tất yếu cần đổi mới mang tính đột phá trong công nghệ cơ sở.

Vậy, đổi mới như thế nào? Mấy nhà sáng lập Elorian AI ngâm mình nhiều năm trong lĩnh vực đa phương thức, cách làm của họ là: kết hợp sâu giữa huấn luyện đa phương thức và kiến trúc mới được thiết kế chuyên cho suy luận đa phương thức. Loại bỏ cách làm truyền thống xem hình ảnh là đầu vào tĩnh, chuyển sang huấn luyện mô hình tương tác trực tiếp và thao tác biểu diễn thị giác (Visual representations) để tự phân giải cấu trúc, quan hệ và ràng buộc vật lý trong đó.

Tất nhiên, yếu tố cốt lõi khác là dữ liệu, nó là chìa khóa quyết định hiệu suất và thành bại của các mô hình này.

Andrew Dai表示, họ rất coi trọng chất lượng dữ liệu, tỷ lệ pha trộn dữ liệu, nguồn gốc dữ liệu và sự đa dạng của dữ liệu, đồng thời đã đổi mới ở tầng dữ liệu, tái cấu trúc liên kết suy luận trong không gian thị giác, còn sử dụng sâu rộng dữ liệu tổng hợp trên quy mô lớn.

Những nỗ lực tổng hợp này, sẽ thúc đẩy ra đời hệ thống AI mới có thể vượt qua "nhận thức" thị giác đơn giản, tiến tới "suy luận" thị giác cao cấp.

Hệ thống AI này có thể là mô hình cơ sở suy luận thị giác: tức xây dựng một mô hình có tính phổ dụng cao, nhưng thể hiện cực kỳ xuất sắc trên tập năng lực cụ thể, năng lực cụ thể này chính là suy luận thị giác.

Vì là một mô hình cơ sở phổ dụng, lĩnh vực ứng dụng của nó nên rộng rãi.

Đầu tiên, trong đường đua robot, nó có thể trở thành trung tâm thần kinh cơ sở của hệ thống mạnh mẽ, trao cho nó khả năng tác nghiệp tự chủ trong các môi trường lạ lẫm khác nhau.

Ví dụ, trong đường đua robot, phái một robot xử lý một sự cố an toàn đột xuất trong môi trường nguy hiểm. Điều này đòi hỏi robot đưa ra quyết định nhanh chóng và chính xác trong chớp mắt. Nếu robot thiếu mô hình cơ sở có khả năng suy luận sâu, người ta sẽ không dám để nó bấm nút bừa bãi hoặc vận hành cần gạt. Nhưng nếu nó có khả năng suy luận cực mạnh, nó có thể nghĩ: "Trước khi vận hành bảng điều khiển này, có lẽ tôi nên kéo cần gạt này trước, kích hoạt cơ chế bảo vệ an toàn."

Ngoài ra trong quản lý thiên tai, mô hình có suy luận thị giác có thể thông qua phân tích hình ảnh vệ tinh để giám sát và phòng ngừa cháy rừng; trong lĩnh vực kỹ thuật, nó có thể nhìn chính xác các bản vẽ thị giác phức tạp, sơ đồ nguyên lý hệ thống, ý nghĩa của năng lực này nằm ở chỗ, quy tắc vận hành của thế giới vật lý khác biệt cơ bản với thế giới thuần mã, bạn không thể chỉ dựa vào gõ vài dòng mã thuần túy để thiết kế ra cánh máy bay.

Tuy nhiên, hiện tại mô hình, năng lực của Elorian AI tạm thời vẫn chỉ nằm trên giấy, họ dự kiến sẽ phát hành một mô hình đạt trình độ SOTA trong lĩnh vực suy luận thị giác vào năm 2026, đến lúc đó có thể kiểm tra thành quả của họ có phù hợp với tuyên bố hay không.

Khi AI thực sự có khả năng "suy luận thị giác", nó sẽ thay đổi thế giới vật lý như thế nào?

Để AI hiểu và ảnh hưởng thế giới vật lý thực, công nghệ đã lặp lại nhiều lần.

Từ nhận dạng hình ảnh thời CV truyền thống, đến mô hình tạo sinh hình ảnh/mô hình đa phương thức của AI生成, rồi đến mô hình thế giới, sự hiểu biết về thế giới vật lý luôn được tăng cường.

Mà mô hình cơ sở suy luận thị giác, rất có thể tiến thêm một bước, bởi vì có thể thực hiện suy luận thị giác, AI sẽ hiểu sâu hơn thế giới vật lý, từ đó đạt được trí thông minh máy móc tầng cao hơn.

Hãy tưởng tượng, khi mô hình có khả năng hiểu sâu và thao tác tinh tế "nạp điện" cho ngành trí thông minh thể hiện, cũng như ngành phần cứng AI, sẽ mở rộng đáng kể phạm vi ứng dụng của chúng. Ví dụ, robot có thể tiến hành sản xuất công nghiệp có độ tin cậy cao hơn, hoặc lĩnh vực chăm sóc y tế; phần cứng AI, đặc biệt là thiết bị đeo, trở thành trợ lý cá nhân thông minh hơn.

Tuy nhiên, ở cơ sở của những công nghệ này, vẫn là dữ liệu. Andrew Dai ở trên cũng表示, chất lượng dữ liệu, tỷ lệ pha trộn dữ liệu, nguồn gốc dữ liệu và sự đa dạng của dữ liệu, đều quyết định hiệu suất của mô hình.

Trong lĩnh vực AI vật lý, doanh nghiệp Trung Quốc dù ở tầng mô hình hay tầng dữ liệu, so với mô hình lớn văn bản, đều gần với trình độ dẫn đầu thế giới hơn. Nếu có thể dựa vào lợi thế dữ liệu, ứng dụng场景 phong phú hơn, đẩy nhanh tốc độ lặp, thì dù là trí thông minh thể hiện hay phần cứng AI, dù ứng dụng trong công nghiệp, y tế, hay gia đình, đều có cơ hội lớn hơn để đạt trình độ dẫn đầu, tất nhiên cũng có cơ hội chạy ra doanh nghiệp tầm cỡ thế giới.

相關問答

QTại sao các mô hình AI lớn như Gemini 3 Pro chỉ có khả năng lý luận thị giác tương đương trẻ 3 tuổi?

AVì các mô hình ngôn ngữ thị giác (VLM) hiện tại phải chuyển đổi đầu vào hình ảnh thành văn bản trước khi suy luận, nhưng nhiều nhiệm vụ thị giác không thể mô tả chính xác bằng ngôn ngữ, dẫn đến hạn chế trong khả năng lý luận.

QElorian AI được thành lập bởi những ai và mục tiêu của họ là gì?

AĐược đồng sáng lập bởi Andrew Dai (cựu Google DeepMind) và Yinfei Yang (chuyên gia AI của Apple). Mục tiêu là nâng cao khả năng lý luận thị giác của AI từ 'mức trẻ em' lên 'mức người lớn' và hướng tới AGI cho thế giới vật lý.

QElorian AI đã huy động được bao nhiêu vốn và từ những nhà đầu tư nào?

ACông ty đã huy động được 55 triệu USD từ các nhà đầu tư dẫn đầu như Striker Venture Partners, Menlo Ventures, Altimeter, cùng sự tham gia của 49 Palms và các nhà khoa học AI hàng đầu như Jeff Dean.

QCông nghệ của Elorian AI khác biệt thế nào so với mô hình đa phương tiện truyền thống?

AHọ tập trung vào kiến trúc mới cho phép mô hình xử lý và suy luận trực tiếp trong không gian thị giác, thay vì chuyển đổi hình ảnh thành văn bản trước. Điều này giúp giảm ảo giác và xử lý các tác vụ phức tạp như không gian vật lý.

QỨng dụng tiềm năng của mô hình lý luận thị giác trong thế giới thực là gì?

ABao gồm robot tự động xử lý môi trường nguy hiểm, phân tích hình ảnh vệ tinh để quản lý thiên tai, hiểu bản vẽ kỹ thuật phức tạp, và nâng cao khả năng của thiết bị đeo thông minh trong y tế hoặc công nghiệp.

你可能也喜歡

XRP Ledger 发布 3.2.0 版本升级并启用 XRPLd 新品牌名

XRP Ledger发布了3.2.0版本,这是对其底层区块链基础设施的一次重要升级。本次更新的核心是将运行网络的软件名称从“rippled”更名为“xrpld”,以更好地反映整个项目生态。 与此前侧重于前端功能的版本不同,3.2.0版本优先进行了后端升级和效率提升,旨在增强网络性能并为未来的扩展做准备。关键改进包括内存优化措施,预计可节省高达40%的服务器内存使用。 此次升级引入了名为“fixCleanup3_2_0”的修改,为单资产金库、借贷协议、权限系统、去中心化交易所、多用途代币和权限域等多个模块带来了安全性增强。开发团队还新增了不变性检查,以确保已删除账户不会在账本上留下不一致的数据,从而加强整个网络的完整性和可靠性。 对于开发者而言,新版本增加了一项重要功能:应用程序无需连接服务器即可检索XRP Ledger协议和服务器定义信息,这将极大便利钱包、区块链浏览器和API等的开发工作。 在可扩展性和稳定性方面,更新包括可配置的区块大小、通过nuDB实现的高效数据库存储,以及将gRPC服务器的TLS/双向TLS支持改为可选,以提升企业用户的性能和连接性。此外,默认对等端口从51235更改为2459,并修复了涉及自动做市商、支付、代币托管、多用途代币、订单簿和RPC等多个方面的问题。出于性能考虑,3.2.0版本暂时禁用了交易不变性检查,但开发团队表示这不会构成安全威胁。

TheNewsCrypto4 小時前

XRP Ledger 发布 3.2.0 版本升级并启用 XRPLd 新品牌名

TheNewsCrypto4 小時前

交易

現貨
合約

熱門文章

如何購買AR

歡迎來到HTX.com!在這裡,購買Arweave (AR)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Arweave (AR)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Arweave (AR)購買Arweave (AR)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Arweave (AR)在HTX的現貨市場輕鬆交易Arweave (AR)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

791 人學過發佈於 2024.12.11更新於 2026.06.02

如何購買AR

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 AR (AR)幣價的意見。

活动图片