Exploring Physical World AGI with "Visual Reasoning", ElorianAI Raises $55 Million

marsbitXuất bản vào 2026-04-23Cập nhật gần nhất vào 2026-04-23

Tóm tắt

ElorianAI, co-founded by ex-Google AI expert Andrew Dai and former AI specialist Yinfei Yang, has raised $55 million in early funding to develop next-generation AI systems with advanced visual reasoning capabilities. While current large models excel in text-based tasks like programming and math, they perform poorly in visual reasoning—even top models like Gemini only match a 3-year-old’s ability in basic visual benchmarks. The key limitation lies in the architecture of current vision-language models (VLMs), which first convert visual inputs into text before reasoning, losing critical spatial and structural information. ElorianAI aims to build a native multimodal model that processes and reasons directly in visual space, enabling deeper understanding of physical relationships, constraints, and environments. The company plans to release a state-of-the-art visual reasoning model by 2026, with potential applications in robotics, disaster management, engineering, healthcare, and AI hardware. By using high-quality, diverse, and synthetically generated data, ElorianAI intends to create models that don’t just perceive but truly understand and reason about the physical world—bringing us closer to visual AGI.

By Alpha Community

AI large models have surpassed average humans in certain areas, such as programming and mathematics. Reports indicate that Anthropic has almost achieved 100% AI programming internally, and Google's Gemini Deep Think solved 5 out of 6 problems in IMO 2025, reaching gold medal level.

However, in visual reasoning, even the leading Gemini 3 Pro only reached the level of a 3-year-old child on BabyVision, a benchmark testing basic visual reasoning abilities.

Why are large models strong in programming and mathematics but weak in visual reasoning? This is due to limitations in their "thinking process." Visual Language Models (VLMs) need to first convert visual input into language and then perform text-based reasoning. However, many visual tasks cannot be accurately described in words, resulting in poor visual reasoning capabilities of the models.

Andrew Dai, who worked at Google DeepMind for 14 years, teamed up with Apple's seasoned AI expert Yinfei Yang to establish a company called Elorian AI. Their goal is to elevate the model's visual reasoning ability from "child level" to "adult level," enabling the model to natively "think" within the "visual space" and thereby advance toward AGI in the physical world.

Elorian AI raised $55 million in early-stage funding co-led by Striker Venture Partners, Menlo Ventures, and Altimeter, with participation from 49 Palms and top AI scientists including Jeff Dean.

Pioneers in Multimodal Models Aim to Equip Visual Models with Reasoning Abilities

Andrew Dai, who is of Chinese descent, holds a bachelor's degree in computer science from Cambridge and a PhD in machine learning from Edinburgh. He interned at Google during his PhD and joined the company in 2012, staying for 14 years until starting his own business.


Image Source: Andrew Dai's LinkedIn

Shortly after joining Google, he co-authored the first paper on language model pre-training and supervised fine-tuning, "Semi-supervised Sequence Learning," with Quoc V. Le. This paper laid the foundation for the birth of GPT. Another foundational paper of his is "Glam: Efficient scaling of language models with mixture-of-experts," which paved the way for the now mainstream MoE architecture.

Image Source: Google

During his time at Google, he was deeply involved in almost all large model trainings, from Palm to Gemini 1.5 and Gemini 2.5. Under Jeff Dean's arrangement, he began leading the data division of Gemini (including synthetic data) in 2023, and the team later expanded to hundreds of people.

Image Source: Yinfei Yang's LinkedIn

Co-founding Elorian AI with Andrew Dai is Yinfei Yang, who worked at Google Research for four years, focusing on multimodal representation learning, before joining Apple to lead multimodal model R&D.

Image Source: arxiv

His representative research, "Scaling up visual and vision-language representation learning with noisy text supervision," advanced the development of multimodal representation learning.

Elorian AI's co-founders also include Seth Neel, who was an Assistant Professor at Harvard University and is an expert in data and AI.

Why discuss the groundbreaking papers written by Elorian AI's co-founders? Because their goal is not just engineering optimization but a paradigm shift at the foundational architecture level, upgrading AI from text-based intelligent understanding to vision-based intelligent understanding.

The current state of AI models is that, despite excelling in text-based tasks, even the most advanced frontier multimodal large models still stumble on the most basic visual grounding tasks.

For example, how to fit a part precisely into a mechanical device to make it run more accurately and efficiently? Such spatial physical tasks are simple for elementary school students but challenging for existing multimodal large models.

This brings us back to biology for clues. In the human brain, vision is the underlying substrate supporting many thinking processes. Humans' ability to use visual and spatial reasoning is far more ancient than language-based logical reasoning.

For instance, teaching someone to navigate a maze using language can be confusing, but drawing a sketch makes it instantly understandable.

Even a bird, without language, can recognize and reason about geographical features through vision to achieve global long-distance migration. This is a strong signal that vision is likely the correct direction for truly advancing machine reasoning.

So, imagine if, from the very beginning of model construction, this biological visual instinct is encoded into AI's genes, building a native multimodal model that "simultaneously understands and processes text, images, video, and audio," enabling the model to possess visual understanding capabilities. Andrew Dai and his team aim to build an innate "synesthete," teaching machines not only to "see" the world but also to "understand" it.

To Andrew Dai and his team, a deep understanding of the real "physical world" is the key to achieving the next leap in machine intelligence and ultimately reaching "Visual AGI."

VLMs with Post-Reasoning Are Not the Right Path to Visual Reasoning

There have been teams attempting this before. In fact, Andrew Dai's previous Gemini team was already among the global leaders in the multimodal field. However, traditional multimodal models are still primarily VLMs (Visual Language Models), built on a "two-step" logic: first converting visual input into language, then performing text-based reasoning (sometimes assisted by external tools).

However, post-reasoning inherently has limitations. On one hand, it is prone to model hallucinations; on the other, many visual tasks cannot be precisely described in words.

Additionally, visual generation models like NanoBanana excel in multimodal generation, but generation ability does not equal reasoning ability. The "thinking" before generation still relies on language models, not native reasoning capability.

To develop models that truly understand the spatial, structural, and relational complexities of the visual world, disruptive innovation at the underlying technology level is necessary.

So, how to innovate? Elorian AI's founders, with years of experience in the multimodal field, approach this by deeply integrating multimodal training with a new architecture specifically designed for multimodal reasoning. They abandon the traditional approach of treating images as static input, instead training models to directly interact with and manipulate visual representations to autonomously parse their structure, relationships, and physical constraints.

Of course, another core element is data, which is crucial to the performance and success of these models.

Andrew Dai stated that they place great importance on data quality, data mix ratios, data sources, and data diversity. They have innovated at the data layer, reconstructing the reasoning chain in visual space, and are extensively and deeply using synthetic data.

Combined, these efforts will give rise to new AI systems that move beyond simple visual "perception" to high-level visual "reasoning."

This AI system could be a visual reasoning foundation model: building a highly general but exceptionally proficient model in a specific capability set—visual reasoning.

As a general foundation model, its application areas should be broad.

First, in the robotics field, it could become the underlying neural center of powerful systems,赋予ing them the ability to operate autonomously in various unfamiliar environments.

For example, sending a robot to handle a sudden safety fault in a hazardous environment requires the robot to make quick and accurate instant decisions. If the robot lacks a foundation model with deep reasoning capabilities, people wouldn't dare let it randomly press buttons or operate levers. But if it has strong reasoning能力, it might think: "Before operating this panel, maybe I should pull this lever first to activate the safety mechanism."

Furthermore, in disaster management, models with visual reasoning could analyze satellite images to monitor and prevent forest fires. In engineering, they could accurately understand complex visual blueprints and system diagrams. The significance of this ability lies in the fact that the operating principles of the physical world are fundamentally different from the pure code world. You can't design an airplane wing just by typing a few lines of pure code.

However, Elorian AI's models and capabilities are currently still on paper. They plan to release a model in 2026 that achieves SOTA level in visual reasoning. At that time, we can verify if their results match their claims.

When AI Truly Possesses "Visual Reasoning" Ability, How Will It Change the Physical World?

To enable AI to understand and influence the real physical world, technology has iterated several times.

From image recognition in the traditional CV era, to image generation models/multimodal models in generative AI, to world models, the understanding of the physical world has been continuously enhanced.

Visual reasoning foundation models could take it a step further. Because achieving visual reasoning allows AI to understand the physical world more deeply, thereby achieving a higher level of machine intelligence.

Imagine, when models with deep understanding and fine operation empower the embodied intelligence industry and the AI hardware industry, it will greatly expand their application scope. For example, robots could perform more reliable industrial production or work in medical care; AI hardware, especially wearable devices, could become smarter personal assistants.

However, underlying these technologies is still data. As Andrew Dai mentioned earlier, data quality, data mix ratios, data sources, and data diversity all determine model performance.

In the physical AI field, Chinese companies, whether at the model level or the data level, are closer to world leadership compared to text large models. If they can leverage their advantages of richer data and application scenarios to accelerate iteration speed, then whether in embodied intelligence or AI hardware, whether applied in industry, healthcare, or homes, there is a greater opportunity to reach leading levels and potentially produce world-class enterprises.

Câu hỏi Liên quan

QWhat is the main goal of current Vision Language Models (VLMs) according to the article, and what are their limitations?

AThe main goal of VLMs is to process visual input by first converting it into language and then performing text-based reasoning. Their limitation is that many visual tasks cannot be accurately described with text, leading to poor visual reasoning capabilities.

QWho are the founders of Elorian AI and what are their backgrounds?

AThe founders are Andrew Dai, a former Google DeepMind researcher with 14 years of experience, and Yinfei Yang, an AI expert who worked at Google Research and Apple. Andrew Dai contributed to foundational papers in language model pre-training and MoE architecture, while Yinfei Yang focused on multimodal representation learning.

QHow does Elorian AI plan to improve AI's visual reasoning capabilities?

AElorian AI aims to develop a native multimodal model that processes text, images, video, and audio simultaneously. They focus on integrating multimodal training with new architectures designed for visual reasoning, directly interacting with visual representations to parse structures and physical constraints, and using high-quality, diverse synthetic data.

QWhat potential applications are mentioned for AI with advanced visual reasoning skills?

AApplications include robotics for autonomous operations in unfamiliar environments, disaster management through satellite image analysis, engineering by interpreting complex visual diagrams, and enhancing AI hardware like wearable devices for personal assistance.

QWhen does Elorian AI plan to release their model, and what is the expected achievement?

AElorian AI plans to release a model in 2026 that achieves state-of-the-art (SOTA) performance in visual reasoning, aiming to elevate capabilities from 'child-level' to 'adult-level'.

Nội dung Liên quan

Kraken Lên Kế Hoạch Cung Cấp Hợp Đồng Tương Lai Vĩnh Viễn Được CFTC Quy Định Cho Nhà Giao Dịch Chuyên Nghiệp Hoa Kỳ

Kraken đang chuẩn bị ra mắt hợp đồng tương lai vĩnh viễn được CFTC quản lý cho các nhà giao dịch chuyên nghiệp đủ điều kiện tại Hoa Kỳ. Sản phẩm sẽ được cung cấp thông qua sàn phái sinh Bitnomial mà Kraken đã mua lại và dự kiến tích hợp vào nền tảng Kraken Pro. Hợp đồng tương lai vĩnh viễn là sản phẩm phái sinh crypto lớn toàn cầu, cho phép giao dịch không ngày đáo hạn. Tại Mỹ, các hạn chế quy định trước đây khiến nhà giao dịch có ít lựa chọn trong nước. Động thái của Kraken nhằm thu hẹp khoảng cách này, cung cấp một con đường được quản lý để tiếp cận sản phẩm chi phối khối lượng giao dịch crypto ở nước ngoài. Việc ra mắt sẽ tập trung vào các nhà giao dịch chuyên nghiệp đủ điều kiện. Các yếu tố cần theo dõi bao gồm điều khoản về tính đủ điều kiện, thiết kế hợp đồng, tài sản được hỗ trợ và quan trọng nhất là thanh khoản khi ra mắt. Thành công của sản phẩm có thể mở đường cho nhiều sản phẩm tương lai vĩnh viễn được quản lý khác tại thị trường Mỹ, đưa sản phẩm phái sinh chủ chốt này tiến gần hơn đến cơ sở hạ tầng thị trường nội địa được quản lý.

bitcoinist8 giờ trước

Kraken Lên Kế Hoạch Cung Cấp Hợp Đồng Tương Lai Vĩnh Viễn Được CFTC Quy Định Cho Nhà Giao Dịch Chuyên Nghiệp Hoa Kỳ

bitcoinist8 giờ trước

Sự Ra Mắt Của Warsh: Chủ Tịch Fed Hiểu Crypto Nhất Lịch Sử Sẽ Mang Đến Bất Ngờ Hay Cú Sốc Cho Thị Trường?

Tân Chủ tịch Cục Dự trữ Liên bang Kevin Warsh, người được mệnh danh là chủ tịch FED "hiểu rõ về Crypto nhất trong lịch sử", sắp có buổi họp báo chính sách đầu tiên trong bối cảnh thử thách ba mặt: lạm phát quay trở lại, áp lực giảm lãi suất từ Tổng thống Trump và kỳ vọng thị trường về việc tăng lãi suất. Khác với người tiền nhiệm, Warsh có cái nhìn sâu sắc về tài sản số, từng coi Bitcoin như "cảnh sát tốt cho chính sách" và nhấn mạnh giá trị sản xuất của ngành công nghiệp blockchain. Tuy nhiên, ông cũng nổi tiếng là người theo chủ nghĩa diều hâu về lạm phát. Sự kết hợp giữa "lãi suất chặt chẽ" và "quy định thân thiện" từ ông có thể trở thành yếu tố cốt lõi định giá tài sản mã hóa. Bài viết phân tích tác động từ ba khía cạnh: 1. **Chuyển đổi khuôn mẫu kỳ vọng quy định:** Từ phòng thủ sang tích hợp và đổi mới, có thể thúc đẩy các khung pháp lý rõ ràng hơn, hỗ trợ ổn định do khu vực tư nhân phát hành. 2. **Định giá lại lộ trình lãi suất và phần bù rủi ro:** Một chủ tịch hiểu biết và giao tiếp rõ ràng có thể giảm bớt phí bảo hiểm bất định, có lợi về cấu trúc cho thị trường. 3. **Tái phân bổ dòng vốn toàn cầu:** Kinh nghiệm đầu tư cá nhân của Warsh truyền tải tín hiệu về sự chấp nhận chính thống, có thể thúc đẩy các quỹ thể chế truyền thống phân bổ tài sản số. Hai kịch bản chính được đưa ra: * **Ngạc nhiên thú vị:** Nếu Warsh thể hiện thái độ ôn hòa và công nhận giá trị của tài sản số, thị trường có thể được tiếp thêm sức mạnh. * **Cú sốc:** Nếu ông phát tín hiệu tăng lãi suất mạnh mẽ, tài sản rủi ro, bao gồm crypto, có thể chịu áp lực bán. Mặc dù Warsh đã bán các khoản nắm giữ liên quan đến crypto để tuân thủ quy tắc đạo đức, nhưng sự hiểu biết thực sự của ông về công nghệ blockchain được kỳ vọng sẽ đặt nền tảng cho việc chính thống hóa tài sản số về lâu dài, vượt ra ngoài các phản ứng thị trường ngắn hạn.

marsbit8 giờ trước

Sự Ra Mắt Của Warsh: Chủ Tịch Fed Hiểu Crypto Nhất Lịch Sử Sẽ Mang Đến Bất Ngờ Hay Cú Sốc Cho Thị Trường?

marsbit8 giờ trước

XRP Ledger Ra Mắt Rebrand XRPLd Cùng Với Bản Nâng Cấp Phiên Bản 3.2.0

Phiên bản 3.2.0 của XRP Ledger đã chính thức ra mắt, đánh dấu một bước nâng cấp quan trọng cho cơ sở hạ tầng blockchain cốt lõi. Lần này, các nhà phát triển đã đổi tên phần mềm vận hành mạng từ "rippled" thành "xrpld" để phù hợp hơn với toàn bộ hệ sinh thái của dự án. Bản cập nhật tập trung chủ yếu vào các cải tiến back-end và hiệu suất thay vì tính năng người dùng mới. Các tối ưu hóa bộ nhớ được giới thiệu có khả năng tiết kiệm tới 40% lượng bộ nhớ máy chủ, đồng thời chuẩn bị kiến trúc phần mềm cho việc mở rộng quy mô trong tương lai. Về mặt bảo mật, bản sửa đổi `fixCleanup3_2_0` mang lại nhiều cải thiện cho các mô-đun như kho lưu ký tài sản đơn, giao thức cho vay, sàn giao dịch phi tập trung và mã thông báo đa năng. Các kiểm tra bất biến mới được thêm vào để đảm bảo tính toàn vẹn của sổ cái khi tài khoản bị xóa. Một khả năng mới cho nhà phát triển là ứng dụng có thể truy xuất thông tin định nghĩa giao thức và máy chủ XRP Ledger mà không cần kết nối trực tiếp, hỗ trợ đáng kể việc phát triển ví, công cụ khám phá chuỗi khối và API. Các thay đổi về khả năng mở rộng và ổn định bao gồm kích thước khối có thể cấu hình, hỗ trợ lưu trữ cơ sở dữ liệu hiệu quả qua nuDB, và việc hỗ trợ máy chủ gRPC cho TLS/mutual TLS trở thành tùy chọn. Cổng kết nối ngang hàng mặc định cũng được đổi từ 51235 sang 2459. Các tính năng kiểm tra bất biến giao dịch tạm thời bị vô hiệu hóa trong phiên bản 3.2.0 do ảnh hưởng đến hiệu suất, nhưng không gây rủi ro bảo mật.

TheNewsCrypto8 giờ trước

XRP Ledger Ra Mắt Rebrand XRPLd Cùng Với Bản Nâng Cấp Phiên Bản 3.2.0

TheNewsCrypto8 giờ trước

AGI không phải là điểm kết thúc, nghiên cứu mới của DeepMind: Hướng tới ASI, tiến bộ AI thực sự mới chỉ bắt đầu

DeepMind mới đây công bố nghiên cứu cho rằng AGI (Trí tuệ nhân tạo phổ quát) không phải là điểm cuối. AI sẽ tiếp tục phát triển vượt qua khả năng của các nhóm chuyên gia con người hàng đầu, hướng tới ASI (Trí tuệ siêu nhân tạo). Báo cáo phân biệt ba khái niệm: AGI (năng lực nhận thức tương đương mức trung bình của con người), ASI (vượt trội con người trong hầu hết lĩnh vực quan tâm), và UAI (giới hạn lý thuyết tối thượng). Nghiên cứu đề xuất bốn con đường tiềm năng để chuyển từ AGI sang ASI: 1. Mở rộng quy mô tính toán, mô hình và dữ liệu. 2. Tiến hóa thuật toán, có thể thay đổi mô hình mới. 3. Tự cải thiện đệ quy, tạo phản hồi tích cực. 4. Điều phối đa tác tử và trí tuệ tập thể. Đồng thời, báo cáo chỉ ra sáu điểm nghẽn chính: giới hạn dữ liệu chất lượng cao, áp lực tài nguyên và kinh tế, hạn chế của mô hình mạng nơ-ron hiện tại, nghiên cứu ngày càng khó khăn, rào cản trừu tượng, cùng các vấn đề quản lý và phản ứng xã hội. Khi AI vượt con người, các phương pháp đánh giá truyền thống sẽ mất ý nghĩa. Cần xây dựng hệ thống đánh giá mới cho thời kỳ hậu AGI. ASI không phải là hệ thống toàn năng, vẫn chịu ràng buộc bởi các quy luật vật lý, độ phức tạp tính toán, dữ liệu, tài nguyên và tốc độ phản hồi thực tế. Tương lai phát triển của AI vẫn chứa nhiều bất định, đòi hỏi một nỗ lực liên ngành quy mô lớn để theo dõi và ứng phó.

marsbit9 giờ trước

AGI không phải là điểm kết thúc, nghiên cứu mới của DeepMind: Hướng tới ASI, tiến bộ AI thực sự mới chỉ bắt đầu

marsbit9 giờ trước

Kraken Ra Mắt Hợp Đồng Perpetual Trước IPO Cho OpenAI Và Anthropic Với Đòn Bẩy Lên Đến 5x

Kraken đã ra mắt hợp đồng tương lai vĩnh viễn (perps) tiền IPO cho hai công ty trí tuệ nhân tạo hàng đầu là OpenAI và Anthropic. Các hợp đồng này cho phép các nhà giao dịch đủ điều kiện mở vị thế mua (long) hoặc bán (short) đối với các công ty tư nhân được theo dõi sát sao này trước khi họ lên sàn chứng khoán, với đòn bẩy lên tới 5x. Sản phẩm này đánh dấu một bước tiến trong việc mở rộng cơ sở hạ tầng phái sinh tiền mã hóa sang các tài sản ngoài chuỗi, cung cấp cho các nhà giao dịch một cách tiếp cận thay thế để có thể tiếp xúc với các công ty tư nhân vốn thường khó tiếp cận. Tuy nhiên, hợp đồng tiền IPO có những rủi ro đặc thù. Khác với các hợp đồng vĩnh viễn cho tiền mã hóa có giá cả minh bạch, định giá công ty tư nhân phụ thuộc vào nhiều yếu tố như các vòng gọi vốn, giao dịch thứ cấp và kỳ vọng về thời điểm IPO. Điều này khiến việc định giá và quản lý rủi ro trở nên phức tạp hơn. Việc sử dụng đòn bẩy cao có thể khuếch đại lợi nhuận nhưng cũng làm gia tăng đáng kể rủi ro thua lỗ và thanh lý. Do đó, các nhà giao dịch cần hiểu rõ bản chất của sản phẩm mới và các rủi ro độc đáo của thị trường tư nhân trước khi tham gia.

bitcoinist10 giờ trước

Kraken Ra Mắt Hợp Đồng Perpetual Trước IPO Cho OpenAI Và Anthropic Với Đòn Bẩy Lên Đến 5x

bitcoinist10 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua AR

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Arweave (AR) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Arweave (AR) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Arweave (AR) của BạnSau khi mua Arweave (AR), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Arweave (AR)Giao dịch Arweave (AR) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 608Xuất bản vào 2024.12.11Cập nhật vào 2026.06.02

Làm thế nào để Mua AR

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của AR (AR) được trình bày dưới đây.

活动图片