Исследуя AGI физического мира с помощью «визуального мышления»: ElorianAI привлекает 55 миллионов долларов финансирования

marsbitОпубликовано 2026-04-23Обновлено 2026-04-23

Введение

Новая компания ElorianAI, основанная бывшими сотрудниками Google и Apple Эндрю Дай и Иньфэй Яном, привлекла $55 млн на разработку модели искусственного интеллекта с продвинутыми возможностями визуального мышления. В отличие от современных мультимодальных моделей (например, Gemini), которые преобразуют изображения в текст для анализа, ElorianAI создает архитектуру, способную напрямую оперировать визуальными представлениями — аналогично тому, как человеческий мозг обрабатывает пространственную информацию. Цель — достичь уровня «взрослого» в визуальном мышлении вместо нынешнего «детского» (по тестам вроде BabyVision). Ключевые инновации включают глубокое использование синтетических данных и переосмысление процесса обучения с акцентом на физические ограничения и пространственные связи. Ожидается, что такая модель сможет применяться в робототехнике (например, для работы в опасных средах), инженерии, медицине и управлении чрезвычайными ситуациями. Запуск первой модели запланирован на 2026 год.

Автор | Alpha Gongshe

Возможности больших моделей ИИ в некоторых аспектах уже превзошли способности обычных людей, например, в программировании и математике. По сообщениям, в Anthropic почти полностью перешли на программирование с помощью ИИ, а Gemini Deep Think от Google решила 5 из 6 задач на IMO 2025, достигнув уровня золотой медали.

Однако в области визуального мышления даже передовая модель Gemini 3 Pro на тесте BabyVision, оценивающем базовые способности к визуальному мышлению, показала уровень лишь трехлетнего ребенка.

Почему же большие модели сильны в программировании и математике, но слабы в визуальном мышлении? Это связано с ограничениями их «способа мышления». Визуально-языковым моделям (VLM) необходимо сначала преобразовать визуальный ввод в язык, а затем проводить текстовые рассуждения. Однако многие визуальные задачи просто невозможно точно описать словами, что и приводит к слабым способностям моделей к визуальному мышлению.

Эндрю Дай, проработавший 14 лет в Google DeepMind, объединился с опытным специалистом по ИИ из Apple, Инфей Яном, и основал компанию под названием Elorian AI. Их цель — повысить способности моделей к визуальному мышлению с «детского» до «взрослого» уровня, наделить модели способностью изначально мыслить в «визуальном пространстве» и таким образом достичь AGI в физическом мире.

Elorian AI привлекла 55 миллионов долларов раннего финансирования при совместном лидерстве Striker Venture Partners, Menlo Ventures и Altimeter. В инвестициях также участвовали 49 Palms и ведущие ученые в области ИИ, включая Джеффа Дина.

Пионеры многомодальных моделей хотят наделить визуальные модели способностью к рассуждению

Эндрю Дай, китаец по происхождению, окончил бакалавриат по информатике в Кембридже, получил докторскую степень по машинному обучению в Эдинбурге. Во время учебы в докторантуре он проходил стажировку в Google, а в 2012 году присоединился к компании, где проработал 14 лет, пока не основал свой startup.

Источник изображения: linkedin Эндрю Дая

Вскоре после прихода в Google он вместе с Куок В. Ле написал первую статью о предварительном обучении языковых моделей и контролируемом тонком обучении «Semi-supervised Sequence Learning». Эта статья заложила основу для появления GPT. Его другая основополагающая статья — «Glam: Efficient scaling of language models with mixture-of-experts», которая проложила путь к нынешней популярной архитектуре MoE.

Источник изображения: Google

Во время работы в Google он также глубоко участвовал в обучении почти всех больших моделей, от Palm до Gemini1.5 и Gemini2.5. По распоряжению Джеффа Дина в 2023 году он начал руководить направлением данных Gemini (включая синтетические данные), и впоследствии размер его команды вырос до сотен человек.

Источник изображения: linkedin Инфея Яна

Совместно с Эндрю Даем основал компанию Инфей Ян, который ранее четыре года проработал в Google Research,专注于多模态表示学习 (фокусируясь на многомодальном обучении представлений), а затем перешел в Apple, где отвечал за разработку многомодальных моделей.

Источник изображения: arxiv

Его representative research work «Scaling up visual and vision-language representation learning with noisy text supervision» (Масштабирование обучения визуальных и визуально-языковых представлений с зашумленным текстовым supervision) способствовало развитию многомодального обучения представлений.

В соучредители Elorian AI также входит Seth Neel, бывший AP (assistant professor) в Гарвардском университете и эксперт в области данных и ИИ.

Почему важно обсуждать, какие pioneering papers написали соучредители Elorian AI? Потому что их задача — не оптимизация на инженерном уровне, а смена парадигмы на уровне фундаментальной архитектуры, чтобы перевести ИИ с текстового интеллектуального понимания на визуальное.

Текущее состояние моделей ИИ таково, что, несмотря на excellent performance в текстовых задачах, даже самые передовые многомодальные большие модели спотыкаются на самых basic задачах визуального grounding (визуального заземления).

Например, как точно установить деталь в механическое устройство, чтобы оно работало точнее и эффективнее? Подобные пространственно-физические задачи просты даже для школьника, но очень сложны для существующих многомодальных больших моделей.

Ответ нужно искать в биологии. В человеческом мозге зрение является основой, underlying substrate для многих мыслительных процессов. Способность человека использовать visual and spatial reasoning существует гораздо дольше, чем логическое reasoning на основе языка.

Например, чтобы объяснить кому-то, как пройти лабиринт, verbal description может запутать, а нарисованная схема позволит понять instantly.

Более того, даже птица, не обладая речью, способна с помощью зрения распознавать и анализировать geographical features для осуществления глобальной миграции. Это яркий сигнал о том, что для реального продвижения reasoning abilities машин, vision, вероятно, является правильным направлением развития.

Итак, представьте, если с самого начала построения модели попытаться заложить эту biological visual instinct в гены ИИ, создав native multimodal model, способную «одновременно понимать и обрабатывать текст, изображения, видео и аудио», то модель обретет visual understanding. Эндрю Дай и его команда хотят построить прирожденного «синэстета», научив машину не только «видеть» мир, но и «понимать» его.

По мнению Эндрю Дая и его команды, глубокое познание реального «физического мира» является ключом к достижению следующего скачка в машинном интеллекте и, в конечном итоге, к достижению «визуального универсального искусственного интеллекта (Visual AGI)».

VLM с отложенным reasoning — неверный путь к визуальному мышлению

Не то чтобы раньше команды не пытались это сделать; на самом деле, предыдущая команда Gemini, в которой работал Эндрю Дай, уже была одной из самых передовых в мире в области multimodality. Но традиционные многомодальные модели по-прежнему в основном являются VLM (визуально-языковыми моделями), их логика построена на основе «двухэтапного подхода»: сначала визуальный ввод преобразуется в язык, а затем проводится текстовое reasoning (иногда с辅助调用 внешних инструментов).

Однако отложенное reasoning по своей сути имеет limitations: с одной стороны, оно легко вызывает model hallucinations, с другой — многие визуальные задачи根本无法用文字进行精确描述 (просто невозможно точно описать словами).

Кроме того, visual generation модели, такие как NanoBanana, превосходны в multimodal generation, но generative capabilities и reasoning abilities не равны; их «мышление» перед генерацией по-прежнему relies on language models, а не на native reasoning ability.

Чтобы разработать модели, способные真正洞察 (по-настоящему понять)空间、结构及关系复杂性 (пространственную, структурную и реляционную сложность) визуального мира, необходимо disruptive innovation на уровне базовых технологий.

So, как innovровать? Несколько основателей Elorian AI多年浸淫 (много лет погружены) в область multimodality. Их подход заключается в: глубоком слиянии multimodal training с全新的架构 (совершенно новой архитектурой), специально разработанной для multimodal reasoning. Они отказываются от традиционного подхода, treating images as static input, и instead训练模型 (обучают модели) напрямую взаимодействовать и манипулировать视觉表征 (визуальными representations), чтобы автономно анализировать其中的结构、关系与物理约束 (присутствующие в них структуры, отношения и физические ограничения).

Конечно,另一个核心要素 (другой ключевой элемент) — это data, которая является решающим фактором performance и успеха этих моделей.

Эндрю Дай отметил, что они уделяют большое внимание data quality, data mixing ratio, data sources и data diversity, а также провели innovation на уровне данных,重构推理链路 (reconstructed the reasoning chain) в визуальном пространстве и массово и глубоко используют synthetic data.

Все эти усилия together催生出 (породят)全新的AI系统 (совершенно новые AI-системы), способные перейти от простого визуального «восприятия» к高阶视觉“推理 ” (высокоуровневому визуальному «рассуждению»).

Эта AI-система может быть foundational model для visual reasoning: то есть построение высокоуниверсальной модели, но с exceptionally excellent performance в определенном наборе capabilities — именно в visual reasoning.

Поскольку это универсальная базовая модель, ее область применения должна быть广泛 (широкой).

Во-первых, в робототехнике она может стать мощной底层神经中枢 (низкоуровневой neural中枢) для систем,赋予其 (наделяя их) способностью к автономной работе в различных незнакомых средах.

Например, в робототехнике: отправка робота для устранения внезапной неисправности безопасности в опасной среде. Это требует от робота быстрого и точного мгновенного принятия решений. Если у робота нет foundational model с глубокими reasoning abilities,人们不会敢 (люди не осмелятся) позволить ему blindly нажимать кнопки или управлять рычагами. А если он будет обладать极强的推理能力 (extremely strong reasoning ability), он сможет подумать: «Прежде чем操作这个面板 (управлять этой панелью),也许我应该 (возможно, мне следует)先拉下这根拉杆 (сначала потянуть этот рычаг),激活安全防护机制 (чтобы активировать механизм safety protection)».

Кроме того, в области управления стихийными бедствиями, модели с visual reasoning могут анализировать спутниковые снимки для мониторинга и предотвращения лесных пожаров; в инженерии они могут точно看懂 (точно понимать) сложные визуальные чертежи, системные схемы. Значение этой способности заключается в том, что законы функционирования физического мира fundamentally differ от мира чистого кода,你不能仅仅靠敲几行纯代码就设计出一架飞机的机翼 (нельзя просто написать несколько строк чистого кода, чтобы спроектировать крыло самолета).

Однако目前 (в настоящее время) модели и возможности Elorian AI暂时还停留在纸面上 (все еще остаются на бумаге). Они планируют выпустить в 2026 году модель, достигшую уровня SOTA в области visual reasoning, и тогда можно будет проверить, соответствуют ли их заявленные результаты действительности.

Когда ИИ真正具备 (по-настоящему обретет) способность к «визуальному мышлению», как он изменит физический мир?

Чтобы ИИ мог понимать и влиять на реальный физический мир, технологии итеративно обновлялись несколько раз.

От распознавания изображений в эпоху traditional CV, до generative AI — models генерации изображений/многомодальных моделей, и до world models, — понимание физического мира постоянно усиливалось.

А foundational models для visual reasoning,很有可能更进一步 (вполне могут пойти еще дальше), потому что, обладая способностью к visual reasoning, ИИ сможет глубже понять物理世界 (физический мир), достигнув thus более высокого уровня machine intelligence.

Представьте, когда модели с глубоким пониманием и тонкими操作 (операциями) «зарядят» индустрию embodied intelligence и индустрию AI hardware, это значительно расширит их сферы применения. Например, роботы смогут выполнять более надежное промышленное производство или работать в сфере медицинского ухода; AI hardware, особенно носимые устройства, станут более умными personal assistants.

Однако в основе этих технологий по-прежнему лежат data. Как ранее отметил Эндрю Дай, data quality, data mixing ratio, data sources и data diversity определяют performance модели.

В области Physical AI китайские компании,无论是на уровне моделей还是 данных (как на уровне моделей, так и на уровне данных), по сравнению с текстовыми большими моделями, находятся ближе к мировому лидерству. Если удастся воспользоваться преимуществами более богатых данных и сценариев применения для ускорения итераций, то无论是в embodied intelligence,还是AI hardware (будь то воплощенный интеллект или AI-аппаратное обеспечение),应用在工业，医疗，还是家庭 (применяемые в промышленности, здравоохранении или в быту),都有更大的机会达到领先水平 (имеют больше шансов достичь лидирующих позиций), и, конечно,也有机会跑出世界级的企业 (также есть шанс создать мировые компании).

Трендовые криптовалюты

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

ZRX（0X）ZRX

Связанные с этим вопросы

QЧто такое Elorian AI и какова её основная цель?

AElorian AI — это компания, основанная Эндрю Дай и Йинфей Янг, которая разрабатывает модели искусственного интеллекта с фокусом на визуальное мышление. Их цель — повысить способность ИИ к визуальному рассуждению с «детского уровня» до «взрослого уровня» и создать модели, способные к нативному мышлению в визуальном пространстве, что приблизит создание AGI для физического мира.

QПочему современные мультимодальные модели слабы в визуальном рассуждении?

AСовременные визуально-языковые модели (VLM) сначала преобразуют визуальные данные в текст, а затем проводят текстовые рассуждения. Однако многие визуальные задачи невозможно точно описать словами, что ограничивает их способности к визуальному рассуждению и приводит к ошибкам, таким как галлюцинации моделей.

QКаковы ключевые инновации Elorian AI в области визуального ИИ?

AElorian AI использует глубокую интеграцию мультимодального обучения с новой архитектурой, предназначенной для визуального рассуждения. Они обучают модели напрямую взаимодействовать с визуальными представлениями, анализировать структуры, отношения и физические ограничения, а также активно используют синтетические данные и инновации в обработке данных.

QВ каких областях может применяться технология визуального рассуждения?

AТехнология визуального рассуждения может применяться в робототехнике (для автономной работы в незнакомых средах), управлении катастрофами (анализ спутниковых изображений для предотвращения пожаров), инженерии (интерпретация сложных чертежей) и в AI-аппаратуре, такой как носимые устройства, для улучшения их функциональности.

QКто инвестировал в Elorian AI и какова сумма финансирования?

AElorian AI привлекла 55 миллионов долларов США в рамках раннего раунда финансирования. Инвесторами выступили Striker Venture Partners, Menlo Ventures и Altimeter, а также 49 Palms и ведущие учёные в области ИИ, включая Джеффа Дина.

Похожее

Падение STRC Strategy демонстрирует риски, скрывающиеся за кредитными продуктами, связанными с Bitcoin

Стратегия STRC демонстрирует риски кредитных продуктов, связанных с биткоином. Привилегированные акции Strategy (STRC) упали значительно ниже номинала в $100, достигнув минимума в $82.53, что высветило уязвимость таких инструментов. Гендиректор Strive Мэтт Коул объяснил это сбросом левериджа, а не дефолтом эмитента, подчеркнув роль вынужденной продажи при маржинальном давлении. Этот эпизод показывает, как кредитные продукты, привязанные к биткоин-казначейским стратегиям, могут подвергаться резким распродажам из-за рычагов, даже если базовая компания устойчива. История предупреждает об усложнении финансовых инструментов вокруг биткоина и их чувствительности к ликвидности и волатильности. Ключевой вывод: спад STRC — это урок о рисках левериджа, а не о кредитоспособности Strategy.

bitcoinist6 ч. назад

Падение STRC Strategy демонстрирует риски, скрывающиеся за кредитными продуктами, связанными с Bitcoin

bitcoinist6 ч. назад

Высокий суд Австралии одержал крупную победу для ASIC в деле о криптодоходности Block Earner

Высший суд Австралии единогласно поддержал позицию Комиссии по ценным бумагам и инвестициям (ASIC) в деле против компании Block Earner. Суд постановил, что её продукт "Earner" с фиксированной доходностью, предлагавшийся в 2022 году, является финансовым продуктом и деривативом по существующему законодательству. Это означает, что для его предложения требовалась лицензия на предоставление финансовых услуг (AFSL). Дело возвращено в Федеральный суд для определения штрафных санкций. Данное решение создаёт важный прецедент, проясняя применение традиционного финансового регулирования к криптовалютным продуктам, предлагающим структурированную доходность. Оно подтверждает, что экономическая сущность продукта важнее его названия. Регуляторы теперь имеют чёткие правовые основания рассматривать подобные продукты как инвестиционные инструменты, требующие лицензирования. Хотя оспариваемый продукт более не предлагается, это решение затрагивает многие существующие и планируемые криптопродукты в Австралии и отражает глобальный тренд на подчинение крипто-доходных продуктов установленным регуляторным режимам. Для индустрии это означает необходимость переоценки соответствия продуктов законодательству, а для потребителей — напоминание о рисках, связанных с нелицензированными доходными продуктами.

bitcoinist9 ч. назад

Высокий суд Австралии одержал крупную победу для ASIC в деле о криптодоходности Block Earner

bitcoinist9 ч. назад

Blockchain.com расширяет доступ к токенизированным акциям через Ondo Finance

Блокчейн-кошелек Blockchain.com расширяет доступ к токенизированным акциям и ETF США через интеграцию с Ondo Finance. Партнерство позволяет соответствующим критериям пользователям, особенно за пределами США, получать доступ к традиционным финансовым активам напрямую через привычный криптокошелек, минуя традиционные брокерские платформы. Ondo Finance, известный игрок на рынке токенизированных реальных активов (RWA), обеспечивает технологическую и регуляторную основу для этих активов. Эта интеграция является частью общей тенденции, когда криптоплатформы стремятся сделать токенизированные традиционные активы такими же простыми в использовании, как и обычные криптотокены. Однако широкому внедрению все еще могут препятствовать вопросы регулирования, хранения активов и их выкупа.

bitcoinist11 ч. назад

Blockchain.com расширяет доступ к токенизированным акциям через Ondo Finance

bitcoinist11 ч. назад

CPU возвращается за игровой стол: начинается «игра на повышение» стоимостью 170 миллиардов долларов

6 июня 2026 года на выставке Computex NVIDIA анонсировала свой первый процессор Vera CPU, что знаменует серьезный вход компании на рынок серверных процессоров. Это событие подчеркивает растущую ключевую роль CPU в эпоху ИИ-агентов, когда задачи, связанные с выводом (инференсом) и управлением, требуют все большей вычислительной мощности и эффективности процессоров. Рынок серверных процессоров переживает бум. Прогнозы, такие как отчет UBS, предполагают, что его объем может вырасти с примерно 300 млрд долларов в 2025 году до 1700 млрд долларов к 2030 году. Основной драйвер роста — ИИ-агенты, которые выполняют сложные многошаговые задачи, требующие интенсивной работы CPU для управления потоками данных, вызова инструментов и обработки контекста. В таких сценариях нагрузка на CPU может достигать 70-90%, а соотношение CPU к GPU в системах стремится к 1:1, в отличие от 1:8 в эпоху обучения моделей. Это привело к изменению спроса и даже к росту цен на серверные CPU впервые за более чем десятилетие. AMD и Intel столкнулись с дефицитом мощностей. Спрос разделился на высокопроизводительные CPU для работы внутри стоек с GPU и более умеренные, но массовые CPU для развертывания независимых узлов агентов. Новая конкурентная динамика привлекла новых игроков, таких как NVIDIA с ее ARM-архитектурой, и открыла возможности для китайских производителей CPU, таких как Hygon (HaiGuang). Их рост поддерживается как общим рыночным бумом, так и политикой импортозамещения (программа «синьчуан»), требующей замены иностранного оборудования в государственном секторе к 2027 году. Таким образом, в центре следующего этапа развития ИИ находится не только GPU, но и эффективное взаимодействие CPU и GPU, что переопределяет ландшафт полупроводниковой индустрии.

marsbit11 ч. назад

CPU возвращается за игровой стол: начинается «игра на повышение» стоимостью 170 миллиардов долларов

marsbit11 ч. назад

Технологический поток Разведуправления: Директор по ИИ AMD публично раскритиковал Claude Code, заявив, что он «стал глупее и ленивее», Трамп заявил о полном прекращении огня в Ормузском проливе, но в проливе осталось около 80 морских мин

Эксклюзив Wired: SK Telecom, стратегический партнер Anthropic, находится под проверкой экспортного контроля США из-за возможного трансфера технологий модели Mythos. GLM-5.2 от китайской Z.AI: модель, по заявлениям, близкая по производительности к Claude Opus, полностью обходится без чипов Nvidia. В сфере чипов: MIT создает собственную ОС для изучения работы процессоров; ASML опровергает заявления США о поставках передовых EUV-установок в Китай; Amazon планирует продавать свои AI-чипы Trainium/Inferentia сторонним компаниям. Безопасность: обнаружено 10 тыс. репозиториев на GitHub, распространяющих вредоносное ПО; Apple исправила критическую уязвимость прослушки в Beats Studio Buds. На рынке: акции полупроводниковых компаний резко выросли (Intel +10.6%, Micron +8.7%); SpaceX упала на 3.56%. Геополитика и экономика: Несмотря на заявление Трампа о перемирии, в главном фарватере Ормузского пролива остается около 80 необезвреженных мин, что удерживает 80 супертанкеров с 80 млн баррелей нефти. Иран отменил дипломатическую поездку в Швейцарию. Основной контекст: Временная "разрядка" в геополитике контрастирует с глубокой и долгосрочной реструктуризацией глобальных технологических и полупроводниковых цепочек, где независимость от доминирующих игроков становится ключевым трендом.

marsbit11 ч. назад

Технологический поток Разведуправления: Директор по ИИ AMD публично раскритиковал Claude Code, заявив, что он «стал глупее и ленивее», Трамп заявил о полном прекращении огня в Ормузском проливе, но в проливе осталось около 80 морских мин

marsbit11 ч. назад

Торговля

Спот

Фьючерсы

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на AR (AR) представлены ниже.

Исследуя AGI физического мира с помощью «визуального мышления»: ElorianAI привлекает 55 миллионов долларов финансирования

Введение

Пионеры многомодальных моделей хотят наделить визуальные модели способностью к рассуждению

VLM с отложенным reasoning — неверный путь к визуальному мышлению

Когда ИИ真正具备 (по-настоящему обретет) способность к «визуальному мышлению», как он изменит физический мир?

Трендовые криптовалюты

Связанные с этим вопросы

Похожее

Падение STRC Strategy демонстрирует риски, скрывающиеся за кредитными продуктами, связанными с Bitcoin

Высокий суд Австралии одержал крупную победу для ASIC в деле о криптодоходности Block Earner

Blockchain.com расширяет доступ к токенизированным акциям через Ondo Finance

CPU возвращается за игровой стол: начинается «игра на повышение» стоимостью 170 миллиардов долларов

Торговля

Популярные статьи

Как купить AR

Обсуждения

Топ вопросы

Популярные категории

Популярные теги