Автор | Alpha Gongshe
Возможности больших моделей ИИ в некоторых аспектах уже превзошли способности обычных людей, например, в программировании и математике. По сообщениям, в Anthropic почти полностью перешли на программирование с помощью ИИ, а Gemini Deep Think от Google решила 5 из 6 задач на IMO 2025, достигнув уровня золотой медали.
Однако в области визуального мышления даже передовая модель Gemini 3 Pro на тесте BabyVision, оценивающем базовые способности к визуальному мышлению, показала уровень лишь трехлетнего ребенка.
Почему же большие модели сильны в программировании и математике, но слабы в визуальном мышлении? Это связано с ограничениями их «способа мышления». Визуально-языковым моделям (VLM) необходимо сначала преобразовать визуальный ввод в язык, а затем проводить текстовые рассуждения. Однако многие визуальные задачи просто невозможно точно описать словами, что и приводит к слабым способностям моделей к визуальному мышлению.
Эндрю Дай, проработавший 14 лет в Google DeepMind, объединился с опытным специалистом по ИИ из Apple, Инфей Яном, и основал компанию под названием Elorian AI. Их цель — повысить способности моделей к визуальному мышлению с «детского» до «взрослого» уровня, наделить модели способностью изначально мыслить в «визуальном пространстве» и таким образом достичь AGI в физическом мире.
Elorian AI привлекла 55 миллионов долларов раннего финансирования при совместном лидерстве Striker Venture Partners, Menlo Ventures и Altimeter. В инвестициях также участвовали 49 Palms и ведущие ученые в области ИИ, включая Джеффа Дина.
Пионеры многомодальных моделей хотят наделить визуальные модели способностью к рассуждению
Эндрю Дай, китаец по происхождению, окончил бакалавриат по информатике в Кембридже, получил докторскую степень по машинному обучению в Эдинбурге. Во время учебы в докторантуре он проходил стажировку в Google, а в 2012 году присоединился к компании, где проработал 14 лет, пока не основал свой startup.
Источник изображения: linkedin Эндрю Дая
Вскоре после прихода в Google он вместе с Куок В. Ле написал первую статью о предварительном обучении языковых моделей и контролируемом тонком обучении «Semi-supervised Sequence Learning». Эта статья заложила основу для появления GPT. Его другая основополагающая статья — «Glam: Efficient scaling of language models with mixture-of-experts», которая проложила путь к нынешней популярной архитектуре MoE.
Во время работы в Google он также глубоко участвовал в обучении почти всех больших моделей, от Palm до Gemini1.5 и Gemini2.5. По распоряжению Джеффа Дина в 2023 году он начал руководить направлением данных Gemini (включая синтетические данные), и впоследствии размер его команды вырос до сотен человек.
Совместно с Эндрю Даем основал компанию Инфей Ян, который ранее четыре года проработал в Google Research,专注于多模态表示学习 (фокусируясь на многомодальном обучении представлений), а затем перешел в Apple, где отвечал за разработку многомодальных моделей.
Его representative research work «Scaling up visual and vision-language representation learning with noisy text supervision» (Масштабирование обучения визуальных и визуально-языковых представлений с зашумленным текстовым supervision) способствовало развитию многомодального обучения представлений.
В соучредители Elorian AI также входит Seth Neel, бывший AP (assistant professor) в Гарвардском университете и эксперт в области данных и ИИ.
Почему важно обсуждать, какие pioneering papers написали соучредители Elorian AI? Потому что их задача — не оптимизация на инженерном уровне, а смена парадигмы на уровне фундаментальной архитектуры, чтобы перевести ИИ с текстового интеллектуального понимания на визуальное.
Текущее состояние моделей ИИ таково, что, несмотря на excellent performance в текстовых задачах, даже самые передовые многомодальные большие модели спотыкаются на самых basic задачах визуального grounding (визуального заземления).
Например, как точно установить деталь в механическое устройство, чтобы оно работало точнее и эффективнее? Подобные пространственно-физические задачи просты даже для школьника, но очень сложны для существующих многомодальных больших моделей.
Ответ нужно искать в биологии. В человеческом мозге зрение является основой, underlying substrate для многих мыслительных процессов. Способность человека использовать visual and spatial reasoning существует гораздо дольше, чем логическое reasoning на основе языка.
Например, чтобы объяснить кому-то, как пройти лабиринт, verbal description может запутать, а нарисованная схема позволит понять instantly.
Более того, даже птица, не обладая речью, способна с помощью зрения распознавать и анализировать geographical features для осуществления глобальной миграции. Это яркий сигнал о том, что для реального продвижения reasoning abilities машин, vision, вероятно, является правильным направлением развития.
Итак, представьте, если с самого начала построения модели попытаться заложить эту biological visual instinct в гены ИИ, создав native multimodal model, способную «одновременно понимать и обрабатывать текст, изображения, видео и аудио», то модель обретет visual understanding. Эндрю Дай и его команда хотят построить прирожденного «синэстета», научив машину не только «видеть» мир, но и «понимать» его.
По мнению Эндрю Дая и его команды, глубокое познание реального «физического мира» является ключом к достижению следующего скачка в машинном интеллекте и, в конечном итоге, к достижению «визуального универсального искусственного интеллекта (Visual AGI)».
VLM с отложенным reasoning — неверный путь к визуальному мышлению
Не то чтобы раньше команды не пытались это сделать; на самом деле, предыдущая команда Gemini, в которой работал Эндрю Дай, уже была одной из самых передовых в мире в области multimodality. Но традиционные многомодальные модели по-прежнему в основном являются VLM (визуально-языковыми моделями), их логика построена на основе «двухэтапного подхода»: сначала визуальный ввод преобразуется в язык, а затем проводится текстовое reasoning (иногда с辅助调用 внешних инструментов).
Однако отложенное reasoning по своей сути имеет limitations: с одной стороны, оно легко вызывает model hallucinations, с другой — многие визуальные задачи根本无法用文字进行精确描述 (просто невозможно точно описать словами).
Кроме того, visual generation модели, такие как NanoBanana, превосходны в multimodal generation, но generative capabilities и reasoning abilities не равны; их «мышление» перед генерацией по-прежнему relies on language models, а не на native reasoning ability.
Чтобы разработать модели, способные真正洞察 (по-настоящему понять)空间、结构及关系复杂性 (пространственную, структурную и реляционную сложность) визуального мира, необходимо disruptive innovation на уровне базовых технологий.
So, как innovровать? Несколько основателей Elorian AI多年浸淫 (много лет погружены) в область multimodality. Их подход заключается в: глубоком слиянии multimodal training с全新的架构 (совершенно новой архитектурой), специально разработанной для multimodal reasoning. Они отказываются от традиционного подхода, treating images as static input, и instead训练模型 (обучают модели) напрямую взаимодействовать и манипулировать视觉表征 (визуальными representations), чтобы автономно анализировать其中的结构、关系与物理约束 (присутствующие в них структуры, отношения и физические ограничения).
Конечно,另一个核心要素 (другой ключевой элемент) — это data, которая является решающим фактором performance и успеха этих моделей.
Эндрю Дай отметил, что они уделяют большое внимание data quality, data mixing ratio, data sources и data diversity, а также провели innovation на уровне данных,重构推理链路 (reconstructed the reasoning chain) в визуальном пространстве и массово и глубоко используют synthetic data.
Все эти усилия together催生出 (породят)全新的AI系统 (совершенно новые AI-системы), способные перейти от простого визуального «восприятия» к高阶视觉“推理 ” (высокоуровневому визуальному «рассуждению»).
Эта AI-система может быть foundational model для visual reasoning: то есть построение высокоуниверсальной модели, но с exceptionally excellent performance в определенном наборе capabilities — именно в visual reasoning.
Поскольку это универсальная базовая модель, ее область применения должна быть广泛 (широкой).
Во-первых, в робототехнике она может стать мощной底层神经中枢 (низкоуровневой neural中枢) для систем,赋予其 (наделяя их) способностью к автономной работе в различных незнакомых средах.
Например, в робототехнике: отправка робота для устранения внезапной неисправности безопасности в опасной среде. Это требует от робота быстрого и точного мгновенного принятия решений. Если у робота нет foundational model с глубокими reasoning abilities,人们不会敢 (люди не осмелятся) позволить ему blindly нажимать кнопки или управлять рычагами. А если он будет обладать极强的推理能力 (extremely strong reasoning ability), он сможет подумать: «Прежде чем操作这个面板 (управлять этой панелью),也许我应该 (возможно, мне следует)先拉下这根拉杆 (сначала потянуть этот рычаг),激活安全防护机制 (чтобы активировать механизм safety protection)».
Кроме того, в области управления стихийными бедствиями, модели с visual reasoning могут анализировать спутниковые снимки для мониторинга и предотвращения лесных пожаров; в инженерии они могут точно看懂 (точно понимать) сложные визуальные чертежи, системные схемы. Значение этой способности заключается в том, что законы функционирования физического мира fundamentally differ от мира чистого кода,你不能仅仅靠敲几行纯代码就设计出一架飞机的机翼 (нельзя просто написать несколько строк чистого кода, чтобы спроектировать крыло самолета).
Однако目前 (в настоящее время) модели и возможности Elorian AI暂时还停留在纸面上 (все еще остаются на бумаге). Они планируют выпустить в 2026 году модель, достигшую уровня SOTA в области visual reasoning, и тогда можно будет проверить, соответствуют ли их заявленные результаты действительности.
Когда ИИ真正具备 (по-настоящему обретет) способность к «визуальному мышлению», как он изменит физический мир?
Чтобы ИИ мог понимать и влиять на реальный физический мир, технологии итеративно обновлялись несколько раз.
От распознавания изображений в эпоху traditional CV, до generative AI — models генерации изображений/многомодальных моделей, и до world models, — понимание физического мира постоянно усиливалось.
А foundational models для visual reasoning,很有可能更进一步 (вполне могут пойти еще дальше), потому что, обладая способностью к visual reasoning, ИИ сможет глубже понять物理世界 (физический мир), достигнув thus более высокого уровня machine intelligence.
Представьте, когда модели с глубоким пониманием и тонкими操作 (операциями) «зарядят» индустрию embodied intelligence и индустрию AI hardware, это значительно расширит их сферы применения. Например, роботы смогут выполнять более надежное промышленное производство или работать в сфере медицинского ухода; AI hardware, особенно носимые устройства, станут более умными personal assistants.
Однако в основе этих технологий по-прежнему лежат data. Как ранее отметил Эндрю Дай, data quality, data mixing ratio, data sources и data diversity определяют performance модели.
В области Physical AI китайские компании,无论是на уровне моделей还是 данных (как на уровне моделей, так и на уровне данных), по сравнению с текстовыми большими моделями, находятся ближе к мировому лидерству. Если удастся воспользоваться преимуществами более богатых данных и сценариев применения для ускорения итераций, то无论是в embodied intelligence,还是AI hardware (будь то воплощенный интеллект или AI-аппаратное обеспечение),应用在工业,医疗,还是家庭 (применяемые в промышленности, здравоохранении или в быту),都有更大的机会达到领先水平 (имеют больше шансов достичь лидирующих позиций), и, конечно,也有机会跑出世界级的企业 (также есть шанс создать мировые компании).










