Explorando la AGI del mundo físico con "razonamiento visual": ElorianAI recauda 55 millones de dólares

marsbit發佈於 2026-04-23更新於 2026-04-23

文章摘要

Aloritmo de Inteligencia Artificial ElorianAI recauda 55 millones de dólares para desarrollar modelos de razonamiento visual avanzado. Fundada por exinvestigadores de Google y Apple, la startup busca superar las limitaciones de los modelos multimodales actuales, que convierten inputs visuales en texto antes de procesarlos, lo que dificulta tareas de razonamiento espacial y físico. El equipo, liderado por Andrew Dai y Yinfei Yang, propone un nuevo paradigma arquitectónico que permite a la IA "pensar" nativamente en espacio visual, sin depender de intermediarios lingüísticos. Su objetivo es alcanzar un nivel de razonamiento visual adulto (frente al actual nivel infantil de modelos como Gemini) y avanzar hacia una AGI capaz de interactuar con el mundo físico. Las aplicaciones potenciales incluyen robótica autónoma en entornos complejos, gestión de desastres mediante análisis de imágenes satelitales o interpretación de planos de ingeniería. ElorianAI planea lanzar su primer modelo de referencia en 2026.

Por | Alpha Comunidad

La capacidad de los grandes modelos de IA ya supera a la de los humanos promedio en ciertos aspectos, como la programación y las matemáticas. Según informes, Anthropic ha logrado casi un 100% de programación con IA internamente, y Gemini Deep Think de Google resolvió 5 de los 6 problemas de la IMO 2025, alcanzando un nivel de medalla de oro.

Sin embargo, en cuanto al razonamiento visual, incluso el avanzado Gemini 3 Pro solo alcanzó el nivel de un niño de 3 años en BabyVision, un benchmark que evalúa capacidades básicas de razonamiento visual.

¿Por qué los grandes modelos son fuertes en programación y matemáticas, pero débiles en razonamiento visual? Esto se debe a las limitaciones en su "forma de pensar". Los modelos de lenguaje visual (VLM) necesitan convertir primero la entrada visual en lenguaje y luego realizar un razonamiento basado en texto. Pero muchas tareas visuales simplemente no pueden describirse con precisión mediante palabras, lo que resulta en una pobre capacidad de razonamiento visual del modelo.

Andrew Dai, quien trabajó 14 años en Google DeepMind, se unió al experto en IA de Apple, Yinfei Yang, para fundar una empresa llamada Elorian AI. Su objetivo es elevar la capacidad de razonamiento visual del modelo de "nivel infantil" a "nivel adulto", dotándolo de la capacidad de pensar de forma nativa en el "espacio visual" y así impulsar hacia la AGI del mundo físico.

Elorian AI ha recaudado 55 millones de dólares en una ronda inicial de financiación copilotada por Striker Venture Partners, Menlo Ventures y Altimeter, con la participación de 49 Palms y destacados científicos de IA, incluido Jeff Dean.

Pioneros en modelos multimodales buscan dotar de capacidad de razonamiento a los modelos visuales

Andrew Dai, de origen chino, es licenciado en Informática por Cambridge y doctor en Aprendizaje Automático por Edimburgo. Realizó prácticas en Google durante su doctorado y se unió a la empresa en 2012, permaneciendo allí durante 14 años hasta emprender.

Fuente de la imagen:Linkedin de Andrew Dai

Poco después de unirse a Google, coescribió con Quoc V. Le el primer artículo sobre el preentrenamiento de modelos de lenguaje y el ajuste fino supervisado, "Semi-supervised Sequence Learning". Este artículo sentó las bases para el nacimiento de GPT. Otro artículo fundamental suyo es "Glam: Efficient scaling of language models with mixture-of-experts", que abrió el camino a la arquitectura MoE, ahora predominante.

Fuente de la imagen: Google

Durante su tiempo en Google, participó profundamente en casi todos los entrenamientos de grandes modelos, desde Palm hasta Gemini 1.5 y Gemini 2.5. Bajo la dirección de Jeff Dean, en 2023 comenzó a liderar el área de datos de Gemini (incluidos los datos sintéticos), equipo que luego creció hasta contar con cientos de personas.

Fuente de la imagen:Linkedin de Yinfei Yang

El cofundador de Elorian AI es Yinfei Yang, quien trabajó durante cuatro años en Google Research, centrándose en el aprendizaje de representaciones multimodales, y luego se unió a Apple, donde dirigió la investigación y desarrollo de modelos multimodales.

Fuente de la imagen:arxiv

Su investigación representativa, "Scaling up visual and vision-language representation learning with noisy text supervision", impulsó el desarrollo del aprendizaje de representaciones multimodales.

El otro cofundador de Elorian AI es Seth Neel, ex profesor asistente (AP) en la Universidad de Harvard y también experto en datos e IA.

¿Por qué es relevante mencionar qué artículos pioneros escribieron los cofundadores de Elorian AI? Porque lo que pretenden hacer no es una optimización a nivel de ingeniería, sino una actualización de paradigma desde la arquitectura subyacente: hacer que la IA evolucione de una comprensión inteligente basada en texto a una basada en lo visual.

La situación actual de los modelos de IA es que, aunque son excelentes en tareas basadas en texto, incluso los modelos multimodales más avanzados tropiezan en las tareas más básicas de grounding visual.

Por ejemplo, ¿cómo encajar una pieza perfectamente en un dispositivo mecánico para que funcione con mayor precisión y eficiencia? Este tipo de tareas espaciales y físicas son simples para un niño de primaria, pero muy difíciles para los modelos multimodales actuales.

La clave sigue estando en la biología. En el cerebro humano, la visión es el sustrato subyacente que sustenta muchos procesos de pensamiento. La capacidad humana para utilizar la visión y el razonamiento espacial es mucho más antigua que el razonamiento lógico-lingüístico.

Por ejemplo, enseñar a alguien a recorrer un laberinto con descripciones verbales puede resultar confuso, pero con un simple dibujo se entiende al instante.

Incluso un pájaro, aunque carece de lenguaje, puede reconocer y razonar sobre características geográficas through la visión para realizar migraciones globales de larga distancia. Esta es una señal poderosa de que la visión es probablemente la dirección correcta para avanzar verdaderamente en la capacidad de razonamiento de las máquinas.

Imaginemos entonces que, si desde el inicio de la construcción del modelo se intenta incorporar este instinto visual biológico en el ADN de la IA, construyendo un modelo multimodal nativo capaz de "comprender y procesar simultáneamente texto, imágenes, video y audio", se podrá dotar al modelo de capacidad de comprensión visual. Andrew Dai y su equipo quieren construir un "sinestésico" innato, enseñando a la máquina no solo a "ver" el mundo, sino a "entenderlo".

Para Andrew Dai y su equipo, la comprensión profunda del "mundo físico" real es la clave para lograr el próximo salto en la inteligencia de las máquinas y alcanzar finalmente la "IA General Visual (Visual AGI)".

Los VLM con razonamiento posterior no son el camino correcto hacia el razonamiento visual

No es que no haya habido equipos que quisieran hacer esto antes. De hecho, el equipo de Gemini en el que estaba Andrew Dai ya era uno de los más avanzados del mundo en multimodalidad. Pero los modelos multimodales tradicionales siguen siendo principalmente VLM (Modelos de Lenguaje Visual), cuya lógica se basa en un enfoque de "dos pasos": primero convertir la entrada visual en lenguaje y luego realizar un razonamiento basado en texto (a veces auxiliándose de herramientas externas).

Sin embargo, el razonamiento posterior tiene limitaciones inherentes: por un lado, es propenso a generar alucinaciones en el modelo, y por otro, muchas tareas visuales simplemente no se pueden describir con precisión mediante texto.

Además, los modelos de generación visual como NanoBanana son excelentes en generación multimodal, pero la capacidad de generación no equivale a la capacidad de razonamiento. Su "pensamiento" previo a la generación depende esencialmente de modelos de lenguaje, no de una capacidad de razonamiento nativa.

Para desarrollar modelos que realmente puedan discernir las complejidades espaciales, estructurales y relacionales del mundo visual, es imperativo realizar innovaciones disruptivas en la tecnología subyacente.

Entonces, ¿cómo innovar? Los fundadores de Elorian AI, con años de experiencia en el campo multimodal, proponen: fusionar profundamente el entrenamiento multimodal con una nueva arquitectura diseñada específicamente para el razonamiento multimodal. Abandonan el enfoque tradicional de tratar las imágenes como entradas estáticas y en su lugar entrenan al modelo para que interactúe y opere directamente con las representaciones visuales, analizando de forma autónoma su estructura, relaciones y restricciones físicas.

Por supuesto, otro elemento central son los datos, cruciales para el rendimiento y el éxito de estos modelos.

Andrew Dai señaló que dan mucha importancia a la calidad de los datos, la proporción de la mezcla de datos, la fuente de los datos y su diversidad, y que han innovado a nivel de la capa de datos, reconstruyendo la cadena de razonamiento en el espacio visual y utilizando datos sintéticos de forma masiva y profunda.

Estos esfuerzos combinados darán lugar a nuevos sistemas de IA que transiten de la simple "percepción" visual a un "razonamiento" visual de alto nivel.

Este sistema de IA podría ser un modelo base de razonamiento visual: es decir, construir un modelo altamente general pero extremadamente competente en un conjunto específico de capacidades, que es el razonamiento visual.

Al ser un modelo base general, su campo de aplicación debería ser amplio.

En primer lugar, en el campo de la robótica, podría convertirse en el sistema nervioso central subyacente de potentes sistemas, dotándolos de capacidad para operar autónomamente en diversos entornos desconocidos.

Por ejemplo, enviar un robot a manejar una falla de seguridad repentina en un entorno peligroso. Esto requiere que el robot tome decisiones instantáneas rápidas y precisas. Si el robot carece de un modelo base con capacidad de razonamiento profundo, no nos atreveríamos a dejar que presione botones o opere palancas a ciegas. Pero si tuviera una capacidad de razonamiento extremadamente fuerte, podría pensar: "Antes de operar este panel, quizás debería jalar primero esta palanca para activar el mecanismo de seguridad".

Además, en la gestión de desastres, un modelo con razonamiento visual podría analizar imágenes satelitales para monitorear y prevenir incendios forestales; en ingeniería, podría comprender con precisión planos visuales complejos y diagramas de sistemas. La importancia de esta capacidad radica en que las reglas de funcionamiento del mundo físico son fundamentalmente diferentes a las del mundo del código puro; no se puede diseñar el ala de un avión simplemente escribiendo unas líneas de código.

Sin embargo, por ahora, el modelo y las capacidades de Elorian AI permanecen solo sobre el papel. Planean lanzar en 2026 un modelo que alcance un nivel SOTA (state-of-the-art) en el campo del razonamiento visual. Entonces podremos comprobar si sus resultados se ajustan a lo anunciado.

Cuando la IA tenga realmente capacidad de "razonamiento visual", ¿cómo cambiará el mundo físico?

Para que la IA comprenda e influya en el mundo físico real, la tecnología ha iterado varias veces.

Desde el reconocimiento de imágenes en la era de la CV tradicional, pasando por los modelos de generación de imágenes/modelos multimodales de la IA generativa, hasta los modelos mundiales (world models), la comprensión del mundo físico no ha dejado de mejorar.

Y es muy probable que los modelos base de razonamiento visual vayan un paso más allá, porque al poder realizar un razonamiento visual, la IA podrá comprender el mundo físico más profundamente, logrando así un nivel superior de inteligencia artificial.

Imaginen que, cuando modelos con una comprensión profunda y una operación precisa alimenten la industria de la inteligencia embodada (embodied AI) y la de hardware de IA, se expandirá enormemente su rango de aplicaciones. Por ejemplo, los robots podrán realizar tareas de producción industrial o de cuidado médico más confiables; el hardware de IA, especialmente los dispositivos wearables, se convertirán en asistentes personales más inteligentes.

No obstante, en la base de estas tecnologías siguen estando los datos. Como mencionó anteriormente Andrew Dai, la calidad de los datos, la proporción de la mezcla, la fuente y la diversidad determinan el rendimiento del modelo.

En el campo de la IA física, las empresas chinas, tanto a nivel de modelos como de datos, están más cerca del liderazgo mundial en comparación con los grandes modelos de texto. Si pueden aprovechar la ventaja de contar con datos y escenarios de aplicación más abundantes para acelerar la velocidad de iteración, entonces, ya sea en inteligencia embodada o hardware de IA, ya sea aplicada en industria, medicina o hogares, tendrán una mayor oportunidad de alcanzar un nivel líder y, por supuesto, de dar lugar a empresas de clase mundial.

你可能也喜歡

Arthur Hayes 大量出售以太坊及两种山寨币！

BitMEX联合创始人Arthur Hayes近期进行了一系列加密货币交易操作。据报道，他在过去两周以平均1916美元的价格场外购入了3298枚以太坊（ETH），但在以太坊价格下跌近3%后，将2364枚ETH转移至与Cumberland和Galaxy Digital相关的地址。随后，他的钱包收到了430万枚USDC，分析表明这些ETH很可能已被出售。若以此价格计算，此次出售预计造成约22万美元的亏损。此外，链上数据显示Hayes还出售了价值65.8万美元的SYN和价值24.8万美元的ENA。而由他创立的加密货币交易所BitMEX近期已宣布将永久关闭。 *本文不构成投资建议。

cryptonews.ru1 小時前

cryptonews.ru1 小時前

高盛：7 月砸穿拥挤交易，美股牛市没断但更难做了

高盛对冲基金业务负责人Tony Pasquariello指出，7月美股市场经历了一次针对“拥挤交易”的仓位清算，而非指数层面的崩盘。标普500指数整体波动有限，但底层热门交易（如AI概念股、高动量科技股、韩国股票等）经历了剧烈波动和显著去杠杆。这表现为全球科技敞口出现五年多来最大规模卖出，以及杠杆ETF规模锐减。市场的核心矛盾从叙事转向实际回报，投资者开始质疑巨额AI资本开支能否带来清晰、可持续的收益。微软和亚马逊的财报部分缓解了担忧，但AI相关公司的走势已出现分化。尽管美股牛市基础仍在（经济稳健、盈利增长、AI资本开支巨大），但风险回报已不便宜，上行弹性减弱。美联储沟通趋于模糊，长端利率波动也给股市，尤其是成长股，带来压力。总结而言，牛市格局未变，但市场已进入一个波动加大、操作更难的阶段。7月的市场提醒投资者：过度拥挤和过高杠杆的交易将面临剧烈清洗。

marsbit2 小時前

marsbit2 小時前

一周代币解锁：IOTA、AERO、HYPE有少量解锁

本周代币解锁涉及IOTA、AERO及HYPE等项目，释放量相对较少。其中，高性能区块链Hyperliquid将解锁43万枚代币，价值约2256万美元。该项目致力于构建一个完全链上的开放式金融系统，旨在整合流动性、用户应用与交易活动于统一平台，以支持各类金融业务。其代币释放曲线已通过图表展示。

marsbit2 小時前

marsbit2 小時前

备受期待的加密货币法案《清晰法案》处于关键阶段：白宫将在本周末进行审议

美国《清晰法案》（CLARITY Act）的立法进程正处于关键阶段，其未来可能取决于特朗普政府对一项跨党派道德提案的回应。该法案旨在明确美国证交会（SEC）和商品期货交易委员会（CFTC）对加密资产的监管权限，并建立全面的市场框架。目前，白宫正审议由共和党参议员汤姆·蒂利斯和民主党参议员鲁本·加列戈提出的一项反提案。该提案授权州总检察长在司法部未能执行道德与利益冲突规则时，对联邦官员提起诉讼，以回应民主党人对由特朗普政府领导的司法部独立性的担忧。若本周末各方能就道德条款达成一致，参议院可能对《清晰法案》进行投票，但法案仍需获得60票才能通过程序性表决。此前，参议院银行委员会已以15比9的票数通过了该法案。法案内容还包括稳定币收益规则的折衷方案：限制纯粹因持有代币而产生的类利息支付，但允许与交易、支付、忠诚度计划或平台使用相关的奖励。此举旨在平衡银行对存款外流的担忧与加密公司维持奖励计划的需求。若道德条款谈判失败，《清晰法案》在参议院的推进可能再次受阻，稳定币奖励监管的不确定性也将持续。

cryptonews.ru3 小時前

cryptonews.ru3 小時前

访谈Robinhood高管：Meme+代币化美股系"杠铃"获客策略，各业务线均实现亿级收入

Robinhood Chain主网上线三周，周DEX交易量突破30亿美元，交易笔数超1.05亿，TVL超3亿美元。其战略核心是“杠铃”策略，一端通过无许可生态接纳Meme代币吸引活跃用户，另一端通过代币化股票等现实世界资产（RWA）服务全球用户，两者并行扩展用户群。 Robinhood计划将其2700万入金账户逐步引入链上，通过简化DeFi产品（如Robinhood Earn）的体验，实现“CeFi与DeFi融合”，让用户无需管理钱包即可获得链上收益。技术上选择基于Arbitrum技术栈构建L2，看重其安全性、EVM兼容性、高速度和低费用。公司淡化与Base等链的竞争，强调目标是“做大蛋糕”，让全球更多人接触链上资产。合作方选择注重合规、独特体验和差异化。商业模式上，Robinhood正从券商向涵盖股票、期权、加密、信用卡、银行服务的“超级应用”演进，各业务线均已实现亿级收入。链当前阶段优先优化采用率，而非最大化收入。

marsbit4 小時前

访谈Robinhood高管：Meme+代币化美股系"杠铃"获客策略，各业务线均实现亿级收入

marsbit4 小時前

交易

現貨

Explorando la AGI del mundo físico con "razonamiento visual": ElorianAI recauda 55 millones de dólares

文章摘要

Pioneros en modelos multimodales buscan dotar de capacidad de razonamiento a los modelos visuales

Los VLM con razonamiento posterior no son el camino correcto hacia el razonamiento visual

Cuando la IA tenga realmente capacidad de "razonamiento visual", ¿cómo cambiará el mundo físico?

熱門幣種推薦

相關問答

你可能也喜歡

Arthur Hayes 大量出售以太坊及两种山寨币！

高盛：7 月砸穿拥挤交易，美股牛市没断但更难做了

一周代币解锁：IOTA、AERO、HYPE有少量解锁

备受期待的加密货币法案《清晰法案》处于关键阶段：白宫将在本周末进行审议

访谈Robinhood高管：Meme+代币化美股系"杠铃"获客策略，各业务线均实现亿级收入

交易

熱門文章

如何購買AR

相關討論

熱門問答

熱門分類

熱門標籤