Explorando la AGI del mundo físico con "razonamiento visual": ElorianAI recauda 55 millones de dólares

marsbit发布于2026-04-23更新于2026-04-23

文章摘要

Aloritmo de Inteligencia Artificial ElorianAI recauda 55 millones de dólares para desarrollar modelos de razonamiento visual avanzado. Fundada por exinvestigadores de Google y Apple, la startup busca superar las limitaciones de los modelos multimodales actuales, que convierten inputs visuales en texto antes de procesarlos, lo que dificulta tareas de razonamiento espacial y físico. El equipo, liderado por Andrew Dai y Yinfei Yang, propone un nuevo paradigma arquitectónico que permite a la IA "pensar" nativamente en espacio visual, sin depender de intermediarios lingüísticos. Su objetivo es alcanzar un nivel de razonamiento visual adulto (frente al actual nivel infantil de modelos como Gemini) y avanzar hacia una AGI capaz de interactuar con el mundo físico. Las aplicaciones potenciales incluyen robótica autónoma en entornos complejos, gestión de desastres mediante análisis de imágenes satelitales o interpretación de planos de ingeniería. ElorianAI planea lanzar su primer modelo de referencia en 2026.

Por | Alpha Comunidad

La capacidad de los grandes modelos de IA ya supera a la de los humanos promedio en ciertos aspectos, como la programación y las matemáticas. Según informes, Anthropic ha logrado casi un 100% de programación con IA internamente, y Gemini Deep Think de Google resolvió 5 de los 6 problemas de la IMO 2025, alcanzando un nivel de medalla de oro.

Sin embargo, en cuanto al razonamiento visual, incluso el avanzado Gemini 3 Pro solo alcanzó el nivel de un niño de 3 años en BabyVision, un benchmark que evalúa capacidades básicas de razonamiento visual.

¿Por qué los grandes modelos son fuertes en programación y matemáticas, pero débiles en razonamiento visual? Esto se debe a las limitaciones en su "forma de pensar". Los modelos de lenguaje visual (VLM) necesitan convertir primero la entrada visual en lenguaje y luego realizar un razonamiento basado en texto. Pero muchas tareas visuales simplemente no pueden describirse con precisión mediante palabras, lo que resulta en una pobre capacidad de razonamiento visual del modelo.

Andrew Dai, quien trabajó 14 años en Google DeepMind, se unió al experto en IA de Apple, Yinfei Yang, para fundar una empresa llamada Elorian AI. Su objetivo es elevar la capacidad de razonamiento visual del modelo de "nivel infantil" a "nivel adulto", dotándolo de la capacidad de pensar de forma nativa en el "espacio visual" y así impulsar hacia la AGI del mundo físico.

Elorian AI ha recaudado 55 millones de dólares en una ronda inicial de financiación copilotada por Striker Venture Partners, Menlo Ventures y Altimeter, con la participación de 49 Palms y destacados científicos de IA, incluido Jeff Dean.

Pioneros en modelos multimodales buscan dotar de capacidad de razonamiento a los modelos visuales

Andrew Dai, de origen chino, es licenciado en Informática por Cambridge y doctor en Aprendizaje Automático por Edimburgo. Realizó prácticas en Google durante su doctorado y se unió a la empresa en 2012, permaneciendo allí durante 14 años hasta emprender.


Fuente de la imagen:Linkedin de Andrew Dai

Poco después de unirse a Google, coescribió con Quoc V. Le el primer artículo sobre el preentrenamiento de modelos de lenguaje y el ajuste fino supervisado, "Semi-supervised Sequence Learning". Este artículo sentó las bases para el nacimiento de GPT. Otro artículo fundamental suyo es "Glam: Efficient scaling of language models with mixture-of-experts", que abrió el camino a la arquitectura MoE, ahora predominante.

Fuente de la imagen: Google

Durante su tiempo en Google, participó profundamente en casi todos los entrenamientos de grandes modelos, desde Palm hasta Gemini 1.5 y Gemini 2.5. Bajo la dirección de Jeff Dean, en 2023 comenzó a liderar el área de datos de Gemini (incluidos los datos sintéticos), equipo que luego creció hasta contar con cientos de personas.

Fuente de la imagen:Linkedin de Yinfei Yang

El cofundador de Elorian AI es Yinfei Yang, quien trabajó durante cuatro años en Google Research, centrándose en el aprendizaje de representaciones multimodales, y luego se unió a Apple, donde dirigió la investigación y desarrollo de modelos multimodales.

Fuente de la imagen:arxiv

Su investigación representativa, "Scaling up visual and vision-language representation learning with noisy text supervision", impulsó el desarrollo del aprendizaje de representaciones multimodales.

El otro cofundador de Elorian AI es Seth Neel, ex profesor asistente (AP) en la Universidad de Harvard y también experto en datos e IA.

¿Por qué es relevante mencionar qué artículos pioneros escribieron los cofundadores de Elorian AI? Porque lo que pretenden hacer no es una optimización a nivel de ingeniería, sino una actualización de paradigma desde la arquitectura subyacente: hacer que la IA evolucione de una comprensión inteligente basada en texto a una basada en lo visual.

La situación actual de los modelos de IA es que, aunque son excelentes en tareas basadas en texto, incluso los modelos multimodales más avanzados tropiezan en las tareas más básicas de grounding visual.

Por ejemplo, ¿cómo encajar una pieza perfectamente en un dispositivo mecánico para que funcione con mayor precisión y eficiencia? Este tipo de tareas espaciales y físicas son simples para un niño de primaria, pero muy difíciles para los modelos multimodales actuales.

La clave sigue estando en la biología. En el cerebro humano, la visión es el sustrato subyacente que sustenta muchos procesos de pensamiento. La capacidad humana para utilizar la visión y el razonamiento espacial es mucho más antigua que el razonamiento lógico-lingüístico.

Por ejemplo, enseñar a alguien a recorrer un laberinto con descripciones verbales puede resultar confuso, pero con un simple dibujo se entiende al instante.

Incluso un pájaro, aunque carece de lenguaje, puede reconocer y razonar sobre características geográficas through la visión para realizar migraciones globales de larga distancia. Esta es una señal poderosa de que la visión es probablemente la dirección correcta para avanzar verdaderamente en la capacidad de razonamiento de las máquinas.

Imaginemos entonces que, si desde el inicio de la construcción del modelo se intenta incorporar este instinto visual biológico en el ADN de la IA, construyendo un modelo multimodal nativo capaz de "comprender y procesar simultáneamente texto, imágenes, video y audio", se podrá dotar al modelo de capacidad de comprensión visual. Andrew Dai y su equipo quieren construir un "sinestésico" innato, enseñando a la máquina no solo a "ver" el mundo, sino a "entenderlo".

Para Andrew Dai y su equipo, la comprensión profunda del "mundo físico" real es la clave para lograr el próximo salto en la inteligencia de las máquinas y alcanzar finalmente la "IA General Visual (Visual AGI)".

Los VLM con razonamiento posterior no son el camino correcto hacia el razonamiento visual

No es que no haya habido equipos que quisieran hacer esto antes. De hecho, el equipo de Gemini en el que estaba Andrew Dai ya era uno de los más avanzados del mundo en multimodalidad. Pero los modelos multimodales tradicionales siguen siendo principalmente VLM (Modelos de Lenguaje Visual), cuya lógica se basa en un enfoque de "dos pasos": primero convertir la entrada visual en lenguaje y luego realizar un razonamiento basado en texto (a veces auxiliándose de herramientas externas).

Sin embargo, el razonamiento posterior tiene limitaciones inherentes: por un lado, es propenso a generar alucinaciones en el modelo, y por otro, muchas tareas visuales simplemente no se pueden describir con precisión mediante texto.

Además, los modelos de generación visual como NanoBanana son excelentes en generación multimodal, pero la capacidad de generación no equivale a la capacidad de razonamiento. Su "pensamiento" previo a la generación depende esencialmente de modelos de lenguaje, no de una capacidad de razonamiento nativa.

Para desarrollar modelos que realmente puedan discernir las complejidades espaciales, estructurales y relacionales del mundo visual, es imperativo realizar innovaciones disruptivas en la tecnología subyacente.

Entonces, ¿cómo innovar? Los fundadores de Elorian AI, con años de experiencia en el campo multimodal, proponen: fusionar profundamente el entrenamiento multimodal con una nueva arquitectura diseñada específicamente para el razonamiento multimodal. Abandonan el enfoque tradicional de tratar las imágenes como entradas estáticas y en su lugar entrenan al modelo para que interactúe y opere directamente con las representaciones visuales, analizando de forma autónoma su estructura, relaciones y restricciones físicas.

Por supuesto, otro elemento central son los datos, cruciales para el rendimiento y el éxito de estos modelos.

Andrew Dai señaló que dan mucha importancia a la calidad de los datos, la proporción de la mezcla de datos, la fuente de los datos y su diversidad, y que han innovado a nivel de la capa de datos, reconstruyendo la cadena de razonamiento en el espacio visual y utilizando datos sintéticos de forma masiva y profunda.

Estos esfuerzos combinados darán lugar a nuevos sistemas de IA que transiten de la simple "percepción" visual a un "razonamiento" visual de alto nivel.

Este sistema de IA podría ser un modelo base de razonamiento visual: es decir, construir un modelo altamente general pero extremadamente competente en un conjunto específico de capacidades, que es el razonamiento visual.

Al ser un modelo base general, su campo de aplicación debería ser amplio.

En primer lugar, en el campo de la robótica, podría convertirse en el sistema nervioso central subyacente de potentes sistemas, dotándolos de capacidad para operar autónomamente en diversos entornos desconocidos.

Por ejemplo, enviar un robot a manejar una falla de seguridad repentina en un entorno peligroso. Esto requiere que el robot tome decisiones instantáneas rápidas y precisas. Si el robot carece de un modelo base con capacidad de razonamiento profundo, no nos atreveríamos a dejar que presione botones o opere palancas a ciegas. Pero si tuviera una capacidad de razonamiento extremadamente fuerte, podría pensar: "Antes de operar este panel, quizás debería jalar primero esta palanca para activar el mecanismo de seguridad".

Además, en la gestión de desastres, un modelo con razonamiento visual podría analizar imágenes satelitales para monitorear y prevenir incendios forestales; en ingeniería, podría comprender con precisión planos visuales complejos y diagramas de sistemas. La importancia de esta capacidad radica en que las reglas de funcionamiento del mundo físico son fundamentalmente diferentes a las del mundo del código puro; no se puede diseñar el ala de un avión simplemente escribiendo unas líneas de código.

Sin embargo, por ahora, el modelo y las capacidades de Elorian AI permanecen solo sobre el papel. Planean lanzar en 2026 un modelo que alcance un nivel SOTA (state-of-the-art) en el campo del razonamiento visual. Entonces podremos comprobar si sus resultados se ajustan a lo anunciado.

Cuando la IA tenga realmente capacidad de "razonamiento visual", ¿cómo cambiará el mundo físico?

Para que la IA comprenda e influya en el mundo físico real, la tecnología ha iterado varias veces.

Desde el reconocimiento de imágenes en la era de la CV tradicional, pasando por los modelos de generación de imágenes/modelos multimodales de la IA generativa, hasta los modelos mundiales (world models), la comprensión del mundo físico no ha dejado de mejorar.

Y es muy probable que los modelos base de razonamiento visual vayan un paso más allá, porque al poder realizar un razonamiento visual, la IA podrá comprender el mundo físico más profundamente, logrando así un nivel superior de inteligencia artificial.

Imaginen que, cuando modelos con una comprensión profunda y una operación precisa alimenten la industria de la inteligencia embodada (embodied AI) y la de hardware de IA, se expandirá enormemente su rango de aplicaciones. Por ejemplo, los robots podrán realizar tareas de producción industrial o de cuidado médico más confiables; el hardware de IA, especialmente los dispositivos wearables, se convertirán en asistentes personales más inteligentes.

No obstante, en la base de estas tecnologías siguen estando los datos. Como mencionó anteriormente Andrew Dai, la calidad de los datos, la proporción de la mezcla, la fuente y la diversidad determinan el rendimiento del modelo.

En el campo de la IA física, las empresas chinas, tanto a nivel de modelos como de datos, están más cerca del liderazgo mundial en comparación con los grandes modelos de texto. Si pueden aprovechar la ventaja de contar con datos y escenarios de aplicación más abundantes para acelerar la velocidad de iteración, entonces, ya sea en inteligencia embodada o hardware de IA, ya sea aplicada en industria, medicina o hogares, tendrán una mayor oportunidad de alcanzar un nivel líder y, por supuesto, de dar lugar a empresas de clase mundial.

相关问答

Q¿Qué es Elorian AI y cuál es su objetivo principal?

AElorian AI es una empresa fundada por Andrew Dai y Yinfei Yang que busca mejorar la capacidad de razonamiento visual de los modelos de IA, elevándola de un nivel 'infantil' a uno 'adulto', y desarrollar modelos que puedan 'pensar' de forma nativa en el espacio visual para avanzar hacia una IA general (AGI) en el mundo físico.

Q¿Por qué los modelos multimodales actuales tienen dificultades con el razonamiento visual?

APorque utilizan un enfoque de dos pasos: primero convierten la entrada visual en lenguaje y luego realizan el razonamiento basado en texto. Muchas tareas visuales no pueden describirse con precisión con palabras, lo que limita su capacidad de razonamiento visual.

Q¿Quiénes son los fundadores de Elorian AI y qué experiencia previa tienen?

ALos fundadores son Andrew Dai, exinvestigador de Google DeepMind durante 14 años y experto en modelos de lenguaje, y Yinfei Yang, exinvestigador de Google y Apple especializado en aprendizaje de representaciones multimodales. También incluye a Seth Neel, ex profesor asistente de Harvard y experto en datos e IA.

Q¿Cómo planea Elorian AI abordar las limitaciones actuales del razonamiento visual en IA?

APlanean fusionar el entrenamiento multimodal con una nueva arquitectura diseñada para el razonamiento multimodal, entrenando modelos para interactuar y manipular representaciones visuales directamente, y utilizando datos sintéticos a gran escala para reconstruir la cadena de razonamiento en el espacio visual.

Q¿Qué aplicaciones prácticas podría tener un modelo con capacidad avanzada de razonamiento visual?

APodría aplicarse en robótica para operar en entornos desconocidos, gestión de desastres mediante análisis de imágenes satelitales, ingeniería para interpretar planos visuales complejos, y en dispositivos portátiles de IA para asistentes personales más inteligentes.

你可能也喜欢

比特币矿场变AI数据中心:Sangha的“卖身”抉择

2025年12月,Spencer Marr在美国德州为名为Genesis的比特币矿场剪彩。这座规模19.9兆瓦的矿场采用“表后直供”模式,直接从相邻的太阳能农场获取低价电力,实现了低至约32美元/兆瓦时的运营成本,使其在比特币行情下行时仍能盈利。 然而,通电仅半年后的2026年6月,Marr的公司Sangha便通过投行放出消息,考虑出售、合资或引入战略伙伴。其根本原因并非经营不善,而是AI算力需求爆发带来了新的估值逻辑。对于亟需电力与数据中心资源的AI公司而言,Genesis这样一个已通电、有扩容潜力(规划至110.4兆瓦)且电力接入手续齐全的站点,价值远超过其作为矿场的本身。 Sangha的商业模式是项目制,通过设立特殊目的载体(SPV)吸引投资。如今,他们计划在估值高点出售这份“电力资产”,这比自行扩建为AI数据中心更为划算。其推介重点也已从比特币挖矿转向AI计算、高性能计算等多元场景。 这一转变并非个例,Core Scientific等上市矿企也已纷纷转向AI/HPC业务。Sangha的案例凸显了一个趋势:在AI的巨大需求下,拥有稳定、低价电力资源的比特币矿场基础设施,正成为被争抢的稀缺资产。矿工们面临的抉择是:是坚守挖矿,还是将阵地拱手让给AI,换取丰厚的资本回报。

marsbit16分钟前

比特币矿场变AI数据中心:Sangha的“卖身”抉择

marsbit16分钟前

历史底部信号再现?估值3亿的Messari以1000万贱卖

加密数据平台Messari曾估值3亿美元,近期以约1000万美元被竞争对手Blockworks收购,标志其八年创业历程结束。该公司衰落部分源于AI技术冲击——传统需耗时数周的研究报告如今可借AI工具快速生成,导致其核心业务价值锐减。 Messari的处境并非个例。2025年至2026年间,加密行业众多不发币、依赖产品服务营收的公司陷入困境:数据平台DappRadar、Parsec相继关停,CoinGecko寻求出售;媒体CoinDesk、Bankless大幅裁员或低价被购;链上数据公司Dune也进行了裁员。行业收缩浪潮明显。 风险投资(VC)领域同样遇冷。加密基金数量减半,新基金募资额骤降至峰值期的12%,投资额在半年内暴跌超80%。资本与人才大量流向AI领域,连Multicoin Capital等知名加密基金创始人也转向AI。有投资人形容当前环境为“大灭绝”。 然而,极端悲观信号集聚或暗示底部临近。比特币自高点跌近50%,恐慌贪婪指数长期处于“极度恐惧”区间;比特币长期持有者占比逼近80%,历史上类似情况常对应市场底部。VC交易活跃度回落至2020年水平,而当时正是新一轮牛市前夜。部分机构如Dragonfly Capital已逆势募资,Blockworks也正低价整合行业资产。历史显示,当多个底部信号共振后,往往孕育着下一轮周期起点。

marsbit1小时前

历史底部信号再现?估值3亿的Messari以1000万贱卖

marsbit1小时前

谷歌TPU出货量,上修50%

近期,多家海外机构上调了谷歌TPU的出货预期,将2027年需求预测从1000万颗上修至1500万颗,增幅达50%。这一变化扭转了市场对算力硬件的保守看法,并带动整条配套产业链需求同步提升。 谷歌TPU采用标准化全光互联架构,硬件配套关系固定。其中,NPO光引擎与TPU芯片按1:1匹配,光模块、OCS光交换、服务器电源、光纤及液冷等环节的需求均随芯片规模增长而确定增加。 液冷成为核心受益方向。因新一代TPU功耗大幅提升,风冷已达物理极限,谷歌集群已全面转向液冷方案。预计2026年为放量元年,下半年开始大规模交付。同时,海外厂商面临技术迭代慢、产能不足的瓶颈,为国产液冷厂商让出替代窗口。凭借快速迭代和稳定交付能力,国内企业正切入谷歌供应链,行业迎来“业绩提速+格局洗牌”的双击行情。预计伴随TPU出货量从2027年的1500万颗增长至2028年的3000-3500万颗,专属液冷市场规模将从千亿级突破至3000亿级。 光纤赛道逻辑亦被重塑。AI算力中心建设催生海量光纤需求,但光纤预制棒扩产周期长,导致供需缺口持续扩大。全球云厂商为锁定货源纷纷签订长期协议,使光纤价格与出货趋稳,摆脱周期性波动。国产光纤凭借产能与成本优势,预计2026年出口量将达2-3亿芯公里,占据全球AIDC需求的半壁江山。 此外,1.6T光模块、OCS光交换、服务器电源等配套环节均将受益于TPU放量,需求持续扩容。投资重心正从芯片算力博弈转向基础设施配套的确定性增量,产业链未来两年业绩确定性进一步增强。

marsbit2小时前

谷歌TPU出货量,上修50%

marsbit2小时前

交易

现货
合约

热门文章

如何购买AR

欢迎来到HTX.com!我们已经让购买Arweave(AR)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Arweave(AR)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Arweave(AR)购买完您的Arweave(AR)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Arweave(AR)在HTX的现货市场轻松交易Arweave(AR)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

1.5k人学过发布于 2024.03.29更新于 2026.06.02

如何购买AR

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对AR(AR)币价的意见。

活动图片