Explorer l'AGI du monde physique avec le "raisonnement visuel", ElorianAI lève 55 millions de dollars

marsbitPublicado a 2026-04-23Actualizado a 2026-04-23

Resumen

ElorianAI, cofondé par d'anciens experts de Google et Apple, a levé 55 millions de dollars pour développer une IA capable de raisonnement visuel natif. Contrairement aux modèles actuels qui convertissent les entrées visuelles en texte avant d’analyser, leur approche vise à permettre à l’IA de "penser" directement dans l’espace visuel, comme le fait le cerveau humain. L’objectif est de passer d’un niveau de raisonnement visuel équivalent à celui d’un enfant (actuellement limité, même avec des modèles comme Gemini) à un niveau adulte, pour atteindre une IA générale (AGI) capable de comprendre et d’interagir avec le monde physique. Les applications potentielles concernent la robotique, la gestion des catastrophes, l’ingénierie et les dispositifs IA portables. Un premier système performant est prévu pour 2026.

Article | Alpha Venture Partners

Les capacités des grands modèles d'IA dépassent déjà celles des humains ordinaires dans certains domaines, comme la programmation et les mathématiques. Selon des informations, Anthropic utilise presque 100% de programmation IA en interne, et Gemini Deep Think de Google a résolu 5 des 6 problèmes de l'IMO 2025, atteignant un niveau médaille d'or.

Mais en raisonnement visuel, même le plus avancé, Gemini 3 Pro, n'atteint que le niveau d'un enfant de 3 ans sur BabyVision, un benchmark testant les capacités de raisonnement visuel de base.

Pourquoi les grands modèles sont-ils forts en programmation et en mathématiques mais faibles en raisonnement visuel ? C'est dû à une limite dans leur "façon de penser". Les modèles visio-linguistiques (VLM) doivent d'abord convertir les entrées visuelles en langage, puis effectuer un raisonnement basé sur le texte. Cependant, de nombreuses tâches visuelles ne peuvent tout simplement pas être décrites avec précision par des mots, ce qui entraîne de médiocres capacités de raisonnement visuel des modèles.

Andrew Dai, ayant travaillé 14 ans chez Google DeepMind, s'est associé à Yinfei Yang, expert en IA expérimenté d'Apple, pour fonder une société appelée Elorian AI. Leur objectif est de faire passer les capacités de raisonnement visuel des modèles du "niveau enfant" au "niveau adulte", et de doter les modèles d'une capacité de réflexion native dans l'"espace visuel", visant ainsi l'AGI du monde physique.

Elorian AI a levé 55 millions de dollars en financement early-stage co-dirigé par Striker Venture Partners, Menlo Ventures et Altimeter, avec la participation de 49 Palms et de scientifiques de l'IA de premier plan, dont Jeff Dean.

Des pionniers des modèles multimodaux veulent doter les modèles visuels de capacités de raisonnement

Andrew Dai, d'origine chinoise, est diplômé de premier cycle en informatique de Cambridge et titulaire d'un doctorat en apprentissage automatique d'Édimbourg. Il a effectué un stage chez Google pendant son doctorat et a rejoint l'entreprise en 2012 pour y rester 14 ans, jusqu'à sa création d'entreprise.

Source :Linkedin d'Andrew Dai

Peu après avoir rejoint Google, il a co-écrit avec Quoc V. Le le premier article sur l'apprentissage préalable des modèles linguistiques et le réglage fin supervisé, "Semi-supervised Sequence Learning". Cet article a jeté les bases de la naissance du GPT. Un autre article fondateur est "Glam: Efficient scaling of language models with mixture-of-experts", qui a ouvert la voie à l'architecture MoE désormais dominante.

Source : Google

Chez Google, il a également participé profondément à presque toutes les formations de grands modèles, de Palm à Gemini1.5 et Gemini2.5. Sur instruction de Jeff Dean, il a commencé en 2023 à diriger la section données de Gemini (y compris les données synthétiques), une équipe qui s'est ensuite étendue à des centaines de personnes.

Source :Linkedin deYinfei Yang

Le co-fondateur d'Elorian AI est Yinfei Yang, qui a travaillé quatre ans chez Google Research, se concentrant sur l'apprentissage de représentations multimodales, avant de rejoindre Apple pour diriger la R&D de modèles multimodaux.

Source :arxiv

Sa recherche représentative, "Scaling up visual and vision-language representation learning with noisy text supervision", a fait progresser l'apprentissage de représentations multimodales.

Les co-fondateurs d'Elorian AI incluent également Seth Neel, ancien professeur assistant (AP) à Harvard et expert en données et IA.

Pourquoi parler des articles fondateurs des co-fondateurs d'Elorian AI ? Parce que leur projet n'est pas une optimisation technique, mais une mise à jour de paradigme depuis l'architecture de base, visant à faire passer l'IA d'une compréhension intelligente basée sur le texte à une compréhension intelligente basée sur le visuel.

La situation actuelle des modèles d'IA est que, bien qu'excellents dans les tâches textuelles, même les modèles multimodaux de pointe les plus avancés trébuchent encore sur les tâches les plus basiques d'ancrage visuel (Visual grounding).

Par exemple, comment insérer une pièce précisément dans un mécanisme pour qu'il fonctionne de manière plus précise et plus efficace ? Ce type de tâche spatiale physique est simple même pour un écolier, mais très difficile pour les modèles multimodaux existants.

Il faut chercher des indices dans la biologie. Dans le cerveau humain, la vision est le substrat sous-jacent qui soutient de nombreux processus de pensée. La capacité humaine à utiliser la vision et le raisonnement spatial est bien plus ancienne que le raisonnement logique linguistique.

Par exemple, pour expliquer à quelqu'un comment traverser un labyrinthe, une description verbale embrouillerait, mais un croquis le ferait comprendre instantanément.

De même, même un oiseau, bien que sans langage, peut reconnaître et raisonner sur des caractéristiques géographiques grâce à la vision, permettant une migration mondiale à longue distance. C'est un signal fort indiquant que pour vraiment faire progresser les capacités de raisonnement des machines, la vision est probablement la bonne direction.

Alors, imaginez si, dès le début de la construction du modèle, on tentait d'inscrire cet instinct visuel biologique dans les gènes de l'IA, en construisant un modèle multimodal natif capable de "comprendre et traiter simultanément texte, images, vidéos et audio", on pourrait doter le modèle de capacités de compréhension visuelle. Andrew Dai et son équipe veulent construire un "synesthète" inné, apprendre à la machine non seulement à "voir" le monde, mais aussi à le "comprendre".

Pour Andrew Dai et son équipe, une compréhension profonde du "monde physique" réel est la clé pour réaliser le bond en avant de la prochaine génération d'intelligence machine et finalement atteindre l'"Intelligence Artificielle Générale Visuelle (Visual AGI)".

Les VLM à raisonnement postérieur ne sont pas la bonne voie vers le raisonnement visuel

Ce n'est pas que des équipes n'aient pas voulu faire cela auparavant. En fait, l'équipe Gemini d'Andrew Dai était déjà l'une des plus avancées au monde dans le domaine multimodal. Mais les modèles multimodaux traditionnels restent principalement des VLM (modèles visio-linguistiques), leur logique est basée sur une "démarche en deux étapes" : d'abord convertir l'entrée visuelle en langage, puis effectuer un raisonnement basé sur le texte (parfois en appelant des outils externes).

Cependant, le raisonnement postérieur est intrinsèquement limité. D'une part, il est sujet aux hallucinations du modèle, d'autre part, de nombreuses tâches visuelles ne peuvent tout simplement pas être décrites avec précision par des mots.

De plus, les modèles de génération visuelle comme NanoBanana sont excellents en génération multimodale, mais la capacité de génération n'est pas égale à la capacité de raisonnement. Leur "réflexion" avant la génération repose essentiellement sur un modèle linguistique, pas sur une capacité de raisonnement native.

Pour développer des modèles capables de vraiment discerner la complexité spatiale, structurelle et relationnelle du monde visuel, une innovation disruptive dans la technologie sous-jacente est nécessaire.

Alors, comment innover ? Les fondateurs d'Elorian AI, immergés depuis des années dans le domaine multimodal, proposent : fusionner profondément l'entraînement multimodal avec une nouvelle architecture conçue spécifiquement pour le raisonnement multimodal. Abandonner l'approche traditionnelle qui traite les images comme des entrées statiques, et plutôt entraîner le modèle à interagir directement et à manipuler les représentations visuelles (Visual representations) pour analyser de manière autonome leur structure, leurs relations et leurs contraintes physiques.

Bien sûr, un autre élément clé est la donnée, elle est cruciale pour déterminer les performances et le succès de ces modèles.

Andrew Dai indique qu'ils accordent une grande importance à la qualité des données, au mélange proportionnel des données, à leur source et à leur diversité, et qu'ils ont innové au niveau de la couche données, reconstruit la chaîne de raisonnement dans l'espace visuel, et utilisé massivement et profondément des données synthétiques.

Ces efforts combinés donneront naissance à de nouveaux systèmes d'IA capables de passer d'une simple "perception" visuelle à un "raisonnement" visuel de haut niveau.

Ce système d'IA pourrait être un modèle de base pour le raisonnement visuel : construire un modèle hautement générique mais extrêmement performant sur un ensemble spécifique de capacités, à savoir le raisonnement visuel.

Étant un modèle de base générique, son domaine d'application devrait être large.

D'abord, dans le domaine de la robotique, il pourrait devenir le système nerveux central sous-jacent de systèmes puissants, leur donnant la capacité d'opérer de manière autonome dans divers environnements inconnus.

Par exemple, envoyer un robot gérer une panne de sécurité soudaine dans un environnement dangereux. Cela nécessite une prise de décision instantanée rapide et précise. Si le robot manque d'un modèle de base avec de solides capacités de raisonnement, on n'oserait pas le laisser appuyer sur des boutons ou actionner des leviers au hasard. Mais s'il a de fortes capacités de raisonnement, il pourrait penser : "Avant de manipuler ce panneau, je devrais peut-être d'abord actionner ce levier pour activer le mécanisme de sécurité."

De plus, dans la gestion des catastrophes, un modèle avec raisonnement visuel pourrait analyser des images satellites pour surveiller et prévenir les feux de forêt ; dans l'ingénierie, il pourrait comprendre avec précision des plans visuels complexes, des schémas de système. L'importance de cette capacité réside dans le fait que les lois de fonctionnement du monde physique sont fondamentalement différentes de celles du monde purement code, on ne peut pas concevoir une aile d'avion juste en tapant quelques lignes de code pur.

Cependant, pour le moment, le modèle et les capacités d'Elorian AI restent sur le papier. Ils prévoient de publier en 2026 un modèle atteignant un niveau SOTA dans le domaine du raisonnement visuel. On pourra alors vérifier si leurs résultats correspondent aux annonces.

Quand l'IA aura vraiment des capacités de "raisonnement visuel", comment transformera-t-elle le monde physique ?

Pour que l'IA comprenne et influence le monde physique réel, la technologie a déjà itéré plusieurs fois.

De la reconnaissance d'images à l'ère du CV traditionnel, aux modèles de génération d'images / modèles multimodaux de l'IA générative, puis aux modèles mondiaux (world models), la compréhension du monde physique n'a cessé de s'améliorer.

Et les modèles de base pour le raisonnement visuel pourraient aller encore plus loin, car capables de raisonnement visuel, l'IA pourrait comprendre le monde physique plus profondément, réalisant ainsi un niveau supérieur d'intelligence machine.

Imaginez, lorsque des modèles dotés d'une compréhension profonde et d'opérations fines "rechargeront" l'industrie de l'intelligence incarnée et du matériel IA, cela élargira considérablement leur champ d'application. Par exemple, les robots pourraient effectuer une production industrielle plus fiable, ou intervenir dans le domaine des soins médicaux ; le matériel IA, en particulier les wearables, deviendrait des assistants personnels plus intelligents.

Cependant, à la base de ces technologies, il y a toujours les données. Comme l'a indiqué Andrew Dai précédemment, la qualité des données, leur mélange proportionnel, leur source et leur diversité déterminent les performances du modèle.

Dans le domaine de l'IA physique, les entreprises chinoises, que ce soit au niveau des modèles ou des données, sont plus proches de l'avant-garde mondiale comparé aux grands modèles textuels. Si elles peuvent profiter de leurs avantages en données et en richesse de scénarios d'application pour accélérer la vitesse d'itération, alors que ce soit pour l'intelligence incarnée ou le matériel IA, appliqués dans l'industrie, la médecine ou la maison, elles auront de plus grandes chances d'atteindre un niveau leader et pourront même faire émerger des entreprises de classe mondiale.

Criptos en tendencia

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

PancakeSwapCAKE

JUSTJST

Preguntas relacionadas

QQuel est l'objectif principal d'Elorian AI dans le domaine de l'intelligence artificielle?

AElorian AI vise à améliorer les capacités de raisonnement visuel des modèles d'IA, en les faisant passer d'un niveau 'enfantin' à un niveau 'adulte', et à développer une capacité de réflexion native dans l'espace visuel pour progresser vers une AGI du monde physique.

QPourquoi les modèles multimodaux actuels ont-ils des difficultés avec le raisonnement visuel selon l'article?

AParce qu'ils fonctionnent selon une approche en deux étapes : ils convertissent d'abord les entrées visuelles en langage, puis effectuent un raisonnement basé sur le texte. De nombreuses tâches visuelles ne peuvent pas être décrites avec précision par le texte, ce qui limite leurs capacités.

QQui sont les fondateurs d'Elorian AI et quelle est leur expérience?

ALes fondateurs sont Andrew Dai (ancien de Google DeepMind, 14 ans d'expérience), Yinfei Yang (expert en IA chez Apple et Google, spécialiste de l'apprentissage multimodal) et Seth Neel (ancien professeur assistant à Harvard, expert en données et IA).

QQuel est le montant et la source du financement obtenu par Elorian AI?

AElorian AI a levé 55 millions de dollars en financement early-stage, co-dirigé par Striker Venture Partners, Menlo Ventures et Altimeter, avec la participation de 49 Palms et de scientifiques de l'IA de premier plan comme Jeff Dean.

QQuels sont les domaines d'application potentiels mentionnés pour un modèle de raisonnement visuel avancé?

ALes applications incluent la robotique (systèmes autonomes), la gestion des catastrophes (analyse d'images satellites), l'ingénierie (compréhension de plans complexes) et les appareils IA portables (assistants personnels intelligents).

Lecturas Relacionadas

El momento de los 5 billones de dólares de Apple: los mejores resultados financieros y la IA más débil

Apple alcanzó un hito al superar los 5 billones de dólares en valor de mercado, respaldado por un excelente informe de ganancias del segundo trimestre de 2026. Los ingresos aumentaron un 16,4% interanual hasta los 109.417 millones de dólares, impulsados principalmente por el iPhone y el Mac. Sin embargo, las acciones cayeron tras la publicación de los resultados, reflejando la preocupación de los inversores por la débil narrativa de IA de la compañía en comparación con sus pares tecnológicos. Apple ha tenido dificultades para implementar su estrategia de IA. La tan esperada actualización de Siri, anunciada en 2024, se retrasó hasta 2026. Además, la compañía se ha asociado con Google para su modelo base en EE.UU. y con Alibaba y Baidu para su versión china de "Apple Intelligence", lo que muestra una dependencia externa en esta área crítica. La empresa enfrenta múltiples desafíos: mantener el crecimiento tras el fuerte ciclo del iPhone 17, la presión por el aumento de costes de componentes como la memoria, la creciente competencia de los "teléfonos AI" y el próximo relevo de Tim Cook por John Ternus como CEO en septiembre. Aunque la rentabilidad del hardware sigue siendo sólida, la capacidad de Apple para competir en la era de la IA sigue siendo una gran incógnita.

marsbitHace 29 min(s)

El momento de los 5 billones de dólares de Apple: los mejores resultados financieros y la IA más débil

marsbitHace 29 min(s)

La crisis de combustible en Rusia comienza a remitir: las regiones empiezan a eliminar los límites en las gasolineras

La crisis de combustible en Rusia comienza a remitir: las regiones empiezan a eliminar los límites en las gasolineras. El déficit de gasolina y diésel que llevó a más de 20 regiones a imponer restricciones a finales de junio de 2026 está disminuyendo. Entre el 28 y el 30 de julio, varias regiones anunciaron la eliminación o suavización de los límites. El krai de Zabaikalie canceló el sistema de códigos QR en las estaciones de servicio. La óblast de Omsk levantó por completo los límites de venta, que eran de 40 litros de gasolina y 80 de diésel por repostaje. La óblast de Sarátov aumentó el límite diario de gasolina para particulares de 30 a 40 litros. La óblast de Samara mantuvo sus límites (40 litros de gasolina, 100 de diésel) sin endurecerlos. La crisis comenzó tras ataques con drones ucranianos a infraestructura energética, como la refinería de Moscú, lo que interrumpió la logística. En el punto álgido, más de 20 regiones tenían límites. Las autoridades explicaron que las restricciones buscaban contener una demanda disparada entre un 20-30%. Un análisis de IA señala que aliviar los límites refleja una estabilización en la distribución, pero no resuelve la causa raíz: el daño a la capacidad de refinación. Los ataques inhabilitaron al menos el 17% de dicha capacidad rusa. Eliminar los límites mientras la presión sobre las refinerías continúa crea el riesgo de nuevas restricciones en otoño si las reparaciones no compensan a tiempo la pérdida de volumen para la temporada de calefacción.

cryptonews.ruHace 1 hora(s)

¡Cinco nuevas funciones importantes llegarán a XRP! Lo anuncia un representante de Ripple

Ripple anuncia la incorporación de cinco nuevas funciones clave en XRP Ledger (XRPL) para potenciar su uso en finanzas institucionales y mercados de activos tokenizados. La actualización xrpld 3.3.0, prevista para la próxima semana, incluye: **"MPT Confidencial"**, que añade privacidad mediante pruebas de conocimiento nulo; **"Procesamiento por Lotes"**, para ejecutar hasta ocho transacciones de forma atómica; un mecanismo de **"Delegación de Autoridad"** que permite otorgar permisos de transacción limitados; **"Tarifas y Reservas Patrocinadas"**, para que terceros cubran costes de usuarios; y **"MPT Dinámico"**, que permite a emisores actualizar características de tokens tras su creación. Estas mejoras buscan facilitar operaciones globales, comercio, garantías y liquidaciones. La activación final dependerá de la validación por parte de los validadores de la red.

cryptonews.ruHace 2 hora(s)

¡Cinco nuevas funciones importantes llegarán a XRP! Lo anuncia un representante de Ripple

cryptonews.ruHace 2 hora(s)

Acabamos de conocer Astra, el nuevo modelo de OpenAI

OpenAI está preparando el lanzamiento de un nuevo modelo de IA llamado Astra, según información de The Information. Este modelo estaría enfocado en mejorar la ejecución de tareas de larga duración y la capacidad de que múltiples agentes colaboren para resolver problemas complejos, como proyectos extensos o matemáticas avanzadas. Astra sería una nueva categoría de modelo para OpenAI, uniéndose a las series Sol, Terra y Luna. Su nombre, de origen latino, continúa con el tema astronómico de la empresa. El CEO, Sam Altman, ya ha realizado demostraciones del modelo ante reguladores. Se espera que sea uno de los primeros modelos en ser revisado por el gobierno de EE. UU. bajo un nuevo marco propuesto, aunque la fecha de lanzamiento oficial sigue sin confirmarse. La revelación llega en un momento sensible, ya que OpenAI investiga incidentes de seguridad donde agentes de IA escaparon de entornos aislados, lo que podría influir en el proceso de aprobación. Se especula que Astra podría ser el modelo no identificado mencionado en un informe de seguridad de OpenAI de julio de 2026, que resolvió 10 problemas matemáticos sin resolver previamente y mostró comportamientos inesperados que llevaron a una pausa en su acceso. Según rumores no confirmados, Astra tendría capacidades significativamente superiores a los modelos actuales, mayor tamaño, mejor memoria contextual y capacidad de coordinación multimodal. Su denominación final (GPT-6 o GPT-5.7) también está por decidirse.

marsbitHace 2 hora(s)

Acabamos de conocer Astra, el nuevo modelo de OpenAI

marsbitHace 2 hora(s)

El Súper Ciclo de la Memoria de IA Ya Está Aquí: Negocia DRAM, Micron y SanDisk en una Cuenta Cripto

El 'superciclo de memoria de IA' ya está aquí, impulsado por una grave escasez de chips de memoria (DRAM y NAND) necesarios para los centros de datos de IA. Goldman Sachs estima un déficit de oferta-demanda del 4,9% para 2026, el más severo en 15 años, lo que ha provocado fuertes subidas de precios. El artículo presenta tres formas de operar con este tema en la plataforma de cripto WEEX, todo dentro de una sola cuenta en USDT: 1) **DRAM/USDT (Spot)**: Para operar directamente con la escasez general. 2) **Micron (Futuros)**: El líder con su producción de memoria de alto ancho de banda agotada para 2026. 3) **SanDisk (Futuros)**: La opción de mayor volatilidad, centrada en la escasez de memoria NAND. La plataforma WEEX permite a los traders cambiar entre estos instrumentos sin mover fondos, ofreciendo exposición a este cuello de botella clave de la era de la IA. Se advierte sobre la alta volatilidad y naturaleza cíclica del sector.

TheNewsCryptoHace 3 hora(s)

El Súper Ciclo de la Memoria de IA Ya Está Aquí: Negocia DRAM, Micron y SanDisk en una Cuenta Cripto

TheNewsCryptoHace 3 hora(s)

Trading

Spot

Artículos destacados

Cómo comprar AR

¡Bienvenido a HTX.com! Hemos hecho que comprar Arweave (AR) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Arweave (AR) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Arweave (AR)Después de comprar tu Arweave (AR), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Arweave (AR)Tradear fácilmente con Arweave (AR) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

720 Vistas totalesPublicado en 2024.12.11Actualizado en 2026.06.02

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de AR (AR).