Explorer l'AGI du monde physique avec le "raisonnement visuel", ElorianAI lève 55 millions de dollars

marsbitPublicado a 2026-04-23Actualizado a 2026-04-23

Resumen

ElorianAI, cofondé par d'anciens experts de Google et Apple, a levé 55 millions de dollars pour développer une IA capable de raisonnement visuel natif. Contrairement aux modèles actuels qui convertissent les entrées visuelles en texte avant d’analyser, leur approche vise à permettre à l’IA de "penser" directement dans l’espace visuel, comme le fait le cerveau humain. L’objectif est de passer d’un niveau de raisonnement visuel équivalent à celui d’un enfant (actuellement limité, même avec des modèles comme Gemini) à un niveau adulte, pour atteindre une IA générale (AGI) capable de comprendre et d’interagir avec le monde physique. Les applications potentielles concernent la robotique, la gestion des catastrophes, l’ingénierie et les dispositifs IA portables. Un premier système performant est prévu pour 2026.

Article | Alpha Venture Partners

Les capacités des grands modèles d'IA dépassent déjà celles des humains ordinaires dans certains domaines, comme la programmation et les mathématiques. Selon des informations, Anthropic utilise presque 100% de programmation IA en interne, et Gemini Deep Think de Google a résolu 5 des 6 problèmes de l'IMO 2025, atteignant un niveau médaille d'or.

Mais en raisonnement visuel, même le plus avancé, Gemini 3 Pro, n'atteint que le niveau d'un enfant de 3 ans sur BabyVision, un benchmark testant les capacités de raisonnement visuel de base.

Pourquoi les grands modèles sont-ils forts en programmation et en mathématiques mais faibles en raisonnement visuel ? C'est dû à une limite dans leur "façon de penser". Les modèles visio-linguistiques (VLM) doivent d'abord convertir les entrées visuelles en langage, puis effectuer un raisonnement basé sur le texte. Cependant, de nombreuses tâches visuelles ne peuvent tout simplement pas être décrites avec précision par des mots, ce qui entraîne de médiocres capacités de raisonnement visuel des modèles.

Andrew Dai, ayant travaillé 14 ans chez Google DeepMind, s'est associé à Yinfei Yang, expert en IA expérimenté d'Apple, pour fonder une société appelée Elorian AI. Leur objectif est de faire passer les capacités de raisonnement visuel des modèles du "niveau enfant" au "niveau adulte", et de doter les modèles d'une capacité de réflexion native dans l'"espace visuel", visant ainsi l'AGI du monde physique.

Elorian AI a levé 55 millions de dollars en financement early-stage co-dirigé par Striker Venture Partners, Menlo Ventures et Altimeter, avec la participation de 49 Palms et de scientifiques de l'IA de premier plan, dont Jeff Dean.

Des pionniers des modèles multimodaux veulent doter les modèles visuels de capacités de raisonnement

Andrew Dai, d'origine chinoise, est diplômé de premier cycle en informatique de Cambridge et titulaire d'un doctorat en apprentissage automatique d'Édimbourg. Il a effectué un stage chez Google pendant son doctorat et a rejoint l'entreprise en 2012 pour y rester 14 ans, jusqu'à sa création d'entreprise.


Source :Linkedin d'Andrew Dai

Peu après avoir rejoint Google, il a co-écrit avec Quoc V. Le le premier article sur l'apprentissage préalable des modèles linguistiques et le réglage fin supervisé, "Semi-supervised Sequence Learning". Cet article a jeté les bases de la naissance du GPT. Un autre article fondateur est "Glam: Efficient scaling of language models with mixture-of-experts", qui a ouvert la voie à l'architecture MoE désormais dominante.

Source : Google

Chez Google, il a également participé profondément à presque toutes les formations de grands modèles, de Palm à Gemini1.5 et Gemini2.5. Sur instruction de Jeff Dean, il a commencé en 2023 à diriger la section données de Gemini (y compris les données synthétiques), une équipe qui s'est ensuite étendue à des centaines de personnes.

Source :Linkedin deYinfei Yang

Le co-fondateur d'Elorian AI est Yinfei Yang, qui a travaillé quatre ans chez Google Research, se concentrant sur l'apprentissage de représentations multimodales, avant de rejoindre Apple pour diriger la R&D de modèles multimodaux.

Source :arxiv

Sa recherche représentative, "Scaling up visual and vision-language representation learning with noisy text supervision", a fait progresser l'apprentissage de représentations multimodales.

Les co-fondateurs d'Elorian AI incluent également Seth Neel, ancien professeur assistant (AP) à Harvard et expert en données et IA.

Pourquoi parler des articles fondateurs des co-fondateurs d'Elorian AI ? Parce que leur projet n'est pas une optimisation technique, mais une mise à jour de paradigme depuis l'architecture de base, visant à faire passer l'IA d'une compréhension intelligente basée sur le texte à une compréhension intelligente basée sur le visuel.

La situation actuelle des modèles d'IA est que, bien qu'excellents dans les tâches textuelles, même les modèles multimodaux de pointe les plus avancés trébuchent encore sur les tâches les plus basiques d'ancrage visuel (Visual grounding).

Par exemple, comment insérer une pièce précisément dans un mécanisme pour qu'il fonctionne de manière plus précise et plus efficace ? Ce type de tâche spatiale physique est simple même pour un écolier, mais très difficile pour les modèles multimodaux existants.

Il faut chercher des indices dans la biologie. Dans le cerveau humain, la vision est le substrat sous-jacent qui soutient de nombreux processus de pensée. La capacité humaine à utiliser la vision et le raisonnement spatial est bien plus ancienne que le raisonnement logique linguistique.

Par exemple, pour expliquer à quelqu'un comment traverser un labyrinthe, une description verbale embrouillerait, mais un croquis le ferait comprendre instantanément.

De même, même un oiseau, bien que sans langage, peut reconnaître et raisonner sur des caractéristiques géographiques grâce à la vision, permettant une migration mondiale à longue distance. C'est un signal fort indiquant que pour vraiment faire progresser les capacités de raisonnement des machines, la vision est probablement la bonne direction.

Alors, imaginez si, dès le début de la construction du modèle, on tentait d'inscrire cet instinct visuel biologique dans les gènes de l'IA, en construisant un modèle multimodal natif capable de "comprendre et traiter simultanément texte, images, vidéos et audio", on pourrait doter le modèle de capacités de compréhension visuelle. Andrew Dai et son équipe veulent construire un "synesthète" inné, apprendre à la machine non seulement à "voir" le monde, mais aussi à le "comprendre".

Pour Andrew Dai et son équipe, une compréhension profonde du "monde physique" réel est la clé pour réaliser le bond en avant de la prochaine génération d'intelligence machine et finalement atteindre l'"Intelligence Artificielle Générale Visuelle (Visual AGI)".

Les VLM à raisonnement postérieur ne sont pas la bonne voie vers le raisonnement visuel

Ce n'est pas que des équipes n'aient pas voulu faire cela auparavant. En fait, l'équipe Gemini d'Andrew Dai était déjà l'une des plus avancées au monde dans le domaine multimodal. Mais les modèles multimodaux traditionnels restent principalement des VLM (modèles visio-linguistiques), leur logique est basée sur une "démarche en deux étapes" : d'abord convertir l'entrée visuelle en langage, puis effectuer un raisonnement basé sur le texte (parfois en appelant des outils externes).

Cependant, le raisonnement postérieur est intrinsèquement limité. D'une part, il est sujet aux hallucinations du modèle, d'autre part, de nombreuses tâches visuelles ne peuvent tout simplement pas être décrites avec précision par des mots.

De plus, les modèles de génération visuelle comme NanoBanana sont excellents en génération multimodale, mais la capacité de génération n'est pas égale à la capacité de raisonnement. Leur "réflexion" avant la génération repose essentiellement sur un modèle linguistique, pas sur une capacité de raisonnement native.

Pour développer des modèles capables de vraiment discerner la complexité spatiale, structurelle et relationnelle du monde visuel, une innovation disruptive dans la technologie sous-jacente est nécessaire.

Alors, comment innover ? Les fondateurs d'Elorian AI, immergés depuis des années dans le domaine multimodal, proposent : fusionner profondément l'entraînement multimodal avec une nouvelle architecture conçue spécifiquement pour le raisonnement multimodal. Abandonner l'approche traditionnelle qui traite les images comme des entrées statiques, et plutôt entraîner le modèle à interagir directement et à manipuler les représentations visuelles (Visual representations) pour analyser de manière autonome leur structure, leurs relations et leurs contraintes physiques.

Bien sûr, un autre élément clé est la donnée, elle est cruciale pour déterminer les performances et le succès de ces modèles.

Andrew Dai indique qu'ils accordent une grande importance à la qualité des données, au mélange proportionnel des données, à leur source et à leur diversité, et qu'ils ont innové au niveau de la couche données, reconstruit la chaîne de raisonnement dans l'espace visuel, et utilisé massivement et profondément des données synthétiques.

Ces efforts combinés donneront naissance à de nouveaux systèmes d'IA capables de passer d'une simple "perception" visuelle à un "raisonnement" visuel de haut niveau.

Ce système d'IA pourrait être un modèle de base pour le raisonnement visuel : construire un modèle hautement générique mais extrêmement performant sur un ensemble spécifique de capacités, à savoir le raisonnement visuel.

Étant un modèle de base générique, son domaine d'application devrait être large.

D'abord, dans le domaine de la robotique, il pourrait devenir le système nerveux central sous-jacent de systèmes puissants, leur donnant la capacité d'opérer de manière autonome dans divers environnements inconnus.

Par exemple, envoyer un robot gérer une panne de sécurité soudaine dans un environnement dangereux. Cela nécessite une prise de décision instantanée rapide et précise. Si le robot manque d'un modèle de base avec de solides capacités de raisonnement, on n'oserait pas le laisser appuyer sur des boutons ou actionner des leviers au hasard. Mais s'il a de fortes capacités de raisonnement, il pourrait penser : "Avant de manipuler ce panneau, je devrais peut-être d'abord actionner ce levier pour activer le mécanisme de sécurité."

De plus, dans la gestion des catastrophes, un modèle avec raisonnement visuel pourrait analyser des images satellites pour surveiller et prévenir les feux de forêt ; dans l'ingénierie, il pourrait comprendre avec précision des plans visuels complexes, des schémas de système. L'importance de cette capacité réside dans le fait que les lois de fonctionnement du monde physique sont fondamentalement différentes de celles du monde purement code, on ne peut pas concevoir une aile d'avion juste en tapant quelques lignes de code pur.

Cependant, pour le moment, le modèle et les capacités d'Elorian AI restent sur le papier. Ils prévoient de publier en 2026 un modèle atteignant un niveau SOTA dans le domaine du raisonnement visuel. On pourra alors vérifier si leurs résultats correspondent aux annonces.

Quand l'IA aura vraiment des capacités de "raisonnement visuel", comment transformera-t-elle le monde physique ?

Pour que l'IA comprenne et influence le monde physique réel, la technologie a déjà itéré plusieurs fois.

De la reconnaissance d'images à l'ère du CV traditionnel, aux modèles de génération d'images / modèles multimodaux de l'IA générative, puis aux modèles mondiaux (world models), la compréhension du monde physique n'a cessé de s'améliorer.

Et les modèles de base pour le raisonnement visuel pourraient aller encore plus loin, car capables de raisonnement visuel, l'IA pourrait comprendre le monde physique plus profondément, réalisant ainsi un niveau supérieur d'intelligence machine.

Imaginez, lorsque des modèles dotés d'une compréhension profonde et d'opérations fines "rechargeront" l'industrie de l'intelligence incarnée et du matériel IA, cela élargira considérablement leur champ d'application. Par exemple, les robots pourraient effectuer une production industrielle plus fiable, ou intervenir dans le domaine des soins médicaux ; le matériel IA, en particulier les wearables, deviendrait des assistants personnels plus intelligents.

Cependant, à la base de ces technologies, il y a toujours les données. Comme l'a indiqué Andrew Dai précédemment, la qualité des données, leur mélange proportionnel, leur source et leur diversité déterminent les performances du modèle.

Dans le domaine de l'IA physique, les entreprises chinoises, que ce soit au niveau des modèles ou des données, sont plus proches de l'avant-garde mondiale comparé aux grands modèles textuels. Si elles peuvent profiter de leurs avantages en données et en richesse de scénarios d'application pour accélérer la vitesse d'itération, alors que ce soit pour l'intelligence incarnée ou le matériel IA, appliqués dans l'industrie, la médecine ou la maison, elles auront de plus grandes chances d'atteindre un niveau leader et pourront même faire émerger des entreprises de classe mondiale.

Preguntas relacionadas

QQuel est l'objectif principal d'Elorian AI dans le domaine de l'intelligence artificielle?

AElorian AI vise à améliorer les capacités de raisonnement visuel des modèles d'IA, en les faisant passer d'un niveau 'enfantin' à un niveau 'adulte', et à développer une capacité de réflexion native dans l'espace visuel pour progresser vers une AGI du monde physique.

QPourquoi les modèles multimodaux actuels ont-ils des difficultés avec le raisonnement visuel selon l'article?

AParce qu'ils fonctionnent selon une approche en deux étapes : ils convertissent d'abord les entrées visuelles en langage, puis effectuent un raisonnement basé sur le texte. De nombreuses tâches visuelles ne peuvent pas être décrites avec précision par le texte, ce qui limite leurs capacités.

QQui sont les fondateurs d'Elorian AI et quelle est leur expérience?

ALes fondateurs sont Andrew Dai (ancien de Google DeepMind, 14 ans d'expérience), Yinfei Yang (expert en IA chez Apple et Google, spécialiste de l'apprentissage multimodal) et Seth Neel (ancien professeur assistant à Harvard, expert en données et IA).

QQuel est le montant et la source du financement obtenu par Elorian AI?

AElorian AI a levé 55 millions de dollars en financement early-stage, co-dirigé par Striker Venture Partners, Menlo Ventures et Altimeter, avec la participation de 49 Palms et de scientifiques de l'IA de premier plan comme Jeff Dean.

QQuels sont les domaines d'application potentiels mentionnés pour un modèle de raisonnement visuel avancé?

ALes applications incluent la robotique (systèmes autonomes), la gestion des catastrophes (analyse d'images satellites), l'ingénierie (compréhension de plans complexes) et les appareils IA portables (assistants personnels intelligents).

Lecturas Relacionadas

El debut de Warsh: ¿El presidente de la FED más conocedor del Crypto de la historia traerá sorpresas o sustos al mercado?

**Debut de Warsh: ¿Sorpresa o Susto? Un Presidente de la Fed Experto en Crypto se Estrena** Kevin Warsh, el nuevo presidente de la Reserva Federal, se enfrenta a su primera conferencia de prensa en medio de un contexto macroeconómico complejo: inflación creciente, ventas de bonos del Tesoro y presión de la Casa Blanca para bajar tasas. Su estreno es especialmente relevante para el mercado de criptoactivos, ya que Warsh es el primer presidente de la Fed en declarar inversiones indirectas sustanciales en el sector, abarcando desde L1 hasta DeFi. Su política monetaria se define por dos líneas: un tono **halcón frente a la inflación** que podría inclinarse hacia una política de tasas más restrictiva, y una **comprensión única de los activos digitales**, a los que considera un "buen policía" para la política económica, a diferencia del enfoque más defensivo de su predecesor. Para los criptomercados, su llegada implica una posible **reformulación regulatoria** (de la prevención a la integración), una **revalorización del riesgo** ligada a la trayectoria de las tasas de interés, y una **señal de legitimación** que podría atraer mayor inversión institucional a largo plazo. El resultado de su primera comparecencia puede seguir dos escenarios: una **"sorpresa"** si combina señales amistosas para crypto con un tono moderado sobre tasas, impulsando los activos de riesgo; o una **"alarma"** si enfatiza excesivamente la lucha contra la inflación y el endurecimiento monetario, lo que generaría una venta generalizada de activos riesgosos, incluyendo cripto. Aunque por ética ha vendido sus participaciones directas, la perspectiva de un regulador que comprende profundamente la tecnología subyacente podría sentar, a largo plazo, las bases para una integración más estructurada de los criptoactivos en el sistema financiero.

marsbitHace 3 hora(s)

El debut de Warsh: ¿El presidente de la FED más conocedor del Crypto de la historia traerá sorpresas o sustos al mercado?

marsbitHace 3 hora(s)

La cadena XRP Ledger lanza la nueva denominación XRPLd con la actualización de la versión 3.2.0

La versión 3.2.0 de XRP Ledger ya está disponible, introduciendo una importante mejora de infraestructura y un cambio de marca del software central, que pasa de llamarse "rippled" a "xrpld". Esta actualización se centra en optimizaciones de back-end y eficiencia, incluyendo medidas de optimización de memoria que pueden reducir hasta un 40% el uso de memoria del servidor, preparando la arquitectura para una futura escalabilidad. Las principales novedades incluyen la modificación `fixCleanup3_2_0`, que refuerza la seguridad de módulos como bóvedas de activos únicos, protocolos de préstamo y exchanges descentralizados. Se han añadido nuevas comprobaciones de invariantes para garantizar la consistencia del libro mayor. Además, las aplicaciones ahora pueden recuperar información sobre el protocolo y definiciones del servidor sin necesidad de conexión directa, facilitando el desarrollo de carteras y exploradores. En cuanto a escalabilidad y estabilidad, la actualización introduce tamaños de bloque configurables, soporte opcional de TLS/mTLS para servidores gRPC y un cambio en el puerto predeterminado para conexiones entre pares. También incluye varias correcciones para creadores de mercado automáticos, pagos y tokens de múltiples propósitos. Las invariantes de transacción se desactivaron temporalmente por rendimiento, sin comprometer la seguridad.

TheNewsCryptoHace 4 hora(s)

La cadena XRP Ledger lanza la nueva denominación XRPLd con la actualización de la versión 3.2.0

TheNewsCryptoHace 4 hora(s)

AGI no es el destino final: nuevo estudio de DeepMind afirma que el verdadero progreso de la IA apenas comienza al avanzar hacia una ASI

El documento de DeepMind plantea que la Inteligencia Artificial General (AGI) no será el punto final del desarrollo de la IA, sino un paso hacia una Inteligencia Artificial Superintendente (ASI) que supere colectivamente a los mejores equipos de expertos humanos. El informe explora cuatro posibles caminos hacia la ASI: 1) escalar recursos (cómputo, modelos, datos), 2) avances algorítmicos o nuevos paradigmas, 3) mejora recursiva automática de los sistemas, y 4) la coordinación de múltiples agentes de AGI para crear una inteligencia colectiva. También identifica cuellos de botella clave, como el límite de los datos de alta calidad generados por humanos, las presiones sobre recursos económicos y naturales, las posibles limitaciones de los paradigmas actuales de redes neuronales, la creciente dificultad de la investigación, las "barreras de abstracción" para descubrir nuevos conceptos fundamentales, y los factores de gobernanza y aceptación social. El documento destaca la necesidad urgente de desarrollar nuevos marcos de evaluación, ya que las métricas basadas en el rendimiento humano quedarán obsoletas una vez alcanzada la AGI. Finalmente, concluye que el progreso hacia la ASI es incierto y estará sujeto a restricciones físicas y prácticas, requiriendo un esfuerzo de investigación multidisciplinar global para monitorear y guiar su desarrollo.

marsbitHace 5 hora(s)

AGI no es el destino final: nuevo estudio de DeepMind afirma que el verdadero progreso de la IA apenas comienza al avanzar hacia una ASI

marsbitHace 5 hora(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar AR

¡Bienvenido a HTX.com! Hemos hecho que comprar Arweave (AR) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Arweave (AR) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Arweave (AR)Después de comprar tu Arweave (AR), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Arweave (AR)Tradear fácilmente con Arweave (AR) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

623 Vistas totalesPublicado en 2024.12.11Actualizado en 2026.06.02

Cómo comprar AR

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de AR (AR).

活动图片