Explorer l'AGI du monde physique avec le "raisonnement visuel", ElorianAI lève 55 millions de dollars

marsbitPublié le 2026-04-23Dernière mise à jour le 2026-04-23

Résumé

ElorianAI, cofondé par d'anciens experts de Google et Apple, a levé 55 millions de dollars pour développer une IA capable de raisonnement visuel natif. Contrairement aux modèles actuels qui convertissent les entrées visuelles en texte avant d’analyser, leur approche vise à permettre à l’IA de "penser" directement dans l’espace visuel, comme le fait le cerveau humain. L’objectif est de passer d’un niveau de raisonnement visuel équivalent à celui d’un enfant (actuellement limité, même avec des modèles comme Gemini) à un niveau adulte, pour atteindre une IA générale (AGI) capable de comprendre et d’interagir avec le monde physique. Les applications potentielles concernent la robotique, la gestion des catastrophes, l’ingénierie et les dispositifs IA portables. Un premier système performant est prévu pour 2026.

Article | Alpha Venture Partners

Les capacités des grands modèles d'IA dépassent déjà celles des humains ordinaires dans certains domaines, comme la programmation et les mathématiques. Selon des informations, Anthropic utilise presque 100% de programmation IA en interne, et Gemini Deep Think de Google a résolu 5 des 6 problèmes de l'IMO 2025, atteignant un niveau médaille d'or.

Mais en raisonnement visuel, même le plus avancé, Gemini 3 Pro, n'atteint que le niveau d'un enfant de 3 ans sur BabyVision, un benchmark testant les capacités de raisonnement visuel de base.

Pourquoi les grands modèles sont-ils forts en programmation et en mathématiques mais faibles en raisonnement visuel ? C'est dû à une limite dans leur "façon de penser". Les modèles visio-linguistiques (VLM) doivent d'abord convertir les entrées visuelles en langage, puis effectuer un raisonnement basé sur le texte. Cependant, de nombreuses tâches visuelles ne peuvent tout simplement pas être décrites avec précision par des mots, ce qui entraîne de médiocres capacités de raisonnement visuel des modèles.

Andrew Dai, ayant travaillé 14 ans chez Google DeepMind, s'est associé à Yinfei Yang, expert en IA expérimenté d'Apple, pour fonder une société appelée Elorian AI. Leur objectif est de faire passer les capacités de raisonnement visuel des modèles du "niveau enfant" au "niveau adulte", et de doter les modèles d'une capacité de réflexion native dans l'"espace visuel", visant ainsi l'AGI du monde physique.

Elorian AI a levé 55 millions de dollars en financement early-stage co-dirigé par Striker Venture Partners, Menlo Ventures et Altimeter, avec la participation de 49 Palms et de scientifiques de l'IA de premier plan, dont Jeff Dean.

Des pionniers des modèles multimodaux veulent doter les modèles visuels de capacités de raisonnement

Andrew Dai, d'origine chinoise, est diplômé de premier cycle en informatique de Cambridge et titulaire d'un doctorat en apprentissage automatique d'Édimbourg. Il a effectué un stage chez Google pendant son doctorat et a rejoint l'entreprise en 2012 pour y rester 14 ans, jusqu'à sa création d'entreprise.


Source :Linkedin d'Andrew Dai

Peu après avoir rejoint Google, il a co-écrit avec Quoc V. Le le premier article sur l'apprentissage préalable des modèles linguistiques et le réglage fin supervisé, "Semi-supervised Sequence Learning". Cet article a jeté les bases de la naissance du GPT. Un autre article fondateur est "Glam: Efficient scaling of language models with mixture-of-experts", qui a ouvert la voie à l'architecture MoE désormais dominante.

Source : Google

Chez Google, il a également participé profondément à presque toutes les formations de grands modèles, de Palm à Gemini1.5 et Gemini2.5. Sur instruction de Jeff Dean, il a commencé en 2023 à diriger la section données de Gemini (y compris les données synthétiques), une équipe qui s'est ensuite étendue à des centaines de personnes.

Source :Linkedin deYinfei Yang

Le co-fondateur d'Elorian AI est Yinfei Yang, qui a travaillé quatre ans chez Google Research, se concentrant sur l'apprentissage de représentations multimodales, avant de rejoindre Apple pour diriger la R&D de modèles multimodaux.

Source :arxiv

Sa recherche représentative, "Scaling up visual and vision-language representation learning with noisy text supervision", a fait progresser l'apprentissage de représentations multimodales.

Les co-fondateurs d'Elorian AI incluent également Seth Neel, ancien professeur assistant (AP) à Harvard et expert en données et IA.

Pourquoi parler des articles fondateurs des co-fondateurs d'Elorian AI ? Parce que leur projet n'est pas une optimisation technique, mais une mise à jour de paradigme depuis l'architecture de base, visant à faire passer l'IA d'une compréhension intelligente basée sur le texte à une compréhension intelligente basée sur le visuel.

La situation actuelle des modèles d'IA est que, bien qu'excellents dans les tâches textuelles, même les modèles multimodaux de pointe les plus avancés trébuchent encore sur les tâches les plus basiques d'ancrage visuel (Visual grounding).

Par exemple, comment insérer une pièce précisément dans un mécanisme pour qu'il fonctionne de manière plus précise et plus efficace ? Ce type de tâche spatiale physique est simple même pour un écolier, mais très difficile pour les modèles multimodaux existants.

Il faut chercher des indices dans la biologie. Dans le cerveau humain, la vision est le substrat sous-jacent qui soutient de nombreux processus de pensée. La capacité humaine à utiliser la vision et le raisonnement spatial est bien plus ancienne que le raisonnement logique linguistique.

Par exemple, pour expliquer à quelqu'un comment traverser un labyrinthe, une description verbale embrouillerait, mais un croquis le ferait comprendre instantanément.

De même, même un oiseau, bien que sans langage, peut reconnaître et raisonner sur des caractéristiques géographiques grâce à la vision, permettant une migration mondiale à longue distance. C'est un signal fort indiquant que pour vraiment faire progresser les capacités de raisonnement des machines, la vision est probablement la bonne direction.

Alors, imaginez si, dès le début de la construction du modèle, on tentait d'inscrire cet instinct visuel biologique dans les gènes de l'IA, en construisant un modèle multimodal natif capable de "comprendre et traiter simultanément texte, images, vidéos et audio", on pourrait doter le modèle de capacités de compréhension visuelle. Andrew Dai et son équipe veulent construire un "synesthète" inné, apprendre à la machine non seulement à "voir" le monde, mais aussi à le "comprendre".

Pour Andrew Dai et son équipe, une compréhension profonde du "monde physique" réel est la clé pour réaliser le bond en avant de la prochaine génération d'intelligence machine et finalement atteindre l'"Intelligence Artificielle Générale Visuelle (Visual AGI)".

Les VLM à raisonnement postérieur ne sont pas la bonne voie vers le raisonnement visuel

Ce n'est pas que des équipes n'aient pas voulu faire cela auparavant. En fait, l'équipe Gemini d'Andrew Dai était déjà l'une des plus avancées au monde dans le domaine multimodal. Mais les modèles multimodaux traditionnels restent principalement des VLM (modèles visio-linguistiques), leur logique est basée sur une "démarche en deux étapes" : d'abord convertir l'entrée visuelle en langage, puis effectuer un raisonnement basé sur le texte (parfois en appelant des outils externes).

Cependant, le raisonnement postérieur est intrinsèquement limité. D'une part, il est sujet aux hallucinations du modèle, d'autre part, de nombreuses tâches visuelles ne peuvent tout simplement pas être décrites avec précision par des mots.

De plus, les modèles de génération visuelle comme NanoBanana sont excellents en génération multimodale, mais la capacité de génération n'est pas égale à la capacité de raisonnement. Leur "réflexion" avant la génération repose essentiellement sur un modèle linguistique, pas sur une capacité de raisonnement native.

Pour développer des modèles capables de vraiment discerner la complexité spatiale, structurelle et relationnelle du monde visuel, une innovation disruptive dans la technologie sous-jacente est nécessaire.

Alors, comment innover ? Les fondateurs d'Elorian AI, immergés depuis des années dans le domaine multimodal, proposent : fusionner profondément l'entraînement multimodal avec une nouvelle architecture conçue spécifiquement pour le raisonnement multimodal. Abandonner l'approche traditionnelle qui traite les images comme des entrées statiques, et plutôt entraîner le modèle à interagir directement et à manipuler les représentations visuelles (Visual representations) pour analyser de manière autonome leur structure, leurs relations et leurs contraintes physiques.

Bien sûr, un autre élément clé est la donnée, elle est cruciale pour déterminer les performances et le succès de ces modèles.

Andrew Dai indique qu'ils accordent une grande importance à la qualité des données, au mélange proportionnel des données, à leur source et à leur diversité, et qu'ils ont innové au niveau de la couche données, reconstruit la chaîne de raisonnement dans l'espace visuel, et utilisé massivement et profondément des données synthétiques.

Ces efforts combinés donneront naissance à de nouveaux systèmes d'IA capables de passer d'une simple "perception" visuelle à un "raisonnement" visuel de haut niveau.

Ce système d'IA pourrait être un modèle de base pour le raisonnement visuel : construire un modèle hautement générique mais extrêmement performant sur un ensemble spécifique de capacités, à savoir le raisonnement visuel.

Étant un modèle de base générique, son domaine d'application devrait être large.

D'abord, dans le domaine de la robotique, il pourrait devenir le système nerveux central sous-jacent de systèmes puissants, leur donnant la capacité d'opérer de manière autonome dans divers environnements inconnus.

Par exemple, envoyer un robot gérer une panne de sécurité soudaine dans un environnement dangereux. Cela nécessite une prise de décision instantanée rapide et précise. Si le robot manque d'un modèle de base avec de solides capacités de raisonnement, on n'oserait pas le laisser appuyer sur des boutons ou actionner des leviers au hasard. Mais s'il a de fortes capacités de raisonnement, il pourrait penser : "Avant de manipuler ce panneau, je devrais peut-être d'abord actionner ce levier pour activer le mécanisme de sécurité."

De plus, dans la gestion des catastrophes, un modèle avec raisonnement visuel pourrait analyser des images satellites pour surveiller et prévenir les feux de forêt ; dans l'ingénierie, il pourrait comprendre avec précision des plans visuels complexes, des schémas de système. L'importance de cette capacité réside dans le fait que les lois de fonctionnement du monde physique sont fondamentalement différentes de celles du monde purement code, on ne peut pas concevoir une aile d'avion juste en tapant quelques lignes de code pur.

Cependant, pour le moment, le modèle et les capacités d'Elorian AI restent sur le papier. Ils prévoient de publier en 2026 un modèle atteignant un niveau SOTA dans le domaine du raisonnement visuel. On pourra alors vérifier si leurs résultats correspondent aux annonces.

Quand l'IA aura vraiment des capacités de "raisonnement visuel", comment transformera-t-elle le monde physique ?

Pour que l'IA comprenne et influence le monde physique réel, la technologie a déjà itéré plusieurs fois.

De la reconnaissance d'images à l'ère du CV traditionnel, aux modèles de génération d'images / modèles multimodaux de l'IA générative, puis aux modèles mondiaux (world models), la compréhension du monde physique n'a cessé de s'améliorer.

Et les modèles de base pour le raisonnement visuel pourraient aller encore plus loin, car capables de raisonnement visuel, l'IA pourrait comprendre le monde physique plus profondément, réalisant ainsi un niveau supérieur d'intelligence machine.

Imaginez, lorsque des modèles dotés d'une compréhension profonde et d'opérations fines "rechargeront" l'industrie de l'intelligence incarnée et du matériel IA, cela élargira considérablement leur champ d'application. Par exemple, les robots pourraient effectuer une production industrielle plus fiable, ou intervenir dans le domaine des soins médicaux ; le matériel IA, en particulier les wearables, deviendrait des assistants personnels plus intelligents.

Cependant, à la base de ces technologies, il y a toujours les données. Comme l'a indiqué Andrew Dai précédemment, la qualité des données, leur mélange proportionnel, leur source et leur diversité déterminent les performances du modèle.

Dans le domaine de l'IA physique, les entreprises chinoises, que ce soit au niveau des modèles ou des données, sont plus proches de l'avant-garde mondiale comparé aux grands modèles textuels. Si elles peuvent profiter de leurs avantages en données et en richesse de scénarios d'application pour accélérer la vitesse d'itération, alors que ce soit pour l'intelligence incarnée ou le matériel IA, appliqués dans l'industrie, la médecine ou la maison, elles auront de plus grandes chances d'atteindre un niveau leader et pourront même faire émerger des entreprises de classe mondiale.

Questions liées

QQuel est l'objectif principal d'Elorian AI dans le domaine de l'intelligence artificielle?

AElorian AI vise à améliorer les capacités de raisonnement visuel des modèles d'IA, en les faisant passer d'un niveau 'enfantin' à un niveau 'adulte', et à développer une capacité de réflexion native dans l'espace visuel pour progresser vers une AGI du monde physique.

QPourquoi les modèles multimodaux actuels ont-ils des difficultés avec le raisonnement visuel selon l'article?

AParce qu'ils fonctionnent selon une approche en deux étapes : ils convertissent d'abord les entrées visuelles en langage, puis effectuent un raisonnement basé sur le texte. De nombreuses tâches visuelles ne peuvent pas être décrites avec précision par le texte, ce qui limite leurs capacités.

QQui sont les fondateurs d'Elorian AI et quelle est leur expérience?

ALes fondateurs sont Andrew Dai (ancien de Google DeepMind, 14 ans d'expérience), Yinfei Yang (expert en IA chez Apple et Google, spécialiste de l'apprentissage multimodal) et Seth Neel (ancien professeur assistant à Harvard, expert en données et IA).

QQuel est le montant et la source du financement obtenu par Elorian AI?

AElorian AI a levé 55 millions de dollars en financement early-stage, co-dirigé par Striker Venture Partners, Menlo Ventures et Altimeter, avec la participation de 49 Palms et de scientifiques de l'IA de premier plan comme Jeff Dean.

QQuels sont les domaines d'application potentiels mentionnés pour un modèle de raisonnement visuel avancé?

ALes applications incluent la robotique (systèmes autonomes), la gestion des catastrophes (analyse d'images satellites), l'ingénierie (compréhension de plans complexes) et les appareils IA portables (assistants personnels intelligents).

Lectures associées

Trading

Spot
Futures

Articles tendance

Comment acheter AR

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Arweave (AR) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Arweave (AR).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Arweave (AR)Après avoir acheté vos Arweave (AR), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Arweave (AR)Tradez facilement Arweave (AR) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

594 vues totalesPublié le 2024.12.11Mis à jour le 2025.03.21

Comment acheter AR

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de AR (AR) sont présentées ci-dessous.

活动图片