Explorer l'AGI du monde physique avec le "raisonnement visuel", ElorianAI lève 55 millions de dollars

marsbitDipublikasikan tanggal 2026-04-23Terakhir diperbarui pada 2026-04-23

Abstrak

ElorianAI, cofondé par d'anciens experts de Google et Apple, a levé 55 millions de dollars pour développer une IA capable de raisonnement visuel natif. Contrairement aux modèles actuels qui convertissent les entrées visuelles en texte avant d’analyser, leur approche vise à permettre à l’IA de "penser" directement dans l’espace visuel, comme le fait le cerveau humain. L’objectif est de passer d’un niveau de raisonnement visuel équivalent à celui d’un enfant (actuellement limité, même avec des modèles comme Gemini) à un niveau adulte, pour atteindre une IA générale (AGI) capable de comprendre et d’interagir avec le monde physique. Les applications potentielles concernent la robotique, la gestion des catastrophes, l’ingénierie et les dispositifs IA portables. Un premier système performant est prévu pour 2026.

Article | Alpha Venture Partners

Les capacités des grands modèles d'IA dépassent déjà celles des humains ordinaires dans certains domaines, comme la programmation et les mathématiques. Selon des informations, Anthropic utilise presque 100% de programmation IA en interne, et Gemini Deep Think de Google a résolu 5 des 6 problèmes de l'IMO 2025, atteignant un niveau médaille d'or.

Mais en raisonnement visuel, même le plus avancé, Gemini 3 Pro, n'atteint que le niveau d'un enfant de 3 ans sur BabyVision, un benchmark testant les capacités de raisonnement visuel de base.

Pourquoi les grands modèles sont-ils forts en programmation et en mathématiques mais faibles en raisonnement visuel ? C'est dû à une limite dans leur "façon de penser". Les modèles visio-linguistiques (VLM) doivent d'abord convertir les entrées visuelles en langage, puis effectuer un raisonnement basé sur le texte. Cependant, de nombreuses tâches visuelles ne peuvent tout simplement pas être décrites avec précision par des mots, ce qui entraîne de médiocres capacités de raisonnement visuel des modèles.

Andrew Dai, ayant travaillé 14 ans chez Google DeepMind, s'est associé à Yinfei Yang, expert en IA expérimenté d'Apple, pour fonder une société appelée Elorian AI. Leur objectif est de faire passer les capacités de raisonnement visuel des modèles du "niveau enfant" au "niveau adulte", et de doter les modèles d'une capacité de réflexion native dans l'"espace visuel", visant ainsi l'AGI du monde physique.

Elorian AI a levé 55 millions de dollars en financement early-stage co-dirigé par Striker Venture Partners, Menlo Ventures et Altimeter, avec la participation de 49 Palms et de scientifiques de l'IA de premier plan, dont Jeff Dean.

Des pionniers des modèles multimodaux veulent doter les modèles visuels de capacités de raisonnement

Andrew Dai, d'origine chinoise, est diplômé de premier cycle en informatique de Cambridge et titulaire d'un doctorat en apprentissage automatique d'Édimbourg. Il a effectué un stage chez Google pendant son doctorat et a rejoint l'entreprise en 2012 pour y rester 14 ans, jusqu'à sa création d'entreprise.


Source :Linkedin d'Andrew Dai

Peu après avoir rejoint Google, il a co-écrit avec Quoc V. Le le premier article sur l'apprentissage préalable des modèles linguistiques et le réglage fin supervisé, "Semi-supervised Sequence Learning". Cet article a jeté les bases de la naissance du GPT. Un autre article fondateur est "Glam: Efficient scaling of language models with mixture-of-experts", qui a ouvert la voie à l'architecture MoE désormais dominante.

Source : Google

Chez Google, il a également participé profondément à presque toutes les formations de grands modèles, de Palm à Gemini1.5 et Gemini2.5. Sur instruction de Jeff Dean, il a commencé en 2023 à diriger la section données de Gemini (y compris les données synthétiques), une équipe qui s'est ensuite étendue à des centaines de personnes.

Source :Linkedin deYinfei Yang

Le co-fondateur d'Elorian AI est Yinfei Yang, qui a travaillé quatre ans chez Google Research, se concentrant sur l'apprentissage de représentations multimodales, avant de rejoindre Apple pour diriger la R&D de modèles multimodaux.

Source :arxiv

Sa recherche représentative, "Scaling up visual and vision-language representation learning with noisy text supervision", a fait progresser l'apprentissage de représentations multimodales.

Les co-fondateurs d'Elorian AI incluent également Seth Neel, ancien professeur assistant (AP) à Harvard et expert en données et IA.

Pourquoi parler des articles fondateurs des co-fondateurs d'Elorian AI ? Parce que leur projet n'est pas une optimisation technique, mais une mise à jour de paradigme depuis l'architecture de base, visant à faire passer l'IA d'une compréhension intelligente basée sur le texte à une compréhension intelligente basée sur le visuel.

La situation actuelle des modèles d'IA est que, bien qu'excellents dans les tâches textuelles, même les modèles multimodaux de pointe les plus avancés trébuchent encore sur les tâches les plus basiques d'ancrage visuel (Visual grounding).

Par exemple, comment insérer une pièce précisément dans un mécanisme pour qu'il fonctionne de manière plus précise et plus efficace ? Ce type de tâche spatiale physique est simple même pour un écolier, mais très difficile pour les modèles multimodaux existants.

Il faut chercher des indices dans la biologie. Dans le cerveau humain, la vision est le substrat sous-jacent qui soutient de nombreux processus de pensée. La capacité humaine à utiliser la vision et le raisonnement spatial est bien plus ancienne que le raisonnement logique linguistique.

Par exemple, pour expliquer à quelqu'un comment traverser un labyrinthe, une description verbale embrouillerait, mais un croquis le ferait comprendre instantanément.

De même, même un oiseau, bien que sans langage, peut reconnaître et raisonner sur des caractéristiques géographiques grâce à la vision, permettant une migration mondiale à longue distance. C'est un signal fort indiquant que pour vraiment faire progresser les capacités de raisonnement des machines, la vision est probablement la bonne direction.

Alors, imaginez si, dès le début de la construction du modèle, on tentait d'inscrire cet instinct visuel biologique dans les gènes de l'IA, en construisant un modèle multimodal natif capable de "comprendre et traiter simultanément texte, images, vidéos et audio", on pourrait doter le modèle de capacités de compréhension visuelle. Andrew Dai et son équipe veulent construire un "synesthète" inné, apprendre à la machine non seulement à "voir" le monde, mais aussi à le "comprendre".

Pour Andrew Dai et son équipe, une compréhension profonde du "monde physique" réel est la clé pour réaliser le bond en avant de la prochaine génération d'intelligence machine et finalement atteindre l'"Intelligence Artificielle Générale Visuelle (Visual AGI)".

Les VLM à raisonnement postérieur ne sont pas la bonne voie vers le raisonnement visuel

Ce n'est pas que des équipes n'aient pas voulu faire cela auparavant. En fait, l'équipe Gemini d'Andrew Dai était déjà l'une des plus avancées au monde dans le domaine multimodal. Mais les modèles multimodaux traditionnels restent principalement des VLM (modèles visio-linguistiques), leur logique est basée sur une "démarche en deux étapes" : d'abord convertir l'entrée visuelle en langage, puis effectuer un raisonnement basé sur le texte (parfois en appelant des outils externes).

Cependant, le raisonnement postérieur est intrinsèquement limité. D'une part, il est sujet aux hallucinations du modèle, d'autre part, de nombreuses tâches visuelles ne peuvent tout simplement pas être décrites avec précision par des mots.

De plus, les modèles de génération visuelle comme NanoBanana sont excellents en génération multimodale, mais la capacité de génération n'est pas égale à la capacité de raisonnement. Leur "réflexion" avant la génération repose essentiellement sur un modèle linguistique, pas sur une capacité de raisonnement native.

Pour développer des modèles capables de vraiment discerner la complexité spatiale, structurelle et relationnelle du monde visuel, une innovation disruptive dans la technologie sous-jacente est nécessaire.

Alors, comment innover ? Les fondateurs d'Elorian AI, immergés depuis des années dans le domaine multimodal, proposent : fusionner profondément l'entraînement multimodal avec une nouvelle architecture conçue spécifiquement pour le raisonnement multimodal. Abandonner l'approche traditionnelle qui traite les images comme des entrées statiques, et plutôt entraîner le modèle à interagir directement et à manipuler les représentations visuelles (Visual representations) pour analyser de manière autonome leur structure, leurs relations et leurs contraintes physiques.

Bien sûr, un autre élément clé est la donnée, elle est cruciale pour déterminer les performances et le succès de ces modèles.

Andrew Dai indique qu'ils accordent une grande importance à la qualité des données, au mélange proportionnel des données, à leur source et à leur diversité, et qu'ils ont innové au niveau de la couche données, reconstruit la chaîne de raisonnement dans l'espace visuel, et utilisé massivement et profondément des données synthétiques.

Ces efforts combinés donneront naissance à de nouveaux systèmes d'IA capables de passer d'une simple "perception" visuelle à un "raisonnement" visuel de haut niveau.

Ce système d'IA pourrait être un modèle de base pour le raisonnement visuel : construire un modèle hautement générique mais extrêmement performant sur un ensemble spécifique de capacités, à savoir le raisonnement visuel.

Étant un modèle de base générique, son domaine d'application devrait être large.

D'abord, dans le domaine de la robotique, il pourrait devenir le système nerveux central sous-jacent de systèmes puissants, leur donnant la capacité d'opérer de manière autonome dans divers environnements inconnus.

Par exemple, envoyer un robot gérer une panne de sécurité soudaine dans un environnement dangereux. Cela nécessite une prise de décision instantanée rapide et précise. Si le robot manque d'un modèle de base avec de solides capacités de raisonnement, on n'oserait pas le laisser appuyer sur des boutons ou actionner des leviers au hasard. Mais s'il a de fortes capacités de raisonnement, il pourrait penser : "Avant de manipuler ce panneau, je devrais peut-être d'abord actionner ce levier pour activer le mécanisme de sécurité."

De plus, dans la gestion des catastrophes, un modèle avec raisonnement visuel pourrait analyser des images satellites pour surveiller et prévenir les feux de forêt ; dans l'ingénierie, il pourrait comprendre avec précision des plans visuels complexes, des schémas de système. L'importance de cette capacité réside dans le fait que les lois de fonctionnement du monde physique sont fondamentalement différentes de celles du monde purement code, on ne peut pas concevoir une aile d'avion juste en tapant quelques lignes de code pur.

Cependant, pour le moment, le modèle et les capacités d'Elorian AI restent sur le papier. Ils prévoient de publier en 2026 un modèle atteignant un niveau SOTA dans le domaine du raisonnement visuel. On pourra alors vérifier si leurs résultats correspondent aux annonces.

Quand l'IA aura vraiment des capacités de "raisonnement visuel", comment transformera-t-elle le monde physique ?

Pour que l'IA comprenne et influence le monde physique réel, la technologie a déjà itéré plusieurs fois.

De la reconnaissance d'images à l'ère du CV traditionnel, aux modèles de génération d'images / modèles multimodaux de l'IA générative, puis aux modèles mondiaux (world models), la compréhension du monde physique n'a cessé de s'améliorer.

Et les modèles de base pour le raisonnement visuel pourraient aller encore plus loin, car capables de raisonnement visuel, l'IA pourrait comprendre le monde physique plus profondément, réalisant ainsi un niveau supérieur d'intelligence machine.

Imaginez, lorsque des modèles dotés d'une compréhension profonde et d'opérations fines "rechargeront" l'industrie de l'intelligence incarnée et du matériel IA, cela élargira considérablement leur champ d'application. Par exemple, les robots pourraient effectuer une production industrielle plus fiable, ou intervenir dans le domaine des soins médicaux ; le matériel IA, en particulier les wearables, deviendrait des assistants personnels plus intelligents.

Cependant, à la base de ces technologies, il y a toujours les données. Comme l'a indiqué Andrew Dai précédemment, la qualité des données, leur mélange proportionnel, leur source et leur diversité déterminent les performances du modèle.

Dans le domaine de l'IA physique, les entreprises chinoises, que ce soit au niveau des modèles ou des données, sont plus proches de l'avant-garde mondiale comparé aux grands modèles textuels. Si elles peuvent profiter de leurs avantages en données et en richesse de scénarios d'application pour accélérer la vitesse d'itération, alors que ce soit pour l'intelligence incarnée ou le matériel IA, appliqués dans l'industrie, la médecine ou la maison, elles auront de plus grandes chances d'atteindre un niveau leader et pourront même faire émerger des entreprises de classe mondiale.

Pertanyaan Terkait

QQuel est l'objectif principal d'Elorian AI dans le domaine de l'intelligence artificielle?

AElorian AI vise à améliorer les capacités de raisonnement visuel des modèles d'IA, en les faisant passer d'un niveau 'enfantin' à un niveau 'adulte', et à développer une capacité de réflexion native dans l'espace visuel pour progresser vers une AGI du monde physique.

QPourquoi les modèles multimodaux actuels ont-ils des difficultés avec le raisonnement visuel selon l'article?

AParce qu'ils fonctionnent selon une approche en deux étapes : ils convertissent d'abord les entrées visuelles en langage, puis effectuent un raisonnement basé sur le texte. De nombreuses tâches visuelles ne peuvent pas être décrites avec précision par le texte, ce qui limite leurs capacités.

QQui sont les fondateurs d'Elorian AI et quelle est leur expérience?

ALes fondateurs sont Andrew Dai (ancien de Google DeepMind, 14 ans d'expérience), Yinfei Yang (expert en IA chez Apple et Google, spécialiste de l'apprentissage multimodal) et Seth Neel (ancien professeur assistant à Harvard, expert en données et IA).

QQuel est le montant et la source du financement obtenu par Elorian AI?

AElorian AI a levé 55 millions de dollars en financement early-stage, co-dirigé par Striker Venture Partners, Menlo Ventures et Altimeter, avec la participation de 49 Palms et de scientifiques de l'IA de premier plan comme Jeff Dean.

QQuels sont les domaines d'application potentiels mentionnés pour un modèle de raisonnement visuel avancé?

ALes applications incluent la robotique (systèmes autonomes), la gestion des catastrophes (analyse d'images satellites), l'ingénierie (compréhension de plans complexes) et les appareils IA portables (assistants personnels intelligents).

Bacaan Terkait

Debut Wash: Ketua FED yang Paling Paham Crypto Sepanjang Sejarah Akan Datangkan Kejutan atau Teror Bagi Pasar?

**Penampilan Perdana Kevin Warsh: Ketua Fed Paling Paham Crypto, Akan Bawa Kejutan atau Kekhawatiran?** Ketua Federal Reserve yang baru, Kevin Warsh, bersiap untuk konferensi pers kebijakan moneter pertamanya di tengah situasi sulit: inflasi yang bangkit kembali, tekanan pasar untuk menaikkan suku bunga, dan desakan Presiden Trump untuk menurunkan suku bunga. Yang unik, Warsh adalah ketua Fed pertama yang secara terbuka memiliki portofolio investasi tidak langsung yang signifikan di aset kripto dan perusahaan Web3, mencakup berbagai sektor seperti blockchain, DeFi, dan infrastruktur pembayaran. Pemahaman pribadinya tentang teknologi ini berbeda dengan pendahulunya. Analisis kebijakannya berfokus pada dua hal: **sikap hawkish melawan inflasi** yang mungkin berarti lingkungan suku bunga ketat, dan **sikap ramah terhadap aset digital** yang bisa membawa perubahan regulasi dari "pencegahan" menjadi "integrasi dan inovasi". Dampak pada pasar kripto dapat dilihat dari: **pergeseran ekspektasi regulasi** yang lebih mendukung, **penetapan ulang premi risiko** bergantung pada komunikasi kebijakan yang jelas dari Warsh, serta **aliran modal global** yang mungkin mengalir lebih deras ke aset kripto karena legitimasi yang meningkat. Dua skenario utama untuk penampilan perdananya: 1. **Kejutan:** Gabungan sikap kebijakan moneter yang relatif lunak (dovish) dan sinyal ramah kripto dapat memulihkan sentimen pasar. 2. **Kekhawatiran:** Sinyal hawkish yang lebih keras dari perkiraan, seperti isyarat kenaikan suku bunga, dapat memicu tekanan jual di aset berisiko, termasuk kripto. Meski secara etika Warsh telah menjual semua kepemilikannya terkait kripto, pemahaman mendalamnya tentang blockchain diharapkan dapat membentuk kerangka regulasi yang lebih koheren dan mendukung, menjadi infrastruktur penting bagi arus utama aset kripto dalam jangka panjang.

marsbit3j yang lalu

Debut Wash: Ketua FED yang Paling Paham Crypto Sepanjang Sejarah Akan Datangkan Kejutan atau Teror Bagi Pasar?

marsbit3j yang lalu

AGI Bukan Akhir, Makalah Baru DeepMind: Menuju ASI, Kemajuan AI yang Sesungguhnya Baru Dimulai

Jika Kecerdasan Buatan Umum (AGI) tercapai, apakah itu titik akhir? Tim Google DeepMind dalam laporan terbarunya berpendapat bahwa AGI **bukanlah akhir perjalanan**. AI diprediksi akan terus berkembang melampaui kemampuan tim ahli manusia terbaik, menuju Superintelligence (ASI). Laporan ini membedakan tiga konsep: AGI (kecerdasan setara manusia rata-rata), ASI (melampaui manusia di hampir semua bidang), dan UAI (batas teoretis maksimal). Transisi dari AGI ke ASI dapat melalui empat jalur potensial: 1. **Ekspansi Lanjutan**: Meningkatkan skala komputasi, model, dan data. 2. **Inovasi Algoritma**: Penyempurnaan paradigma yang ada atau pergeseran paradigma baru. 3. **Peningkatan Diri Secara Rekursif**: AI yang lebih kuat membantu mengembangkan generasi AI berikutnya yang lebih kuat. 4. **Koordinasi Multi-Agen**: Kecerdasan kolektif dari banyak sistem AGI yang berkolaborasi. Namun, terdapat enam kemacetan potensial: dinding data, tekanan sumber daya ekonomi & alam, batasan paradigma jaringan saraf saat ini, meningkatnya kesulitan penelitian, hambatan abstraksi, serta tantangan regulasi dan penerimaan sosial. Laporan ini juga menyoroti bahwa jika AI melampaui manusia, sistem evaluasi (benchmark) yang ada menjadi tidak relevan. Diperlukan kerangka pengukuran baru, seperti tugas kolaborasi/kompetisi multi-agen, pengujian yang dihasilkan otomatis, atau indikator tidak langsung seperti produktivitas ekonomi. ASI bukanlah sistem ajaib yang mahatahu; perkembangannya tetap dibatasi oleh hukum fisika, kompleksitas komputasi, data, sumber daya, dan umpan balik dunia nyata. Arah dan kecepatan kemajuan AI masih penuh ketidakpastian, sehingga memerlukan penelitian, prediksi, dan mekanisme evaluasi yang terus diperbarui.

marsbit4j yang lalu

AGI Bukan Akhir, Makalah Baru DeepMind: Menuju ASI, Kemajuan AI yang Sesungguhnya Baru Dimulai

marsbit4j yang lalu

Trading

Spot
Futures

Artikel Populer

Cara Membeli AR

Selamat datang di HTX.com! Kami telah membuat pembelian Arweave (AR) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli Arweave (AR) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan Arweave (AR) AndaSetelah melakukan pembelian, simpan Arweave (AR) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading Arweave (AR)Lakukan trading Arweave (AR) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

836 Total TayanganDipublikasikan pada 2024.12.11Diperbarui pada 2026.06.02

Cara Membeli AR

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga AR (AR) disajikan di bawah ini.

活动图片