Explorando la AGI del mundo físico con "razonamiento visual": ElorianAI recauda 55 millones de dólares

marsbitDipublikasikan tanggal 2026-04-23Terakhir diperbarui pada 2026-04-23

Abstrak

Aloritmo de Inteligencia Artificial ElorianAI recauda 55 millones de dólares para desarrollar modelos de razonamiento visual avanzado. Fundada por exinvestigadores de Google y Apple, la startup busca superar las limitaciones de los modelos multimodales actuales, que convierten inputs visuales en texto antes de procesarlos, lo que dificulta tareas de razonamiento espacial y físico. El equipo, liderado por Andrew Dai y Yinfei Yang, propone un nuevo paradigma arquitectónico que permite a la IA "pensar" nativamente en espacio visual, sin depender de intermediarios lingüísticos. Su objetivo es alcanzar un nivel de razonamiento visual adulto (frente al actual nivel infantil de modelos como Gemini) y avanzar hacia una AGI capaz de interactuar con el mundo físico. Las aplicaciones potenciales incluyen robótica autónoma en entornos complejos, gestión de desastres mediante análisis de imágenes satelitales o interpretación de planos de ingeniería. ElorianAI planea lanzar su primer modelo de referencia en 2026.

Por | Alpha Comunidad

La capacidad de los grandes modelos de IA ya supera a la de los humanos promedio en ciertos aspectos, como la programación y las matemáticas. Según informes, Anthropic ha logrado casi un 100% de programación con IA internamente, y Gemini Deep Think de Google resolvió 5 de los 6 problemas de la IMO 2025, alcanzando un nivel de medalla de oro.

Sin embargo, en cuanto al razonamiento visual, incluso el avanzado Gemini 3 Pro solo alcanzó el nivel de un niño de 3 años en BabyVision, un benchmark que evalúa capacidades básicas de razonamiento visual.

¿Por qué los grandes modelos son fuertes en programación y matemáticas, pero débiles en razonamiento visual? Esto se debe a las limitaciones en su "forma de pensar". Los modelos de lenguaje visual (VLM) necesitan convertir primero la entrada visual en lenguaje y luego realizar un razonamiento basado en texto. Pero muchas tareas visuales simplemente no pueden describirse con precisión mediante palabras, lo que resulta en una pobre capacidad de razonamiento visual del modelo.

Andrew Dai, quien trabajó 14 años en Google DeepMind, se unió al experto en IA de Apple, Yinfei Yang, para fundar una empresa llamada Elorian AI. Su objetivo es elevar la capacidad de razonamiento visual del modelo de "nivel infantil" a "nivel adulto", dotándolo de la capacidad de pensar de forma nativa en el "espacio visual" y así impulsar hacia la AGI del mundo físico.

Elorian AI ha recaudado 55 millones de dólares en una ronda inicial de financiación copilotada por Striker Venture Partners, Menlo Ventures y Altimeter, con la participación de 49 Palms y destacados científicos de IA, incluido Jeff Dean.

Pioneros en modelos multimodales buscan dotar de capacidad de razonamiento a los modelos visuales

Andrew Dai, de origen chino, es licenciado en Informática por Cambridge y doctor en Aprendizaje Automático por Edimburgo. Realizó prácticas en Google durante su doctorado y se unió a la empresa en 2012, permaneciendo allí durante 14 años hasta emprender.

Fuente de la imagen:Linkedin de Andrew Dai

Poco después de unirse a Google, coescribió con Quoc V. Le el primer artículo sobre el preentrenamiento de modelos de lenguaje y el ajuste fino supervisado, "Semi-supervised Sequence Learning". Este artículo sentó las bases para el nacimiento de GPT. Otro artículo fundamental suyo es "Glam: Efficient scaling of language models with mixture-of-experts", que abrió el camino a la arquitectura MoE, ahora predominante.

Fuente de la imagen: Google

Durante su tiempo en Google, participó profundamente en casi todos los entrenamientos de grandes modelos, desde Palm hasta Gemini 1.5 y Gemini 2.5. Bajo la dirección de Jeff Dean, en 2023 comenzó a liderar el área de datos de Gemini (incluidos los datos sintéticos), equipo que luego creció hasta contar con cientos de personas.

Fuente de la imagen:Linkedin de Yinfei Yang

El cofundador de Elorian AI es Yinfei Yang, quien trabajó durante cuatro años en Google Research, centrándose en el aprendizaje de representaciones multimodales, y luego se unió a Apple, donde dirigió la investigación y desarrollo de modelos multimodales.

Fuente de la imagen:arxiv

Su investigación representativa, "Scaling up visual and vision-language representation learning with noisy text supervision", impulsó el desarrollo del aprendizaje de representaciones multimodales.

El otro cofundador de Elorian AI es Seth Neel, ex profesor asistente (AP) en la Universidad de Harvard y también experto en datos e IA.

¿Por qué es relevante mencionar qué artículos pioneros escribieron los cofundadores de Elorian AI? Porque lo que pretenden hacer no es una optimización a nivel de ingeniería, sino una actualización de paradigma desde la arquitectura subyacente: hacer que la IA evolucione de una comprensión inteligente basada en texto a una basada en lo visual.

La situación actual de los modelos de IA es que, aunque son excelentes en tareas basadas en texto, incluso los modelos multimodales más avanzados tropiezan en las tareas más básicas de grounding visual.

Por ejemplo, ¿cómo encajar una pieza perfectamente en un dispositivo mecánico para que funcione con mayor precisión y eficiencia? Este tipo de tareas espaciales y físicas son simples para un niño de primaria, pero muy difíciles para los modelos multimodales actuales.

La clave sigue estando en la biología. En el cerebro humano, la visión es el sustrato subyacente que sustenta muchos procesos de pensamiento. La capacidad humana para utilizar la visión y el razonamiento espacial es mucho más antigua que el razonamiento lógico-lingüístico.

Por ejemplo, enseñar a alguien a recorrer un laberinto con descripciones verbales puede resultar confuso, pero con un simple dibujo se entiende al instante.

Incluso un pájaro, aunque carece de lenguaje, puede reconocer y razonar sobre características geográficas through la visión para realizar migraciones globales de larga distancia. Esta es una señal poderosa de que la visión es probablemente la dirección correcta para avanzar verdaderamente en la capacidad de razonamiento de las máquinas.

Imaginemos entonces que, si desde el inicio de la construcción del modelo se intenta incorporar este instinto visual biológico en el ADN de la IA, construyendo un modelo multimodal nativo capaz de "comprender y procesar simultáneamente texto, imágenes, video y audio", se podrá dotar al modelo de capacidad de comprensión visual. Andrew Dai y su equipo quieren construir un "sinestésico" innato, enseñando a la máquina no solo a "ver" el mundo, sino a "entenderlo".

Para Andrew Dai y su equipo, la comprensión profunda del "mundo físico" real es la clave para lograr el próximo salto en la inteligencia de las máquinas y alcanzar finalmente la "IA General Visual (Visual AGI)".

Los VLM con razonamiento posterior no son el camino correcto hacia el razonamiento visual

No es que no haya habido equipos que quisieran hacer esto antes. De hecho, el equipo de Gemini en el que estaba Andrew Dai ya era uno de los más avanzados del mundo en multimodalidad. Pero los modelos multimodales tradicionales siguen siendo principalmente VLM (Modelos de Lenguaje Visual), cuya lógica se basa en un enfoque de "dos pasos": primero convertir la entrada visual en lenguaje y luego realizar un razonamiento basado en texto (a veces auxiliándose de herramientas externas).

Sin embargo, el razonamiento posterior tiene limitaciones inherentes: por un lado, es propenso a generar alucinaciones en el modelo, y por otro, muchas tareas visuales simplemente no se pueden describir con precisión mediante texto.

Además, los modelos de generación visual como NanoBanana son excelentes en generación multimodal, pero la capacidad de generación no equivale a la capacidad de razonamiento. Su "pensamiento" previo a la generación depende esencialmente de modelos de lenguaje, no de una capacidad de razonamiento nativa.

Para desarrollar modelos que realmente puedan discernir las complejidades espaciales, estructurales y relacionales del mundo visual, es imperativo realizar innovaciones disruptivas en la tecnología subyacente.

Entonces, ¿cómo innovar? Los fundadores de Elorian AI, con años de experiencia en el campo multimodal, proponen: fusionar profundamente el entrenamiento multimodal con una nueva arquitectura diseñada específicamente para el razonamiento multimodal. Abandonan el enfoque tradicional de tratar las imágenes como entradas estáticas y en su lugar entrenan al modelo para que interactúe y opere directamente con las representaciones visuales, analizando de forma autónoma su estructura, relaciones y restricciones físicas.

Por supuesto, otro elemento central son los datos, cruciales para el rendimiento y el éxito de estos modelos.

Andrew Dai señaló que dan mucha importancia a la calidad de los datos, la proporción de la mezcla de datos, la fuente de los datos y su diversidad, y que han innovado a nivel de la capa de datos, reconstruyendo la cadena de razonamiento en el espacio visual y utilizando datos sintéticos de forma masiva y profunda.

Estos esfuerzos combinados darán lugar a nuevos sistemas de IA que transiten de la simple "percepción" visual a un "razonamiento" visual de alto nivel.

Este sistema de IA podría ser un modelo base de razonamiento visual: es decir, construir un modelo altamente general pero extremadamente competente en un conjunto específico de capacidades, que es el razonamiento visual.

Al ser un modelo base general, su campo de aplicación debería ser amplio.

En primer lugar, en el campo de la robótica, podría convertirse en el sistema nervioso central subyacente de potentes sistemas, dotándolos de capacidad para operar autónomamente en diversos entornos desconocidos.

Por ejemplo, enviar un robot a manejar una falla de seguridad repentina en un entorno peligroso. Esto requiere que el robot tome decisiones instantáneas rápidas y precisas. Si el robot carece de un modelo base con capacidad de razonamiento profundo, no nos atreveríamos a dejar que presione botones o opere palancas a ciegas. Pero si tuviera una capacidad de razonamiento extremadamente fuerte, podría pensar: "Antes de operar este panel, quizás debería jalar primero esta palanca para activar el mecanismo de seguridad".

Además, en la gestión de desastres, un modelo con razonamiento visual podría analizar imágenes satelitales para monitorear y prevenir incendios forestales; en ingeniería, podría comprender con precisión planos visuales complejos y diagramas de sistemas. La importancia de esta capacidad radica en que las reglas de funcionamiento del mundo físico son fundamentalmente diferentes a las del mundo del código puro; no se puede diseñar el ala de un avión simplemente escribiendo unas líneas de código.

Sin embargo, por ahora, el modelo y las capacidades de Elorian AI permanecen solo sobre el papel. Planean lanzar en 2026 un modelo que alcance un nivel SOTA (state-of-the-art) en el campo del razonamiento visual. Entonces podremos comprobar si sus resultados se ajustan a lo anunciado.

Cuando la IA tenga realmente capacidad de "razonamiento visual", ¿cómo cambiará el mundo físico?

Para que la IA comprenda e influya en el mundo físico real, la tecnología ha iterado varias veces.

Desde el reconocimiento de imágenes en la era de la CV tradicional, pasando por los modelos de generación de imágenes/modelos multimodales de la IA generativa, hasta los modelos mundiales (world models), la comprensión del mundo físico no ha dejado de mejorar.

Y es muy probable que los modelos base de razonamiento visual vayan un paso más allá, porque al poder realizar un razonamiento visual, la IA podrá comprender el mundo físico más profundamente, logrando así un nivel superior de inteligencia artificial.

Imaginen que, cuando modelos con una comprensión profunda y una operación precisa alimenten la industria de la inteligencia embodada (embodied AI) y la de hardware de IA, se expandirá enormemente su rango de aplicaciones. Por ejemplo, los robots podrán realizar tareas de producción industrial o de cuidado médico más confiables; el hardware de IA, especialmente los dispositivos wearables, se convertirán en asistentes personales más inteligentes.

No obstante, en la base de estas tecnologías siguen estando los datos. Como mencionó anteriormente Andrew Dai, la calidad de los datos, la proporción de la mezcla, la fuente y la diversidad determinan el rendimiento del modelo.

En el campo de la IA física, las empresas chinas, tanto a nivel de modelos como de datos, están más cerca del liderazgo mundial en comparación con los grandes modelos de texto. Si pueden aprovechar la ventaja de contar con datos y escenarios de aplicación más abundantes para acelerar la velocidad de iteración, entonces, ya sea en inteligencia embodada o hardware de IA, ya sea aplicada en industria, medicina o hogares, tendrán una mayor oportunidad de alcanzar un nivel líder y, por supuesto, de dar lugar a empresas de clase mundial.

Kripto yang Sedang Tren

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

PancakeSwapCAKE

JUSTJST

Pertanyaan Terkait

Q¿Qué es Elorian AI y cuál es su objetivo principal?

AElorian AI es una empresa fundada por Andrew Dai y Yinfei Yang que busca mejorar la capacidad de razonamiento visual de los modelos de IA, elevándola de un nivel 'infantil' a uno 'adulto', y desarrollar modelos que puedan 'pensar' de forma nativa en el espacio visual para avanzar hacia una IA general (AGI) en el mundo físico.

Q¿Por qué los modelos multimodales actuales tienen dificultades con el razonamiento visual?

APorque utilizan un enfoque de dos pasos: primero convierten la entrada visual en lenguaje y luego realizan el razonamiento basado en texto. Muchas tareas visuales no pueden describirse con precisión con palabras, lo que limita su capacidad de razonamiento visual.

Q¿Quiénes son los fundadores de Elorian AI y qué experiencia previa tienen?

ALos fundadores son Andrew Dai, exinvestigador de Google DeepMind durante 14 años y experto en modelos de lenguaje, y Yinfei Yang, exinvestigador de Google y Apple especializado en aprendizaje de representaciones multimodales. También incluye a Seth Neel, ex profesor asistente de Harvard y experto en datos e IA.

Q¿Cómo planea Elorian AI abordar las limitaciones actuales del razonamiento visual en IA?

APlanean fusionar el entrenamiento multimodal con una nueva arquitectura diseñada para el razonamiento multimodal, entrenando modelos para interactuar y manipular representaciones visuales directamente, y utilizando datos sintéticos a gran escala para reconstruir la cadena de razonamiento en el espacio visual.

Q¿Qué aplicaciones prácticas podría tener un modelo con capacidad avanzada de razonamiento visual?

APodría aplicarse en robótica para operar en entornos desconocidos, gestión de desastres mediante análisis de imágenes satelitales, ingeniería para interpretar planos visuales complejos, y en dispositivos portátiles de IA para asistentes personales más inteligentes.

Bacaan Terkait

Arthur Hayes Lakukan Penjualan Besar-besaran Ethereum dan Dua Altcoin!

Ada laporan bahwa Arthur Hayes, salah satu pendiri BitMEX, telah menjual sebagian besar aset Ethereum ($ETH) miliknya setelah harga turun hampir 3%. Menurut data blockchain, dalam dua minggu terakhir, Hayes membeli total 3.298 $ETH melalui perdagangan over-the-counter dengan harga rata-rata $1.916. Namun, sekitar dua jam lalu, alamat yang diduga milik Hayes mentransfer 2.364 $ETH ke alamat yang terkait dengan Cumberland dan Galaxy Digital. Setelah transfer tersebut, dompet Hayes menerima 4,30 juta USDC, dan analisis transaksi menunjukkan bahwa $ETH yang ditransfer kemungkinan besar telah dijual. Jika Hayes menjual 2.364 $ETH, diperkirakan transaksi itu menyebabkan kerugian sekitar $220.000. Selain itu, data blockchain juga mengungkapkan bahwa Hayes baru-baru ini menjual SYN senilai $658.000 dan ENA senilai $248.000. Pertukaran cryptocurrency BitMEX, yang didirikan oleh Hayes, baru-baru ini mengumumkan keputusan untuk menutup secara permanen.

cryptonews.ru10m yang lalu

Arthur Hayes Lakukan Penjualan Besar-besaran Ethereum dan Dua Altcoin!

cryptonews.ru10m yang lalu

Goldman Sachs: Juli Menghancurkan Perdagangan Padat, Pasar Bull AS Tak Terputus Tapi Lebih Sulit

Menurut analisis Goldman Sachs, pasar saham AS pada Juli mengalami koreksi yang lebih didorong oleh penyesuaian posisi (deleveraging) ketimbang keruntuhan indeks utama. Meskipun S&P 500 relatif stabil (hanya turun <2% dari puncak), terjadi gejolak besar di bawah permukaan. Transaksi yang sebelumnya padat dan digerakkan momentum—seperti saham AI, teknologi berkecepatan tinggi, dan strategi Asia—mengalami tekanan likuiditas dan penjualan besar-besaran. Leverage pada sektor teknologi global turun ke level terendah dalam lima tahun terakhir, dan eksposur terhadap momentum berada pada persentil ke-28 dalam satu tahun terakhir. Perdebatan utama pada saham AI bergeser dari narasi menuju keberlanjutan profitabilitas, dengan kinerja perusahaan cloud seperti Microsoft dan Amazon yang lebih baik meredam kekhawatiran. Komunikasi Federal Reserve yang lebih hati-hati dan tekanan pada imbal hasil obligasi jangka panjang menambah ketidakpastian. Secara keseluruhan, dasar fundamental pasar saham AS masih solid didukung ekonomi dan pengeluaran modal AI, namun elastisitas kenaikan telah melemah. Tren bull market belum berakhir, tetapi periode ke depan akan lebih fluktuatif dan menuntut selektivitas yang lebih tinggi, bukan sekadar "beli dan tahan". Juli menjadi pengingat bahwa pasar tidak memberi imbalan untuk posisi yang terlalu padat dan leverage berlebihan.

marsbit1j yang lalu

Goldman Sachs: Juli Menghancurkan Perdagangan Padat, Pasar Bull AS Tak Terputus Tapi Lebih Sulit

marsbit1j yang lalu

Pembukaan Kunci Token Mingguan: IOTA, AERO, HYPE Mengalami Pembukaan Kecil

Pembaruan Token Minggu Ini: IOTA, AERO, HYPE Alami Peluncuran Kecil Hyperliquid (HYPE) - Jumlah peluncuran: 430,000 token - Nilai perkiraan: ~$22.56 juta - Hyperliquid adalah blockchain kinerja tinggi yang bertujuan membangun sistem keuangan terbuka yang sepenuhnya on-chain. Platform ini menyatukan likuiditas, aplikasi pengguna, dan aktivitas perdagangan untuk menampung semua aktivitas keuangan dalam satu ekosistem terpadu. Tersedia tautan ke Twitter dan situs web resmi proyek, serta bagan yang menunjukkan kurva pelepasan token.

marsbit1j yang lalu

Pembukaan Kunci Token Mingguan: IOTA, AERO, HYPE Mengalami Pembukaan Kecil

marsbit1j yang lalu

RUU Kripto yang Ditunggu-tunggu, Dikenal sebagai 'RUU Kejelasan', Berada di Tahap Kritis: Gedung Putih Akan Membahasnya Akhir Pekan Ini

Masa depan U.S. Crypto-Asset Regulatory Clarity Act atau "CLARITY Act" berada di titik kritis, dengan keputusan Gedung Putih Trump diharapkan pada akhir pekan ini terkait proposal etika baru dari kedua partai. Proposal alternatif oleh Senator Republik Tom Tillis dan Senator Demokrat Ruben Gallego ini bertujuan mengatasi kekhawatiran Demokrat dengan memberi wewenang kepada jaksa agung negara bagian untuk menuntut pejabat federal jika Departemen Kehakiman gagal menegakkan aturan etika. Versi sebelumnya didukung Gedung Putih namun dikritik karena penegakan tetap di Departemen Kehakiman dan batas waktu yang berakhir Januari 2029. Jika kesepakatan etika tercapai, Senat dapat melakukan pemungutan suara untuk CLARITY Act, meski memerlukan dukungan 60 senator. RUU yang telah disetujui Komite Perbankan Senat ini bertujuan memperjelas yurisdiksi SEC dan CFTC atas aset kripto, menciptakan kerangka pasar, mengatur imbal hasil stablecoin, dan memberikan perlindungan hukum tertentu bagi pengembang perangkat lunak. Kompromi pada aturan stablecoin membatasi pembayaran mirip bunga yang hanya berdasarkan kepemilikan token, tetapi mengizinkan imbalan terkait transaksi, pembayaran, program loyalitas, atau penggunaan platform. Kegagalan mencapai kesepakatan etika dapat kembali menghalangi kemajuan RUU ini di Senat, memperpanjang ketidakpastian regulasi untuk imbal hasil stablecoin dan implementasi ketentuan terkait dalam GENIUS Act.

cryptonews.ru1j yang lalu

RUU Kripto yang Ditunggu-tunggu, Dikenal sebagai 'RUU Kejelasan', Berada di Tahap Kritis: Gedung Putih Akan Membahasnya Akhir Pekan Ini

cryptonews.ru1j yang lalu

Wawancara dengan Eksekutif Robinhood: Strategi Akusisi 'Barbel' dengan Meme + Tokenisasi Saham AS, Semua Lini Bisnis Capai Pendapatan Ratusan Juta Dolar

Wawancara dengan Johann Kerbrat, Wakil Presiden Senior Robinhood, mengungkap strategi mereka untuk mendorong adopsi crypto melalui "strategi barbell": memadukan meme coin untuk menarik pengguna DeFi dengan tokenisasi saham AS (RWA) untuk menjangkau pengguna global yang kesulitan mengakses pasar modal tradisional. Robinhood Chain, yang baru diluncurkan tiga minggu, telah mencatat volume perdagangan mingguan lebih dari $30 miliar dan lebih dari 1,05 miliar transaksi. Strategi intinya adalah memindahkan 27 juta akun berdananya ke ekosistem blockchain dengan menyederhanakan pengalaman DeFi. Produk seperti Robinhood Earn memungkinkan pengguna mendapatkan yield aset kripto tanpa harus mengelola dompet atau private key. Tokenisasi saham, yang kini mencakup 90+ saham di 120+ negara, menawarkan solusi seperti perdagangan 24/7 dan akses internasional. Kerbrat menekankan bahwa mereka memilih stack teknologi Arbitrum daripada membangun L1 sendiri untuk memanfaatkan keamanan Ethereum dan likuiditas EVM. Fokus mereka adalah memperluas pasar secara keseluruhan, bukan bersaing langsung dengan platform seperti Base. Kemitraan dengan proyek DeFi dipilih berdasarkan kesesuaian regulasi, kemampuan membangun pengalaman unik, dan diferensiasi. Visi jangka panjang Robinhood adalah menjadi "aplikasi super" yang memenuhi semua kebutuhan keuangan pengguna, dengan semua lini bisnisnya telah menghasilkan pendapatan miliaran dolar.

marsbit3j yang lalu

Wawancara dengan Eksekutif Robinhood: Strategi Akusisi 'Barbel' dengan Meme + Tokenisasi Saham AS, Semua Lini Bisnis Capai Pendapatan Ratusan Juta Dolar

marsbit3j yang lalu

Trading

Spot

Artikel Populer

Cara Membeli AR

Selamat datang di HTX.com! Kami telah membuat pembelian Arweave (AR) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli Arweave (AR) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan Arweave (AR) AndaSetelah melakukan pembelian, simpan Arweave (AR) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading Arweave (AR)Lakukan trading Arweave (AR) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

889 Total TayanganDipublikasikan pada 2024.12.11Diperbarui pada 2026.06.02

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga AR (AR) disajikan di bawah ini.

Explorando la AGI del mundo físico con "razonamiento visual": ElorianAI recauda 55 millones de dólares

Abstrak

Pioneros en modelos multimodales buscan dotar de capacidad de razonamiento a los modelos visuales

Los VLM con razonamiento posterior no son el camino correcto hacia el razonamiento visual

Cuando la IA tenga realmente capacidad de "razonamiento visual", ¿cómo cambiará el mundo físico?

Kripto yang Sedang Tren

Pertanyaan Terkait

Bacaan Terkait

Arthur Hayes Lakukan Penjualan Besar-besaran Ethereum dan Dua Altcoin!

Goldman Sachs: Juli Menghancurkan Perdagangan Padat, Pasar Bull AS Tak Terputus Tapi Lebih Sulit

Pembukaan Kunci Token Mingguan: IOTA, AERO, HYPE Mengalami Pembukaan Kecil

RUU Kripto yang Ditunggu-tunggu, Dikenal sebagai 'RUU Kejelasan', Berada di Tahap Kritis: Gedung Putih Akan Membahasnya Akhir Pekan Ini

Wawancara dengan Eksekutif Robinhood: Strategi Akusisi 'Barbel' dengan Meme + Tokenisasi Saham AS, Semua Lini Bisnis Capai Pendapatan Ratusan Juta Dolar

Trading

Artikel Populer

Cara Membeli AR

Diskusi

Kategori Populer

Tag Populer