Jelajahi AGI Dunia Fisik dengan "Penalaran Visual", ElorianAI Raised $55 Juta

marsbitОпубликовано 2026-04-23Обновлено 2026-04-23

Введение

Perusahaan rintisan AI, ElorianAI, yang didirikan oleh Andrew Dai (mantan Google DeepMind) dan Yinfei Yang (ahli AI Apple), telah mengumpulkan pendanaan $55 juta untuk mengembangkan model AI dengan kemampuan "visual reasoning" (penalaran visual) setara manusia dewasa. Saat ini, model multi-modal terkemuka seperti Gemini hanya memiliki kemampuan penalaran visual setara anak usia 3 tahun karena bergantung pada konversi input visual ke teks sebelum melakukan penalaran. ElorianAI bertujuan menciptakan model yang dapat berpikir secara "native" dalam ruang visual, memahami struktur, hubungan, dan batasan fisik secara langsung. Pendekatan ini diyakini sebagai kunci menuju AGI (Artificial General Intelligence) di dunia fisik, dengan aplikasi potensial di robotika (operasi otonom di lingkungan berbahaya), manajemen bencana, dan teknik. Model yang dirancang sebagai fondasi ini dijadwalkan rilis pada 2026.

Oleh | Alpha Gongshe

Kemampuan model besar AI dalam beberapa aspek telah melampaui manusia biasa, seperti pemrograman dan matematika. Dikatakan bahwa di dalam Anthropic, hampir 100% pemrograman sudah dilakukan oleh AI, dan Gemini Deep Think dari Google berhasil menyelesaikan 5 dari 6 soal di IMO 2025, mencapai level medali emas.

Namun, dalam penalaran visual, bahkan Gemini 3 Pro yang tingkatannya paling unggul, hanya mencapai level anak berusia 3 tahun pada BabyVision, sebuah Benchmark yang menguji kemampuan penalaran visual dasar.

Mengapa model besar sangat kuat dalam pemrograman dan matematika, tetapi lemah dalam penalaran visual? Ini karena "cara berpikirnya" memiliki keterbatasan. Model Bahasa Visual (VLM) perlu mengubah input visual menjadi bahasa terlebih dahulu, baru kemudian melakukan penalaran berbasis teks. Namun, banyak tugas visual yang sama sekali tidak dapat dideskripsikan secara akurat dengan kata-kata, yang mengakibatkan kemampuan penalaran visual model yang buruk.

Andrew Dai, yang bekerja di Google DeepMind selama 14 tahun, bersama ahli AI senior Apple, Yinfei Yang, mendirikan sebuah perusahaan bernama Elorian AI. Tujuan mereka adalah meningkatkan kemampuan penalaran visual model dari level "anak-anak" ke level "dewasa", dan memberikan model kemampuan untuk berpikir secara asli dalam "ruang visual", sehingga dapat mencapai AGI dunia fisik.

Elorian AI memperoleh pendanaan awal senilai $55 juta yang dipimpin bersama oleh Striker Venture Partners, Menlo Ventures, dan Altimeter, dengan partisipasi dari 49 Palms dan ilmuwan AI top termasuk Jeff Dean.

Pelopor Model Multimodal, Ingin Memberikan Model Visual Kemampuan Penalaran

Sebagai orang Tionghoa, Andrew Dai, lulusan sarjana komputer Cambridge dan doktor pembelajaran mesin Edinburgh, magang di Google selama masa doktoralnya, bergabung dengan Google pada tahun 2012, dan bertahan selama 14 tahun, hingga memulai bisnis.


Sumber gambar:Linkedin Andrew Dai

Tidak lama setelah bergabung dengan Google, ia dan Quoc V. Le bersama-sama menulis makalah pertama tentang pra-pelatihan model bahasa dan penyempurnaan terawasi berjudul "Semi-supervised Sequence Learning". Makalah ini meletakkan dasar bagi kelahiran GPT. Makalah perintis lainnya adalah "Glam: Efficient scaling of language models with mixture-of-experts", yang membuka jalan bagi arsitektur MoE yang sekarang menjadi arus utama.

Sumber gambar: Google

Selama di Google, ia juga terlibat secara mendalam dalam hampir semua pelatihan model besar, dari Palm hingga Gemini1.5 dan Gemini2.5. Di bawah pengaturan Jeff Dean, ia mulai memimpin bagian data Gemini (termasuk data sintetis) pada tahun 2023, dan tim ini kemudian berkembang menjadi ratusan orang.

Sumber gambar:Linkedin Yinfei Yang

Berdiri bersama Andrew Dai adalah Yinfei Yang, yang pernah bekerja di Google Research selama empat tahun, fokus pada pembelajaran representasi multimodal, kemudian bergabung dengan Apple, bertanggung jawab atas pengembangan model multimodal.

Sumber gambar:arxiv

Hasil penelitian perwakilannya "Scaling up visual and vision-language representation learning with noisy text supervision" mendorong perkembangan pembelajaran representasi multimodal.

Pendiri bersama Elorian AI juga termasuk Seth Neel, yang pernah menjadi AP (Asisten Profesor) di Universitas Harvard, dan juga ahli dalam bidang data dan AI.

Mengapa membahas makalah perintis apa yang ditulis oleh para pendiri bersama Elorian AI? Karena yang ingin mereka lakukan bukanlah optimasi tingkat teknik, tetapi pembaruan paradigma dari arsitektur dasar, untuk meningkatkan AI dari pemahaman cerdas berbasis teks ke pemahaman cerdas berbasis visual.

Kondisi model AI saat ini adalah, meskipun berkinerja baik dalam tugas berbasis teks, bahkan model besar multimodal paling mutakhir sekalipun, masih akan tersandung pada tugas visual grounding (penjangkaran visual) paling dasar.

Misalnya, bagaimana memasang suatu bagian dengan tepat ke dalam suatu perangkat mekanis, agar beroperasi lebih presisi dan efisien? Tugas fisik spasial seperti ini sangat sederhana bagi siswa sekolah dasar, tetapi sangat sulit bagi model besar multimodal yang ada.

Ini masih harus mencari petunjuk dari biologi. Dalam otak manusia, visual adalah substrat dasar yang mendukung banyak proses pemikiran. Kemampuan manusia menggunakan visual dan penalaran spasial jauh lebih lama daripada menggunakan penalaran logika bahasa.

Misalnya, mengajarkan orang lain melalui labirin, menggunakan deskripsi bahasa, akan membingungkan, tetapi menggambar sketsa dapat membuat orang langsung mengerti.

Contoh lain, bahkan seekor burung, meskipun tidak memiliki bahasa, dapat mengenali dan mereasoning fitur geografis melalui visual, sehingga mencapai migrasi jarak jauh global. Ini adalah sinyal kuat yang menunjukkan bahwa untuk benar-benar memajukan kemampuan reasoning mesin, visual kemungkinan besar adalah arah evolusi yang benar.

Jadi, bayangkan, jika dari awal pembangunan model, mencoba mengukir naluri visual biologis ini ke dalam gen AI, membangun model multimodal asli yang dapat "secara bersamaan memahami dan memproses teks, gambar, video, dan audio", maka model akan memiliki kemampuan pemahaman visual. Andrew Dai dan tim ingin membangun "synesthete" bawaan, mengajarkan mesin tidak hanya "melihat" dunia, tetapi juga "memahami" dunia.

Dalam pandangan Andrew Dai dan tim, memahami secara mendalam "dunia fisik" yang sebenarnya adalah kunci untuk mencapai lompatan kecerdasan mesin generasi berikutnya, dan akhirnya menyentuh "Kecerdasan Buatan Umum Visual (Visual AGI)".

VLM dengan Penalaran Posterior Bukan Jalan yang Benar Menuju Penalaran Visual

Sebelumnya bukan tidak ada tim yang ingin melakukan hal ini, sebenarnya tim Gemini tempat Andrew Dai sebelumnya, sudah merupakan tim yang sangat unggul di bidang multimodal secara global. Tetapi model multimodal tradisional, masih didominasi oleh VLM (Model Bahasa Visual), logikanya dibangun di atas dasar "dua langkah": pertama mengubah input visual menjadi bahasa, kemudian melakukan penalaran berbasis teks (kadang dengan bantuan memanggil alat eksternal).

Namun, penalaran posterior pada dasarnya memiliki keterbatasan, di satu sisi mudah menghasilkan halusinasi model, di sisi lain banyak tugas visual yang sama sekali tidak dapat dideskripsikan secara akurat dengan kata-kata.

Selain itu, model generasi visual seperti NanoBanana, unggul dalam generasi multimodal, tetapi kemampuan generasi dan kemampuan penalaran tidak sama, "pemikiran" mereka sebelum generasi, pada dasarnya masih bergantung pada model bahasa, bukan kemampuan penalaran asli.

Untuk mengembangkan model yang benar-benar dapat mengerti kompleksitas spasial, struktural, dan relasional dalam dunia visual, pasti perlu inovasi disruptif dalam teknologi dasar.

Lalu, bagaimana berinovasi? Beberapa pendiri Elorian AI telah berkecimpung di bidang multimodal selama bertahun-tahun, cara mereka adalah: menggabungkan pelatihan multimodal dengan arsitektur baru yang dirancang khusus untuk penalaran multimodal. Meninggalkan praktik tradisional menganggap gambar sebagai input statis, beralih melatih model untuk berinteraksi langsung dan memanipulasi representasi visual (Visual representations) untuk secara mandiri mengurai struktur, hubungan, dan batasan fisik di dalamnya.  

Tentu saja, elemen inti lainnya adalah data, yang merupakan kunci yang menentukan kinerja dan keberhasilan model-model ini.

Andrew Dai menyatakan, mereka sangat memperhatikan kualitas data, proporsi campuran data, sumber data, serta keragaman data, dan telah melakukan inovasi di lapisan data, merekonstruksi jalur penalaran dalam ruang visual, dan juga menggunakan data sintetis secara besar-besaran dan mendalam.

Upaya-upaya ini secara bersama-sama, akan melahirkan sistem AI baru yang dapat melampaui "persepsi" visual sederhana, menuju "penalaran" visual tingkat tinggi.

Sistem AI ini dapat berupa model dasar penalaran visual: yaitu membangun model yang sangat umum, tetapi berkinerja sangat unggul pada kumpulan kemampuan tertentu, kemampuan tertentu ini adalah penalaran visual.

Karena merupakan model dasar yang umum, bidang aplikasinya harus luas.

Pertama, di bidang robotika ia dapat menjadi pusat saraf bawah sistem yang kuat, memberikannya kemampuan untuk beroperasi secara mandiri di berbagai lingkungan asing.

Misalnya, di bidang robotika, mengirim robot untuk menangani suatu kegagalan keamanan mendadak di lingkungan berbahaya. Ini membutuhkan pengambilan keputusan instan yang cepat dan akurat oleh robot. Jika robot kekurangan model dasar kemampuan penalaran mendalam, orang tidak akan berani membiarkannya menekan tombol atau mengoperasikan tuas dengan sembarangan. Tetapi jika ia memiliki kemampuan penalaran yang sangat kuat, ia mungkin berpikir: "Sebelum mengoperasikan panel ini, mungkin saya harus menarik tuas ini terlebih dahulu, mengaktifkan mekanisme perlindungan keamanan."

Selain itu, dalam manajemen bencana, model dengan penalaran visual dapat memantau dan mencegah kebakaran hutan dengan menganalisis gambar satelit; di bidang teknik, ia dapat secara akurat memahami gambar visual yang kompleks, diagram sistem, pentingnya kemampuan ini terletak pada aturan operasi dunia fisik yang pada dasarnya berbeda dengan dunia kode murni, Anda tidak bisa hanya dengan mengetik beberapa baris kode murni merancang sayap pesawat.

Namun, saat ini model dan kemampuan Elorian AI masih terbatas di atas kertas, mereka berencana merilis model yang mencapai level SOTA di bidang penalaran visual pada tahun 2026, pada saat itu dapat menguji apakah hasil mereka sesuai dengan klaim.

Ketika AI Benar-benar Memiliki Kemampuan "Penalaran Visual", Bagaimana Ia Akan Mengubah Dunia Fisik?

Untuk membuat AI memahami dan mempengaruhi dunia fisik yang sebenarnya, teknologi telah beriterasi beberapa kali.

Dari pengenalan gambar di zaman CV tradisional, ke model generasi gambar/model multimodal AI generatif, hingga model dunia, pemahaman terhadap dunia fisik terus meningkat.

Dan model dasar penalaran visual, sangat mungkin melangkah lebih jauh, karena mampu mewujudkan penalaran visual, AI dapat memahami dunia fisik lebih dalam, sehingga mencapai kecerdasan mesin tingkat yang lebih tinggi.

Bayangkan, ketika model dengan pemahaman mendalam dan operasi halus mengisi daya industri kecerdasan embodied, serta industri perangkat keras AI, akan sangat memperluas cakupan aplikasinya. Misalnya, robot dapat melakukan produksi industri yang lebih andal, atau di bidang perawatan medis; perangkat keras AI, terutama perangkat yang dapat dikenakan, menjadi asisten pribadi yang lebih pintar.

Namun, di dasar teknologi ini, masih adalah data. Seperti yang dikatakan Andrew Dai sebelumnya, kualitas data, proporsi campuran data, sumber data, serta keragaman data, semuanya menentukan kinerja model.

Di bidang AI fisik, perusahaan-perusahaan Tiongkok, baik di tingkat model maupun data, dibandingkan dengan model besar, lebih mendekati tingkat terdepan dunia. Jika dapat memanfaatkan keunggulan data dan skenario aplikasi yang lebih kaya, mempercepat kecepatan iterasi, maka baik kecerdasan embodied maupun perangkat keras AI, baik yang diterapkan di industri, medis, maupun rumah tangga, memiliki peluang lebih besar untuk mencapai tingkat terdepan, dan tentu saja juga memiliki peluang untuk melahirkan perusahaan kelas dunia.

Связанные с этим вопросы

QApa yang menjadi tujuan utama Elorian AI dalam pengembangan AI?

ATujuan utama Elorian AI adalah meningkatkan kemampuan penalaran visual model AI dari tingkat 'anak-anak' ke tingkat 'dewasa', serta memberikan kemampuan berpikir asli dalam 'ruang visual' untuk mencapai AGI di dunia fisik.

QSiapa saja pendiri Elorian AI dan apa latar belakang mereka?

APendiri Elorian AI adalah Andrew Dai (mantan peneliti Google selama 14 tahun), Yinfei Yang (ahli AI dari Apple), dan Seth Neel (mantan profesor asisten di Harvard). Mereka memiliki pengalaman mendalam dalam bidang pembelajaran mesin dan multimodal.

QMengapa model multimodal tradisional (VLM) memiliki keterbatasan dalam penalaran visual?

AModel VLM tradisional mengonversi input visual ke dalam bahasa terlebih dahulu sebelum melakukan penalaran berbasis teks. Banyak tugas visual tidak dapat dideskripsikan secara akurat dengan teks, sehingga menyebabkan kemampuan penalaran visual yang lemah dan halusinasi model.

QBagaimana Elorian AI berencana meningkatkan kemampuan penalaran visual model AI?

AElorian AI berencana menggabungkan pelatihan multimodal dengan arsitektur baru yang dirancang khusus untuk penalaran multimodal, melatih model untuk berinteraksi langsung dengan representasi visual, serta menggunakan data sintetis secara besar-besaran dan inovasi pada lapisan data.

QApa potensi aplikasi model penalaran visual Elorian AI di dunia fisik?

AModel ini dapat diterapkan dalam robotika sebagai sistem saraf pusat, manajemen bencana (seperti memantau kebakaran hutan melalui citra satelit), teknik (memahami gambar visual kompleks), serta perangkat keras AI dan perawatan kesehatan.

Похожее

Google TPU Shipments Revised Up by 50%

Recent industry research indicates a significant upward revision in the shipments of Google's TPU (Tensor Processing Unit) chips. Previous expectations for 2027 were set at around 10 million units, but new estimates now point to 15 million units, a 50% increase. This substantial boost directly translates to higher demand across the entire supporting supply chain. Google's TPU clusters utilize a standardized all-optical interconnect architecture. Consequently, key hardware components are deeply integrated and scaled in fixed ratios with the chips. The 15 million TPU target will drive corresponding demand increases for NPO optical engines (roughly a 1:1 match), 1.6T optical modules, OCS optical switches, high-end server power supplies, fiber optics & MPO connectors, and liquid cooling solutions. Among these, liquid cooling is highlighted as the sector experiencing the most significant transformation and offering the most stable potential for excess returns. As next-generation TPU chips reach power levels where traditional air cooling is insufficient, liquid cooling becomes essential. 2026 is forecasted as the first year of substantial adoption for Google's liquid cooling solutions. This shift, coupled with delivery and capacity bottlenecks faced by incumbent overseas manufacturers, is creating a prime window for domestic Chinese suppliers to enter and secure Google's core supply chain. The market size for Google-specific liquid cooling is projected to potentially triple from a baseline of hundreds of billions to around 300 billion units by 2028. The logic for the fiber optic sector is also being rewritten. Once considered a cyclical commodity tied to telecom operator procurement, fiber is now a strategic and scarce resource for AI Data Centers (AIDC). A severe supply-demand imbalance, driven by the long lead time for preform production (18-24 months) and surging demand from cloud giants, is supporting strong performance. Chinese fiber manufacturers are well-positioned to capture a significant share of global AIDC demand, with exports potentially reaching 200-300 million core kilometers in 2026. Overall, the investment focus within the AI computing industry is shifting from pure "chip performance speculation" towards the more certain incremental growth in computing infrastructure and its supporting ecosystem. The upward revision in Google TPU shipments, along with the potential for further doubling by 2028, is seen as solidifying performance visibility for the entire supporting supply chain over the next two years.

marsbit37 мин. назад

Google TPU Shipments Revised Up by 50%

marsbit37 мин. назад

What Wall Street Really Wants After the Crypto Story Recedes

The tide of speculative crypto narratives has receded, revealing Wall Street's true objective: building a controlled, yield-generating, and compliant financial pipeline on distributed ledgers. They are migrating core functions onto blockchains, not for decentralization, but for efficiency and new revenue streams. Key developments include BlackRock's BUIDL fund, a tokenized treasury fund acting as a foundational reserve asset, and the rise of Securitize, which is going public and partnering with the NYSE to build a 24/7 digital securities trading and settlement system. This signals a major shift of securities clearing to blockchain technology. To make volatile assets like Bitcoin palatable for institutional investors, firms like BlackRock and Goldman Sachs are creating "covered call" ETFs (e.g., BITA). These products systematically sell options on Bitcoin holdings, transforming price volatility into stable monthly income, effectively repackaging crypto as a yield-bearing asset. Stablecoins are being positioned not as speculative tools but as efficient payment rails. Companies like Stripe and Mastercard are integrating them for instant, low-cost merchant settlements and cross-border card payments, respectively. Critically, new legislation like the GENIUS Act shapes them as non-interest-bearing, heavily regulated extensions of the US dollar system. In summary, Wall Street is quietly constructing a parallel, blockchain-based financial infrastructure featuring tokenized traditional assets, structured crypto yields, and programmable dollar pipelines—all under its control and fully integrated with existing regulatory and credit frameworks.

marsbit54 мин. назад

What Wall Street Really Wants After the Crypto Story Recedes

marsbit54 мин. назад

Tying Itself to SpaceX: Cursor's $60 Billion Rise

This article recounts the rapid rise of AI-powered coding startup Cursor and its 25-year-old MIT graduate CEO, Michael Truell. Launched in 2023, Cursor achieved explosive growth, reaching over 10 billion USD in revenue by late 2025. However, its journey highlights a central dilemma for AI application companies: dependence on foundational model providers. Cursor initially relied heavily on Anthropic's models but faced an existential threat when Anthropic launched its own competing coding tool, Claude Code. In response, Cursor declared an internal emergency in early 2026 and accelerated development of its own model, Composer. To secure the immense computing power needed, Truell struck a pivotal deal with Elon Musk's SpaceX in April 2026. The collaboration grants Cursor access to SpaceX's supercomputing resources for Composer, while SpaceX's Grok model benefits from Cursor's programming data. The agreement includes a potential 600 billion USD acquisition of Cursor by SpaceX later in the year, though a substantial termination fee is in place if the deal falls through. The story explores Cursor's intense, sometimes controversial hiring practices involving lengthy unpaid "work trials," its complex partnership-turned-rivalry with Anthropic, and its high-stakes gamble to ensure independence through the SpaceX alliance. The core question remains: will Cursor evolve into a defining, independent "generational" software company, or become a key piece in a tech giant's AI arsenal?

marsbit59 мин. назад

Tying Itself to SpaceX: Cursor's $60 Billion Rise

marsbit59 мин. назад

Warsh's Debut: Will the FED Chair Who Knows Crypto Best Bring Surprises or Shocks to the Market?

Kevin Warsh, the new Federal Reserve Chairman, prepares for his inaugural press conference amidst a challenging macroeconomic landscape: resurgent inflation, a bond market sell-off, and political pressure from President Trump for rate cuts. Uniquely, Warsh holds indirect investments in over 20 crypto and Web3 entities (e.g., Solana, dYdX), making him the first Fed Chair with disclosed crypto exposure. His stance may combine a hawkish, inflation-focused monetary policy with a crypto-friendly regulatory philosophy that shifts from Powell’s “same risk, same rule” approach toward a framework acknowledging blockchain’s productivity value. Warsh’s leadership could impact crypto markets across three dimensions: a paradigm shift in regulation (potentially accelerating pro-innovation legislation and stable币 rules), a re-pricing of risk premiums based on clearer communication and his view of AI as a structural disinflationary force, and a long-term reallocation of global institutional capital driven by increased legitimacy. Two potential scenarios for the press conference are outlined. A “positive surprise” would involve a dovish-leaning tone on rates coupled with signals of regulatory openness, potentially boosting crypto asset valuations. Conversely, a “negative shock” would see a more hawkish-than-expected stance on inflation and rates, triggering a broad risk-asset selloff that crypto markets would not escape. While ethics rules required Warsh to divest his crypto holdings upon confirmation, his deep understanding of the technology may fundamentally lower policy uncertainty and build a more receptive long-term foundation for digital assets’ integration into the mainstream financial system.

marsbit11 ч. назад

Warsh's Debut: Will the FED Chair Who Knows Crypto Best Bring Surprises or Shocks to the Market?

marsbit11 ч. назад

Торговля

Спот
Фьючерсы

Популярные статьи

Как купить AR

Добро пожаловать на HTX.com! Мы сделали приобретение Arweave (AR) простым и удобным. Следуйте нашему пошаговому руководству и отправляйтесь в свое крипто-путешествие.Шаг 1: Создайте аккаунт на HTXИспользуйте свой адрес электронной почты или номер телефона, чтобы зарегистрироваться и бесплатно создать аккаунт на HTX. Пройдите удобную регистрацию и откройте для себя весь функционал.Создать аккаунтШаг 2: Перейдите в Купить криптовалюту и выберите свой способ оплатыКредитная/Дебетовая Карта: Используйте свою карту Visa или Mastercard для мгновенной покупки Arweave (AR).Баланс: Используйте средства с баланса вашего аккаунта HTX для простой торговли.Третьи Лица: Мы добавили популярные способы оплаты, такие как Google Pay и Apple Pay, для повышения удобства.P2P: Торгуйте напрямую с другими пользователями на HTX.Внебиржевая Торговля (OTC): Мы предлагаем индивидуальные услуги и конкурентоспособные обменные курсы для трейдеров.Шаг 3: Хранение Arweave (AR)После приобретения вами Arweave (AR) храните их в своем аккаунте на HTX. В качестве альтернативы вы можете отправить их куда-либо с помощью перевода в блокчейне или использовать для торговли с другими криптовалютами.Шаг 4: Торговля Arweave (AR)С легкостью торгуйте Arweave (AR) на спотовом рынке HTX. Просто зайдите в свой аккаунт, выберите торговую пару, совершайте сделки и следите за ними в режиме реального времени. Мы предлагаем удобный интерфейс как для начинающих, так и для опытных трейдеров.

913 просмотров всегоОпубликовано 2024.03.29Обновлено 2026.06.02

Как купить AR

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на AR (AR) представлены ниже.

活动图片