Jelajahi AGI Dunia Fisik dengan "Penalaran Visual", ElorianAI Raised $55 Juta

marsbitPublished on 2026-04-23Last updated on 2026-04-23

Abstract

Perusahaan rintisan AI, ElorianAI, yang didirikan oleh Andrew Dai (mantan Google DeepMind) dan Yinfei Yang (ahli AI Apple), telah mengumpulkan pendanaan $55 juta untuk mengembangkan model AI dengan kemampuan "visual reasoning" (penalaran visual) setara manusia dewasa. Saat ini, model multi-modal terkemuka seperti Gemini hanya memiliki kemampuan penalaran visual setara anak usia 3 tahun karena bergantung pada konversi input visual ke teks sebelum melakukan penalaran. ElorianAI bertujuan menciptakan model yang dapat berpikir secara "native" dalam ruang visual, memahami struktur, hubungan, dan batasan fisik secara langsung. Pendekatan ini diyakini sebagai kunci menuju AGI (Artificial General Intelligence) di dunia fisik, dengan aplikasi potensial di robotika (operasi otonom di lingkungan berbahaya), manajemen bencana, dan teknik. Model yang dirancang sebagai fondasi ini dijadwalkan rilis pada 2026.

Oleh | Alpha Gongshe

Kemampuan model besar AI dalam beberapa aspek telah melampaui manusia biasa, seperti pemrograman dan matematika. Dikatakan bahwa di dalam Anthropic, hampir 100% pemrograman sudah dilakukan oleh AI, dan Gemini Deep Think dari Google berhasil menyelesaikan 5 dari 6 soal di IMO 2025, mencapai level medali emas.

Namun, dalam penalaran visual, bahkan Gemini 3 Pro yang tingkatannya paling unggul, hanya mencapai level anak berusia 3 tahun pada BabyVision, sebuah Benchmark yang menguji kemampuan penalaran visual dasar.

Mengapa model besar sangat kuat dalam pemrograman dan matematika, tetapi lemah dalam penalaran visual? Ini karena "cara berpikirnya" memiliki keterbatasan. Model Bahasa Visual (VLM) perlu mengubah input visual menjadi bahasa terlebih dahulu, baru kemudian melakukan penalaran berbasis teks. Namun, banyak tugas visual yang sama sekali tidak dapat dideskripsikan secara akurat dengan kata-kata, yang mengakibatkan kemampuan penalaran visual model yang buruk.

Andrew Dai, yang bekerja di Google DeepMind selama 14 tahun, bersama ahli AI senior Apple, Yinfei Yang, mendirikan sebuah perusahaan bernama Elorian AI. Tujuan mereka adalah meningkatkan kemampuan penalaran visual model dari level "anak-anak" ke level "dewasa", dan memberikan model kemampuan untuk berpikir secara asli dalam "ruang visual", sehingga dapat mencapai AGI dunia fisik.

Elorian AI memperoleh pendanaan awal senilai $55 juta yang dipimpin bersama oleh Striker Venture Partners, Menlo Ventures, dan Altimeter, dengan partisipasi dari 49 Palms dan ilmuwan AI top termasuk Jeff Dean.

Pelopor Model Multimodal, Ingin Memberikan Model Visual Kemampuan Penalaran

Sebagai orang Tionghoa, Andrew Dai, lulusan sarjana komputer Cambridge dan doktor pembelajaran mesin Edinburgh, magang di Google selama masa doktoralnya, bergabung dengan Google pada tahun 2012, dan bertahan selama 14 tahun, hingga memulai bisnis.

Sumber gambar:Linkedin Andrew Dai

Tidak lama setelah bergabung dengan Google, ia dan Quoc V. Le bersama-sama menulis makalah pertama tentang pra-pelatihan model bahasa dan penyempurnaan terawasi berjudul "Semi-supervised Sequence Learning". Makalah ini meletakkan dasar bagi kelahiran GPT. Makalah perintis lainnya adalah "Glam: Efficient scaling of language models with mixture-of-experts", yang membuka jalan bagi arsitektur MoE yang sekarang menjadi arus utama.

Sumber gambar: Google

Selama di Google, ia juga terlibat secara mendalam dalam hampir semua pelatihan model besar, dari Palm hingga Gemini1.5 dan Gemini2.5. Di bawah pengaturan Jeff Dean, ia mulai memimpin bagian data Gemini (termasuk data sintetis) pada tahun 2023, dan tim ini kemudian berkembang menjadi ratusan orang.

Sumber gambar:Linkedin Yinfei Yang

Berdiri bersama Andrew Dai adalah Yinfei Yang, yang pernah bekerja di Google Research selama empat tahun, fokus pada pembelajaran representasi multimodal, kemudian bergabung dengan Apple, bertanggung jawab atas pengembangan model multimodal.

Sumber gambar:arxiv

Hasil penelitian perwakilannya "Scaling up visual and vision-language representation learning with noisy text supervision" mendorong perkembangan pembelajaran representasi multimodal.

Pendiri bersama Elorian AI juga termasuk Seth Neel, yang pernah menjadi AP (Asisten Profesor) di Universitas Harvard, dan juga ahli dalam bidang data dan AI.

Mengapa membahas makalah perintis apa yang ditulis oleh para pendiri bersama Elorian AI? Karena yang ingin mereka lakukan bukanlah optimasi tingkat teknik, tetapi pembaruan paradigma dari arsitektur dasar, untuk meningkatkan AI dari pemahaman cerdas berbasis teks ke pemahaman cerdas berbasis visual.

Kondisi model AI saat ini adalah, meskipun berkinerja baik dalam tugas berbasis teks, bahkan model besar multimodal paling mutakhir sekalipun, masih akan tersandung pada tugas visual grounding (penjangkaran visual) paling dasar.

Misalnya, bagaimana memasang suatu bagian dengan tepat ke dalam suatu perangkat mekanis, agar beroperasi lebih presisi dan efisien? Tugas fisik spasial seperti ini sangat sederhana bagi siswa sekolah dasar, tetapi sangat sulit bagi model besar multimodal yang ada.

Ini masih harus mencari petunjuk dari biologi. Dalam otak manusia, visual adalah substrat dasar yang mendukung banyak proses pemikiran. Kemampuan manusia menggunakan visual dan penalaran spasial jauh lebih lama daripada menggunakan penalaran logika bahasa.

Misalnya, mengajarkan orang lain melalui labirin, menggunakan deskripsi bahasa, akan membingungkan, tetapi menggambar sketsa dapat membuat orang langsung mengerti.

Contoh lain, bahkan seekor burung, meskipun tidak memiliki bahasa, dapat mengenali dan mereasoning fitur geografis melalui visual, sehingga mencapai migrasi jarak jauh global. Ini adalah sinyal kuat yang menunjukkan bahwa untuk benar-benar memajukan kemampuan reasoning mesin, visual kemungkinan besar adalah arah evolusi yang benar.

Jadi, bayangkan, jika dari awal pembangunan model, mencoba mengukir naluri visual biologis ini ke dalam gen AI, membangun model multimodal asli yang dapat "secara bersamaan memahami dan memproses teks, gambar, video, dan audio", maka model akan memiliki kemampuan pemahaman visual. Andrew Dai dan tim ingin membangun "synesthete" bawaan, mengajarkan mesin tidak hanya "melihat" dunia, tetapi juga "memahami" dunia.

Dalam pandangan Andrew Dai dan tim, memahami secara mendalam "dunia fisik" yang sebenarnya adalah kunci untuk mencapai lompatan kecerdasan mesin generasi berikutnya, dan akhirnya menyentuh "Kecerdasan Buatan Umum Visual (Visual AGI)".

VLM dengan Penalaran Posterior Bukan Jalan yang Benar Menuju Penalaran Visual

Sebelumnya bukan tidak ada tim yang ingin melakukan hal ini, sebenarnya tim Gemini tempat Andrew Dai sebelumnya, sudah merupakan tim yang sangat unggul di bidang multimodal secara global. Tetapi model multimodal tradisional, masih didominasi oleh VLM (Model Bahasa Visual), logikanya dibangun di atas dasar "dua langkah": pertama mengubah input visual menjadi bahasa, kemudian melakukan penalaran berbasis teks (kadang dengan bantuan memanggil alat eksternal).

Namun, penalaran posterior pada dasarnya memiliki keterbatasan, di satu sisi mudah menghasilkan halusinasi model, di sisi lain banyak tugas visual yang sama sekali tidak dapat dideskripsikan secara akurat dengan kata-kata.

Selain itu, model generasi visual seperti NanoBanana, unggul dalam generasi multimodal, tetapi kemampuan generasi dan kemampuan penalaran tidak sama, "pemikiran" mereka sebelum generasi, pada dasarnya masih bergantung pada model bahasa, bukan kemampuan penalaran asli.

Untuk mengembangkan model yang benar-benar dapat mengerti kompleksitas spasial, struktural, dan relasional dalam dunia visual, pasti perlu inovasi disruptif dalam teknologi dasar.

Lalu, bagaimana berinovasi? Beberapa pendiri Elorian AI telah berkecimpung di bidang multimodal selama bertahun-tahun, cara mereka adalah: menggabungkan pelatihan multimodal dengan arsitektur baru yang dirancang khusus untuk penalaran multimodal. Meninggalkan praktik tradisional menganggap gambar sebagai input statis, beralih melatih model untuk berinteraksi langsung dan memanipulasi representasi visual (Visual representations) untuk secara mandiri mengurai struktur, hubungan, dan batasan fisik di dalamnya.

Tentu saja, elemen inti lainnya adalah data, yang merupakan kunci yang menentukan kinerja dan keberhasilan model-model ini.

Andrew Dai menyatakan, mereka sangat memperhatikan kualitas data, proporsi campuran data, sumber data, serta keragaman data, dan telah melakukan inovasi di lapisan data, merekonstruksi jalur penalaran dalam ruang visual, dan juga menggunakan data sintetis secara besar-besaran dan mendalam.

Upaya-upaya ini secara bersama-sama, akan melahirkan sistem AI baru yang dapat melampaui "persepsi" visual sederhana, menuju "penalaran" visual tingkat tinggi.

Sistem AI ini dapat berupa model dasar penalaran visual: yaitu membangun model yang sangat umum, tetapi berkinerja sangat unggul pada kumpulan kemampuan tertentu, kemampuan tertentu ini adalah penalaran visual.

Karena merupakan model dasar yang umum, bidang aplikasinya harus luas.

Pertama, di bidang robotika ia dapat menjadi pusat saraf bawah sistem yang kuat, memberikannya kemampuan untuk beroperasi secara mandiri di berbagai lingkungan asing.

Misalnya, di bidang robotika, mengirim robot untuk menangani suatu kegagalan keamanan mendadak di lingkungan berbahaya. Ini membutuhkan pengambilan keputusan instan yang cepat dan akurat oleh robot. Jika robot kekurangan model dasar kemampuan penalaran mendalam, orang tidak akan berani membiarkannya menekan tombol atau mengoperasikan tuas dengan sembarangan. Tetapi jika ia memiliki kemampuan penalaran yang sangat kuat, ia mungkin berpikir: "Sebelum mengoperasikan panel ini, mungkin saya harus menarik tuas ini terlebih dahulu, mengaktifkan mekanisme perlindungan keamanan."

Selain itu, dalam manajemen bencana, model dengan penalaran visual dapat memantau dan mencegah kebakaran hutan dengan menganalisis gambar satelit; di bidang teknik, ia dapat secara akurat memahami gambar visual yang kompleks, diagram sistem, pentingnya kemampuan ini terletak pada aturan operasi dunia fisik yang pada dasarnya berbeda dengan dunia kode murni, Anda tidak bisa hanya dengan mengetik beberapa baris kode murni merancang sayap pesawat.

Namun, saat ini model dan kemampuan Elorian AI masih terbatas di atas kertas, mereka berencana merilis model yang mencapai level SOTA di bidang penalaran visual pada tahun 2026, pada saat itu dapat menguji apakah hasil mereka sesuai dengan klaim.

Ketika AI Benar-benar Memiliki Kemampuan "Penalaran Visual", Bagaimana Ia Akan Mengubah Dunia Fisik?

Untuk membuat AI memahami dan mempengaruhi dunia fisik yang sebenarnya, teknologi telah beriterasi beberapa kali.

Dari pengenalan gambar di zaman CV tradisional, ke model generasi gambar/model multimodal AI generatif, hingga model dunia, pemahaman terhadap dunia fisik terus meningkat.

Dan model dasar penalaran visual, sangat mungkin melangkah lebih jauh, karena mampu mewujudkan penalaran visual, AI dapat memahami dunia fisik lebih dalam, sehingga mencapai kecerdasan mesin tingkat yang lebih tinggi.

Bayangkan, ketika model dengan pemahaman mendalam dan operasi halus mengisi daya industri kecerdasan embodied, serta industri perangkat keras AI, akan sangat memperluas cakupan aplikasinya. Misalnya, robot dapat melakukan produksi industri yang lebih andal, atau di bidang perawatan medis; perangkat keras AI, terutama perangkat yang dapat dikenakan, menjadi asisten pribadi yang lebih pintar.

Namun, di dasar teknologi ini, masih adalah data. Seperti yang dikatakan Andrew Dai sebelumnya, kualitas data, proporsi campuran data, sumber data, serta keragaman data, semuanya menentukan kinerja model.

Di bidang AI fisik, perusahaan-perusahaan Tiongkok, baik di tingkat model maupun data, dibandingkan dengan model besar, lebih mendekati tingkat terdepan dunia. Jika dapat memanfaatkan keunggulan data dan skenario aplikasi yang lebih kaya, mempercepat kecepatan iterasi, maka baik kecerdasan embodied maupun perangkat keras AI, baik yang diterapkan di industri, medis, maupun rumah tangga, memiliki peluang lebih besar untuk mencapai tingkat terdepan, dan tentu saja juga memiliki peluang untuk melahirkan perusahaan kelas dunia.

Trending Cryptos

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

PancakeSwapCAKE

JUSTJST

Breaking! OpenAI's Next-Gen AI Solves 10 Fields Medal-Level Problems

OpenAI's next-generation AI model Astra achieves breakthroughs in 10 long-standing mathematical conjectures. The results, including constructing the first known infinite, finitely presented non-sofic group—resolving a major question since 1999—and advancing the high-dimensional sphere packing problem beyond a 46-year-old barrier, are detailed in a 249-page paper. Key proofs have been formally verified using Lean 4. The AI also refuted a rigidity conjecture by Fields Medalist Alain Connes. According to OpenAI, generating these proofs cost under $2,000. Experts describe the findings as potentially Fields Medal-worthy and a landmark moment for both mathematics and AI, showcasing the model's ability to produce profound, human-like reasoning across diverse fields like group theory, geometry, and operator algebras.

marsbit43m ago

Breaking! OpenAI's Next-Gen AI Solves 10 Fields Medal-Level Problems

marsbit43m ago

How to Make Yourself Irreplaceable by AI Forever

This article argues that the primary threat from AI is not job replacement, but remaining trapped in "wage slavery"—financial dependence on employers. The path to becoming irreplaceable is not resisting AI, but becoming an "unemployable" individual who builds their own meaningful enterprise. The author identifies five key elements for this: Agency (acting without permission), Taste (judging what's worthwhile), Persuasion, Persistence, and Iteration. The solution is to stop being a "pawn" in someone else's game. To start, you must fundamentally change your identity and environment, then engage in rapid, real-world trial and error. While both coding and creating media (content) are powerful, content is more crucial. AI can generate assets, but true value lies in subjective, human-driven content that builds trust and narrative. The actionable advice is to carve out 15 minutes to answer foundational questions: 1) Uncover your "raw material"—what you know deeply or solve effortlessly. 2) Define your contrarian perspective—what common beliefs you think are wrong. The intersection of these answers is your direction. Finally, you must launch by publishing your first core idea immediately, using the feedback to iterate and develop the skills needed for a self-directed life and career.

marsbit1h ago

How to Make Yourself Irreplaceable by AI Forever

marsbit1h ago

Thanks to Dice Rolls, Bitcoin Keys Are Stored Offline, But Not Everyone Will Do It

The article discusses using dice rolls to generate secure Bitcoin wallet seeds, providing entropy independent of potentially flawed hardware random number generators. It explains that each fair dice roll offers about 2.585 bits of entropy, with around 50 rolls needed for a standard 12-word seed phrase and 99+ recommended for higher security. This method gained attention after a vulnerability was revealed in some Coldcard hardware wallets, where a faulty firmware RNG (dating back to 2021) compromised generated keys. The analysis notes that while a dice-generated main seed was safe from this specific flaw, other Coldcard functions (like creating paper wallets, backup keys, or passwords) could still be vulnerable if they used the defective RNG. The piece argues that while dice-based entropy is technically robust, the manual process is error-prone, tedious, and unrealistic for most new users, who might make mistakes in recording or inputting rolls. It concludes that while manual entropy generation should remain an option for advanced users, the long-term goal is to develop reliable, user-friendly hardware and software that securely generates randomness without requiring specialized knowledge. Coldcard users are advised to check their firmware version and replace any secondary secrets (like paper wallet keys) created with vulnerable devices, while also considering multi-signature setups with devices from different manufacturers for added security.

cryptonews.ru4h ago

Thanks to Dice Rolls, Bitcoin Keys Are Stored Offline, But Not Everyone Will Do It

cryptonews.ru4h ago

Michael Saylor Says It Has Become Impossible to Adopt the Bitcoin Update He Opposed!

Michael Saylor stated that it has become mathematically impossible for BIP-110 to achieve the 55% voluntary support threshold within the current Bitcoin mining difficulty adjustment cycle. Based on his analysis of 946 blocks generated up to block 960,561, only 24 blocks contained version field signals supporting BIP-110. Saylor claims all these signals came from DATUM miners sharing rewards via the OCEAN mining pool, with no supporting signals from non-OCEAN miners. He argues this situation prevents BIP-110 from reaching the required consensus level and that the current signals do not represent broad miner agreement. BIP-110 is a proposal aimed at making it more difficult to embed large data like images or text into the Bitcoin network, beyond simple monetary transactions. Its proponents argue Bitcoin should be used primarily for sending money to avoid network congestion. Saylor opposes this, believing the Bitcoin network should not dictate which transactions are necessary and that rules shouldn't change based on the preferences of a few. He also suggests that high support metrics may be inflated by automated signaling software rather than reflecting genuine miner consensus.

cryptonews.ru4h ago

Michael Saylor Says It Has Become Impossible to Adopt the Bitcoin Update He Opposed!

cryptonews.ru4h ago

Number of Negative Bitcoin Comments Hits Record High: What Does This Mean?

Cryptocurrency analytics firm Santiment reported that negative sentiment toward Bitcoin on social media has reached a historically high level. The ratio of positive to negative comments about Bitcoin on platforms like X, Reddit, and Telegram has fallen to its lowest point since the firm began using its modern social monitoring system. A key driver of this sentiment is a vulnerability discovered in the firmware of Coldcard hardware wallets, shaking investor confidence in personal storage and cold wallets—previously considered the safest method for securing crypto assets. Santiment noted that while past crises like the collapses of FTX and Mt. Gox were larger in scale, the Coldcard incident uniquely shifted discussions toward hardware security and cold storage vulnerabilities, rather than centralized exchanges or leveraged trading platforms. Data shows only 0.58 positive comments for every negative one, indicating fear has significantly outweighed greed. Although the data covers just one day, Santiment stated the current panic level exceeds peaks seen earlier this year regarding war concerns and surpasses social media panic recorded during previous major crypto crises.

cryptonews.ru5h ago

Number of Negative Bitcoin Comments Hits Record High: What Does This Mean?

cryptonews.ru5h ago

Trading

Spot

Hot Articles

How to Buy AR

Welcome to HTX.com! We've made purchasing Arweave (AR) simple and convenient. Follow our step-by-step guide to embark on your crypto journey.Step 1: Create Your HTX AccountUse your email or phone number to sign up for a free account on HTX. Experience a hassle-free registration journey and unlock all features.Get My AccountStep 2: Go to Buy Crypto and Choose Your Payment MethodCredit/Debit Card: Use your Visa or Mastercard to buy Arweave (AR) instantly.Balance: Use funds from your HTX account balance to trade seamlessly.Third Parties: We've added popular payment methods such as Google Pay and Apple Pay to enhance convenience.P2P: Trade directly with other users on HTX.Over-the-Counter (OTC): We offer tailor-made services and competitive exchange rates for traders.Step 3: Store Your Arweave (AR)After purchasing your Arweave (AR), store it in your HTX account. Alternatively, you can send it elsewhere via blockchain transfer or use it to trade other cryptocurrencies.Step 4: Trade Arweave (AR)Easily trade Arweave (AR) on HTX's spot market. Simply access your account, select your trading pair, execute your trades, and monitor in real-time. We offer a user-friendly experience for both beginners and seasoned traders.

11.5k Total ViewsPublished 2024.03.29Updated 2026.06.02

Discussions

Welcome to the HTX Community. Here, you can stay informed about the latest platform developments and gain access to professional market insights. Users' opinions on the price of AR (AR) are presented below.

Jelajahi AGI Dunia Fisik dengan "Penalaran Visual", ElorianAI Raised $55 Juta

Abstract

Pelopor Model Multimodal, Ingin Memberikan Model Visual Kemampuan Penalaran

VLM dengan Penalaran Posterior Bukan Jalan yang Benar Menuju Penalaran Visual

Ketika AI Benar-benar Memiliki Kemampuan "Penalaran Visual", Bagaimana Ia Akan Mengubah Dunia Fisik?

Trending Cryptos

Related Questions

Related Reads

Breaking! OpenAI's Next-Gen AI Solves 10 Fields Medal-Level Problems

How to Make Yourself Irreplaceable by AI Forever

Thanks to Dice Rolls, Bitcoin Keys Are Stored Offline, But Not Everyone Will Do It

Michael Saylor Says It Has Become Impossible to Adopt the Bitcoin Update He Opposed!

Number of Negative Bitcoin Comments Hits Record High: What Does This Mean?

Trading

Hot Articles

How to Buy AR

Discussions

Top Questions