Jelajahi AGI Dunia Fisik dengan "Penalaran Visual", ElorianAI Raised $55 Juta

marsbit發佈於 2026-04-23更新於 2026-04-23

文章摘要

Perusahaan rintisan AI, ElorianAI, yang didirikan oleh Andrew Dai (mantan Google DeepMind) dan Yinfei Yang (ahli AI Apple), telah mengumpulkan pendanaan $55 juta untuk mengembangkan model AI dengan kemampuan "visual reasoning" (penalaran visual) setara manusia dewasa. Saat ini, model multi-modal terkemuka seperti Gemini hanya memiliki kemampuan penalaran visual setara anak usia 3 tahun karena bergantung pada konversi input visual ke teks sebelum melakukan penalaran. ElorianAI bertujuan menciptakan model yang dapat berpikir secara "native" dalam ruang visual, memahami struktur, hubungan, dan batasan fisik secara langsung. Pendekatan ini diyakini sebagai kunci menuju AGI (Artificial General Intelligence) di dunia fisik, dengan aplikasi potensial di robotika (operasi otonom di lingkungan berbahaya), manajemen bencana, dan teknik. Model yang dirancang sebagai fondasi ini dijadwalkan rilis pada 2026.

Oleh | Alpha Gongshe

Kemampuan model besar AI dalam beberapa aspek telah melampaui manusia biasa, seperti pemrograman dan matematika. Dikatakan bahwa di dalam Anthropic, hampir 100% pemrograman sudah dilakukan oleh AI, dan Gemini Deep Think dari Google berhasil menyelesaikan 5 dari 6 soal di IMO 2025, mencapai level medali emas.

Namun, dalam penalaran visual, bahkan Gemini 3 Pro yang tingkatannya paling unggul, hanya mencapai level anak berusia 3 tahun pada BabyVision, sebuah Benchmark yang menguji kemampuan penalaran visual dasar.

Mengapa model besar sangat kuat dalam pemrograman dan matematika, tetapi lemah dalam penalaran visual? Ini karena "cara berpikirnya" memiliki keterbatasan. Model Bahasa Visual (VLM) perlu mengubah input visual menjadi bahasa terlebih dahulu, baru kemudian melakukan penalaran berbasis teks. Namun, banyak tugas visual yang sama sekali tidak dapat dideskripsikan secara akurat dengan kata-kata, yang mengakibatkan kemampuan penalaran visual model yang buruk.

Andrew Dai, yang bekerja di Google DeepMind selama 14 tahun, bersama ahli AI senior Apple, Yinfei Yang, mendirikan sebuah perusahaan bernama Elorian AI. Tujuan mereka adalah meningkatkan kemampuan penalaran visual model dari level "anak-anak" ke level "dewasa", dan memberikan model kemampuan untuk berpikir secara asli dalam "ruang visual", sehingga dapat mencapai AGI dunia fisik.

Elorian AI memperoleh pendanaan awal senilai $55 juta yang dipimpin bersama oleh Striker Venture Partners, Menlo Ventures, dan Altimeter, dengan partisipasi dari 49 Palms dan ilmuwan AI top termasuk Jeff Dean.

Pelopor Model Multimodal, Ingin Memberikan Model Visual Kemampuan Penalaran

Sebagai orang Tionghoa, Andrew Dai, lulusan sarjana komputer Cambridge dan doktor pembelajaran mesin Edinburgh, magang di Google selama masa doktoralnya, bergabung dengan Google pada tahun 2012, dan bertahan selama 14 tahun, hingga memulai bisnis.

Sumber gambar:Linkedin Andrew Dai

Tidak lama setelah bergabung dengan Google, ia dan Quoc V. Le bersama-sama menulis makalah pertama tentang pra-pelatihan model bahasa dan penyempurnaan terawasi berjudul "Semi-supervised Sequence Learning". Makalah ini meletakkan dasar bagi kelahiran GPT. Makalah perintis lainnya adalah "Glam: Efficient scaling of language models with mixture-of-experts", yang membuka jalan bagi arsitektur MoE yang sekarang menjadi arus utama.

Sumber gambar: Google

Selama di Google, ia juga terlibat secara mendalam dalam hampir semua pelatihan model besar, dari Palm hingga Gemini1.5 dan Gemini2.5. Di bawah pengaturan Jeff Dean, ia mulai memimpin bagian data Gemini (termasuk data sintetis) pada tahun 2023, dan tim ini kemudian berkembang menjadi ratusan orang.

Sumber gambar:Linkedin Yinfei Yang

Berdiri bersama Andrew Dai adalah Yinfei Yang, yang pernah bekerja di Google Research selama empat tahun, fokus pada pembelajaran representasi multimodal, kemudian bergabung dengan Apple, bertanggung jawab atas pengembangan model multimodal.

Sumber gambar:arxiv

Hasil penelitian perwakilannya "Scaling up visual and vision-language representation learning with noisy text supervision" mendorong perkembangan pembelajaran representasi multimodal.

Pendiri bersama Elorian AI juga termasuk Seth Neel, yang pernah menjadi AP (Asisten Profesor) di Universitas Harvard, dan juga ahli dalam bidang data dan AI.

Mengapa membahas makalah perintis apa yang ditulis oleh para pendiri bersama Elorian AI? Karena yang ingin mereka lakukan bukanlah optimasi tingkat teknik, tetapi pembaruan paradigma dari arsitektur dasar, untuk meningkatkan AI dari pemahaman cerdas berbasis teks ke pemahaman cerdas berbasis visual.

Kondisi model AI saat ini adalah, meskipun berkinerja baik dalam tugas berbasis teks, bahkan model besar multimodal paling mutakhir sekalipun, masih akan tersandung pada tugas visual grounding (penjangkaran visual) paling dasar.

Misalnya, bagaimana memasang suatu bagian dengan tepat ke dalam suatu perangkat mekanis, agar beroperasi lebih presisi dan efisien? Tugas fisik spasial seperti ini sangat sederhana bagi siswa sekolah dasar, tetapi sangat sulit bagi model besar multimodal yang ada.

Ini masih harus mencari petunjuk dari biologi. Dalam otak manusia, visual adalah substrat dasar yang mendukung banyak proses pemikiran. Kemampuan manusia menggunakan visual dan penalaran spasial jauh lebih lama daripada menggunakan penalaran logika bahasa.

Misalnya, mengajarkan orang lain melalui labirin, menggunakan deskripsi bahasa, akan membingungkan, tetapi menggambar sketsa dapat membuat orang langsung mengerti.

Contoh lain, bahkan seekor burung, meskipun tidak memiliki bahasa, dapat mengenali dan mereasoning fitur geografis melalui visual, sehingga mencapai migrasi jarak jauh global. Ini adalah sinyal kuat yang menunjukkan bahwa untuk benar-benar memajukan kemampuan reasoning mesin, visual kemungkinan besar adalah arah evolusi yang benar.

Jadi, bayangkan, jika dari awal pembangunan model, mencoba mengukir naluri visual biologis ini ke dalam gen AI, membangun model multimodal asli yang dapat "secara bersamaan memahami dan memproses teks, gambar, video, dan audio", maka model akan memiliki kemampuan pemahaman visual. Andrew Dai dan tim ingin membangun "synesthete" bawaan, mengajarkan mesin tidak hanya "melihat" dunia, tetapi juga "memahami" dunia.

Dalam pandangan Andrew Dai dan tim, memahami secara mendalam "dunia fisik" yang sebenarnya adalah kunci untuk mencapai lompatan kecerdasan mesin generasi berikutnya, dan akhirnya menyentuh "Kecerdasan Buatan Umum Visual (Visual AGI)".

VLM dengan Penalaran Posterior Bukan Jalan yang Benar Menuju Penalaran Visual

Sebelumnya bukan tidak ada tim yang ingin melakukan hal ini, sebenarnya tim Gemini tempat Andrew Dai sebelumnya, sudah merupakan tim yang sangat unggul di bidang multimodal secara global. Tetapi model multimodal tradisional, masih didominasi oleh VLM (Model Bahasa Visual), logikanya dibangun di atas dasar "dua langkah": pertama mengubah input visual menjadi bahasa, kemudian melakukan penalaran berbasis teks (kadang dengan bantuan memanggil alat eksternal).

Namun, penalaran posterior pada dasarnya memiliki keterbatasan, di satu sisi mudah menghasilkan halusinasi model, di sisi lain banyak tugas visual yang sama sekali tidak dapat dideskripsikan secara akurat dengan kata-kata.

Selain itu, model generasi visual seperti NanoBanana, unggul dalam generasi multimodal, tetapi kemampuan generasi dan kemampuan penalaran tidak sama, "pemikiran" mereka sebelum generasi, pada dasarnya masih bergantung pada model bahasa, bukan kemampuan penalaran asli.

Untuk mengembangkan model yang benar-benar dapat mengerti kompleksitas spasial, struktural, dan relasional dalam dunia visual, pasti perlu inovasi disruptif dalam teknologi dasar.

Lalu, bagaimana berinovasi? Beberapa pendiri Elorian AI telah berkecimpung di bidang multimodal selama bertahun-tahun, cara mereka adalah: menggabungkan pelatihan multimodal dengan arsitektur baru yang dirancang khusus untuk penalaran multimodal. Meninggalkan praktik tradisional menganggap gambar sebagai input statis, beralih melatih model untuk berinteraksi langsung dan memanipulasi representasi visual (Visual representations) untuk secara mandiri mengurai struktur, hubungan, dan batasan fisik di dalamnya.

Tentu saja, elemen inti lainnya adalah data, yang merupakan kunci yang menentukan kinerja dan keberhasilan model-model ini.

Andrew Dai menyatakan, mereka sangat memperhatikan kualitas data, proporsi campuran data, sumber data, serta keragaman data, dan telah melakukan inovasi di lapisan data, merekonstruksi jalur penalaran dalam ruang visual, dan juga menggunakan data sintetis secara besar-besaran dan mendalam.

Upaya-upaya ini secara bersama-sama, akan melahirkan sistem AI baru yang dapat melampaui "persepsi" visual sederhana, menuju "penalaran" visual tingkat tinggi.

Sistem AI ini dapat berupa model dasar penalaran visual: yaitu membangun model yang sangat umum, tetapi berkinerja sangat unggul pada kumpulan kemampuan tertentu, kemampuan tertentu ini adalah penalaran visual.

Karena merupakan model dasar yang umum, bidang aplikasinya harus luas.

Pertama, di bidang robotika ia dapat menjadi pusat saraf bawah sistem yang kuat, memberikannya kemampuan untuk beroperasi secara mandiri di berbagai lingkungan asing.

Misalnya, di bidang robotika, mengirim robot untuk menangani suatu kegagalan keamanan mendadak di lingkungan berbahaya. Ini membutuhkan pengambilan keputusan instan yang cepat dan akurat oleh robot. Jika robot kekurangan model dasar kemampuan penalaran mendalam, orang tidak akan berani membiarkannya menekan tombol atau mengoperasikan tuas dengan sembarangan. Tetapi jika ia memiliki kemampuan penalaran yang sangat kuat, ia mungkin berpikir: "Sebelum mengoperasikan panel ini, mungkin saya harus menarik tuas ini terlebih dahulu, mengaktifkan mekanisme perlindungan keamanan."

Selain itu, dalam manajemen bencana, model dengan penalaran visual dapat memantau dan mencegah kebakaran hutan dengan menganalisis gambar satelit; di bidang teknik, ia dapat secara akurat memahami gambar visual yang kompleks, diagram sistem, pentingnya kemampuan ini terletak pada aturan operasi dunia fisik yang pada dasarnya berbeda dengan dunia kode murni, Anda tidak bisa hanya dengan mengetik beberapa baris kode murni merancang sayap pesawat.

Namun, saat ini model dan kemampuan Elorian AI masih terbatas di atas kertas, mereka berencana merilis model yang mencapai level SOTA di bidang penalaran visual pada tahun 2026, pada saat itu dapat menguji apakah hasil mereka sesuai dengan klaim.

Ketika AI Benar-benar Memiliki Kemampuan "Penalaran Visual", Bagaimana Ia Akan Mengubah Dunia Fisik?

Untuk membuat AI memahami dan mempengaruhi dunia fisik yang sebenarnya, teknologi telah beriterasi beberapa kali.

Dari pengenalan gambar di zaman CV tradisional, ke model generasi gambar/model multimodal AI generatif, hingga model dunia, pemahaman terhadap dunia fisik terus meningkat.

Dan model dasar penalaran visual, sangat mungkin melangkah lebih jauh, karena mampu mewujudkan penalaran visual, AI dapat memahami dunia fisik lebih dalam, sehingga mencapai kecerdasan mesin tingkat yang lebih tinggi.

Bayangkan, ketika model dengan pemahaman mendalam dan operasi halus mengisi daya industri kecerdasan embodied, serta industri perangkat keras AI, akan sangat memperluas cakupan aplikasinya. Misalnya, robot dapat melakukan produksi industri yang lebih andal, atau di bidang perawatan medis; perangkat keras AI, terutama perangkat yang dapat dikenakan, menjadi asisten pribadi yang lebih pintar.

Namun, di dasar teknologi ini, masih adalah data. Seperti yang dikatakan Andrew Dai sebelumnya, kualitas data, proporsi campuran data, sumber data, serta keragaman data, semuanya menentukan kinerja model.

Di bidang AI fisik, perusahaan-perusahaan Tiongkok, baik di tingkat model maupun data, dibandingkan dengan model besar, lebih mendekati tingkat terdepan dunia. Jika dapat memanfaatkan keunggulan data dan skenario aplikasi yang lebih kaya, mempercepat kecepatan iterasi, maka baik kecerdasan embodied maupun perangkat keras AI, baik yang diterapkan di industri, medis, maupun rumah tangga, memiliki peluang lebih besar untuk mencapai tingkat terdepan, dan tentu saja juga memiliki peluang untuk melahirkan perusahaan kelas dunia.

你可能也喜歡

AI内存超级周期已至：在单一加密账户交易DRAM、美光和闪迪

人工智能数据中心正面临存储瓶颈，推动内存芯片需求激增，导致2026年出现十五年来最严重的DRAM供应短缺，价格大幅上涨。这一结构性紧张主要由AI建设驱动，其消耗了约20%的DRAM产量，预计供应紧张将持续至2027年。投资者可通过单一加密账户交易相关标的：DRAM/USDT现货直接交易内存短缺主题；美光（MU）因其2026年高性能内存产能已售罄，成为AI基础设施需求的清晰代表，财务表现强劲；闪迪（SNDK）则作为NAND闪存领域波动性更高的选择，受益于企业存储需求激增。当前周期将内存短缺、行业龙头和细分领域标的整合于统一平台，方便投资者在现货与杠杆合约间灵活调整风险敞口，无需转移资金。AI时代的内存瓶颈首次变得可在加密账户内进行交易。

TheNewsCrypto2 分鐘前

TheNewsCrypto2 分鐘前

UNI两个月逆势翻倍：一场迟到了5年的价值回归

在整体加密货币市场震荡的六月和七月，UNI代币价格从六月初的约2.3美元涨至七月底的4.6美元，实现逆势翻倍。其核心驱动力是2025年底通过的“费用开关”提案（UNIfication）经过数月运行后，产生的协议现金流效应开始被市场定价。该提案开启后，协议将部分交易费用及Unichain排序器收入注入TokenJar金库，专门用于回购并销毁UNI。然而，在最初几个月，每日销毁金额有限，市场反应平淡。转折点发生在2026年7月，随着Robinhood Chain上线并集成Uniswap，协议交易量和手续费收入大幅增长。特别是7月27日费用开关扩展至v4池子后，单日流向销毁的资金从月初的约11.4万美元跃升至32.5万美元，其中过半由Robinhood Chain贡献。至此，UNI的上涨逻辑从“预期叙事”转变为“现金流叙事”：作为一个年交易量巨大的协议，其代币终于拥有了持续且增长的自动买入压力。此外，UNI作为早期分发、筹码分散的老牌代币，回购销毁能有效作用于二级市场，这也是其优于许多新项目的地方。未来的关键在于，Robinhood Chain的初始Gas补贴结束后，其带来的交易量能否持续，这将验证本轮上涨是价值回归的起点还是短期幻象。

marsbit37 分鐘前

marsbit37 分鐘前

突发，谷歌地球紧急撤回Nano Banana 2生图功能！

谷歌地球紧急撤回了其新集成的AI图像生成功能Nano Banana 2。该功能允许用户直接在谷歌地球界面中，基于真实地理坐标和卫星影像，通过文本提示生成或修改场景图像，实现如历史场景复原、未来城市构想等“言出法随”般的视觉创作。然而，功能上线后迅速被用户“玩坏”，例如将美国独立纪念馆等历史地标改造成“末日废墟”或加入僵尸等元素，引发了关于误导和历史严肃性的担忧。同时，该功能暂不支持街景视角，且生成结果被部分专业人士批评为缺乏空间严谨性的“AI泔水”。因效果过于逼真及潜在滥用风险，谷歌在专家反对后已紧急撤回该功能，表示将“加强防护措施”后再发布。技术上，Nano Banana 2采用了“地理空间约束”生成，其输入包含卫星原图、3D地形与相机参数，确保生成内容贴合真实地理数据。它还能调用知识库为地标自动生成信息图。此举被视为谷歌利用其独有的海量地理数据优势，在AI图像赛道开辟“基于真实地理的可视化”新战场，将竞争从“画得好看”提升到“改造地球”的维度。

marsbit2 小時前

marsbit2 小時前

奥特曼承认：高估了AI抢饭碗！黄仁勋：失业论完全搞反了

2025年10月，OpenAI CEO山姆·奥特曼曾预言可能出现由AI管理的大公司。然而在2026年7月的播客中，他改口称人们“并不真正想要一个AI CEO”，因为公司决策需要明确的责任归属和真人间的信任。他承认自己高估了AI消灭初级白领岗位的速度，“就业末日”大概率不会到来。几乎同时，英伟达CEO黄仁勋在YC创业课上指出，“AI毁掉工作”的叙事完全搞反了。他认为，AI替代的是工作中的具体“任务”，而非整个“工作”。例如放射科医生和软件工程师，虽然AI承担了更多读片和写代码任务，但这些岗位的数量反而在增长，因为效率提升后业务规模扩大，产生了更多对沟通、判断、协调等AI无法替代的人类技能的需求。马里兰大学与LinkUp的数据显示，截至2025年第四季度，美国整体招聘需求未被AI压垮，明确面向应届生的岗位比例甚至有所回升。报告指出，年轻员工可能更受益于AI工具，它能快速提供经验，使其变得“便宜又好用”。然而，挑战依然存在：AI最先接管的正是数据录入、基础分析等标准化入门任务，这使得新人积累初期经验的传统路径变窄，入门台阶正在升高。两位领袖的观点共同揭示了一个趋势：AI越强大，人类工作的核心价值就越向承担责任、建立信任、做出最终判断等层面集中。这些无法被机器替代的部分，构成了个人真正的职业护城河。

marsbit2 小時前

marsbit2 小時前

美联储重大变革？报道：沃什考虑减少议息会议频率，打破 40 年惯例

美联储主席沃什正考虑削减联邦公开市场委员会每年定期议息会议的次数，这可能是美联储数十年来最重大的运作方式变革之一。根据报道，沃什在本周会议上提出了调整会议频率的想法，新安排或在9月前敲定。此举将打破自1981年沿用至今的每年八次会议的惯例。削减会议次数意味着利率投票机会减少，可能削弱美联储对经济数据的反应能力，并减少市场获取政策信号的渠道，逆转其长期强化的信息透明度趋势。法律仅要求美联储每年至少召开四次会议。值得注意的是，沃什此前曾表示四次会议“不够”，与当前削减方向存在矛盾。自1981年确立现行安排以来，固定的会议节奏为市场提供了可预期的框架。减少会议将压缩外界了解美联储政策判断的信息窗口。这与沃什上任后压缩政策声明篇幅、减少公开表态的风格一脉相承。历史上，美联储会议频率并非固定，在上世纪中叶曾更为频繁。这是沃什自今年5月上任以来推行“制度改革”的一部分，其改革方向与1988年一份内部评估报告的结论相悖，该报告当时认为八次会议的安排是适当的。若方案落地，其对市场沟通和政策灵活性的影响将备受关注。

marsbit2 小時前

marsbit2 小時前

交易

現貨

Jelajahi AGI Dunia Fisik dengan "Penalaran Visual", ElorianAI Raised $55 Juta

文章摘要

Pelopor Model Multimodal, Ingin Memberikan Model Visual Kemampuan Penalaran

VLM dengan Penalaran Posterior Bukan Jalan yang Benar Menuju Penalaran Visual

Ketika AI Benar-benar Memiliki Kemampuan "Penalaran Visual", Bagaimana Ia Akan Mengubah Dunia Fisik?

熱門幣種推薦

相關問答

你可能也喜歡

AI内存超级周期已至：在单一加密账户交易DRAM、美光和闪迪

UNI两个月逆势翻倍：一场迟到了5年的价值回归

突发，谷歌地球紧急撤回Nano Banana 2生图功能！

奥特曼承认：高估了AI抢饭碗！黄仁勋：失业论完全搞反了

美联储重大变革？报道：沃什考虑减少议息会议频率，打破 40 年惯例

交易

熱門文章

如何購買AR

相關討論

熱門問答

熱門分類

熱門標籤