Khám phá AGI thế giới vật lý với 'Suy luận thị giác', ElorianAI huy động được 55 triệu USD

marsbit發佈於 2026-04-23更新於 2026-04-23

文章摘要

Mặc dù AI mô hình lớn đã vượt trội trong lập trình và toán học, khả năng lập luận thị giác của chúng vẫn chỉ ở mức trẻ 3 tuổi. ElorianAI, do Andrew Dai (cựu Google DeepMind) và Yinfei Yang (chuyên gia AI của Apple) sáng lập, đã huy động 55 triệu USD để phát triển mô hình đa phương thức "suy nghĩ nguyên sinh trong không gian thị giác", nhằm đạt được AGI cho thế giới vật lý. Thay vì chuyển đổi hình ảnh thành văn bản như VLM truyền thống, họ xây dựng kiến trúc mới để AI trực tiếp thao tác và hiểu sâu biểu diễn thị giác, kết hợp dữ liệu tổng hợp chất lượng cao. Mô hình dự kiến ra mắt năm 2026, hứa hẹn ứng dụng trong robot, quản lý thiên tai và kỹ thuật, nơi cần ra quyết định phức tạp trong môi trường vật lý.

Văn | Công xã Alpha

Khả năng của mô hình AI lớn trong một số lĩnh vực đã vượt quá người bình thường, chẳng hạn như lập trình và toán học. Theo tin tức, Anthropic nội bộ gần như đã đạt được 100% lập trình AI, Gemini Deep Think của Google đã giải được 5 trong 6 bài toán tại IMO 2025, đạt trình độ huy chương vàng.

Nhưng về suy luận thị giác, ngay cả Gemini 3 Pro dẫn đầu về trình độ, cũng chỉ đạt mức độ của trẻ 3 tuổi trên Benchmark BabyVision - một bài kiểm tra khả năng suy luận thị giác cơ bản.

Tại sao mô hình lớn mạnh về lập trình và toán học, nhưng lại yếu về suy luận thị giác? Điều này là do "cách suy nghĩ" của nó có hạn chế. Mô hình ngôn ngữ hình ảnh (VLM) cần chuyển đổi đầu vào thị giác thành ngôn ngữ trước, sau đó mới thực hiện suy luận dựa trên văn bản. Tuy nhiên, nhiều nhiệm vụ thị giác hoàn toàn không thể mô tả chính xác bằng văn bản, điều này dẫn đến khả năng suy luận thị giác của mô hình kém.

Andrew Dai, người đã làm việc tại Google DeepMind 14 năm, cùng với chuyên gia AI kỳ cựu của Apple là Yinfei Yang, đã thành lập một công ty tên là Elorian AI. Mục tiêu của họ là nâng cao khả năng suy luận thị giác của mô hình từ "trình độ trẻ em" lên "trình độ người lớn", và cho mô hình có khả năng suy nghĩ nguyên sinh thực sự trong "không gian thị giác", từ đó hướng tới AGI của thế giới vật lý.

Elorian AI đã huy động được 55 triệu USD vốn đầu tư giai đoạn đầu do Striker Venture Partners, Menlo Ventures và Altimeter cùng dẫn đầu, với sự tham gia của 49 Palms và các nhà khoa học AI hàng đầu bao gồm Jeff Dean.

Người tiên phong về mô hình đa phương thức, muốn mô hình thị giác có khả năng suy luận

Là người gốc Hoa, Andrew Dai, cử nhân khoa học máy tính Cambridge, tiến sĩ học máy Edinburgh, đã thực tập tại Google trong thời gian học tiến sĩ và gia nhập Google vào năm 2012, ở lại 14 năm cho đến khi khởi nghiệp.

Nguồn ảnh:Linkedin của Andrew Dai

Không lâu sau khi gia nhập Google, ông cùng với Quoc V. Le đã đồng viết bài báo đầu tiên về huấn luyện trước mô hình ngôn ngữ và vi chỉnh có giám sát 《Semi-supervised Sequence Learning》. Bài báo này đặt nền móng cho sự ra đời của GPT. Một bài báo nền tảng khác của ông là 《Glam: Efficient scaling of language models with mixture-of-experts》, mở đường cho kiến trúc MoE phổ biến hiện nay.

Nguồn ảnh: Google

Trong thời gian ở Google, ông cũng tham gia sâu vào hầu hết các quá trình huấn luyện mô hình lớn, từ Palm đến Gemini1.5 và Gemini2.5. Dưới sự sắp xếp của Jeff Dean, ông bắt đầu phụ trách lãnh đạo mảng dữ liệu của Gemini (bao gồm dữ liệu tổng hợp) vào năm 2023, quy mô đội ngũ sau đó đã mở rộng lên đến hàng trăm người.

Nguồn ảnh:Linkedin của Yinfei Yang

Cùng khởi nghiệp với Andrew Dai là Yinfei Yang, người đã từng làm việc tại Google Research bốn năm, tập trung vào học biểu diễn đa phương thức, sau đó gia nhập Apple, phụ trách nghiên cứu và phát triển mô hình đa phương thức.

Nguồn ảnh:arxiv

Nghiên cứu tiêu biểu của ông 《Scaling up visual and vision-language representation learning with noisy text supervision》 đã thúc đẩy sự phát triển của học biểu diễn đa phương thức.

Đồng sáng lập Elorian AI còn có Seth Neel, từng là AP (Trợ lý Giáo sư) tại Đại học Harvard, cũng là chuyên gia về dữ liệu và AI.

Tại sao phải thảo luận về những bài báo mang tính khai phá mà các nhà đồng sáng lập Elorian AI đã viết? Bởi vì việc họ làm không phải là tối ưu hóa ở tầng kỹ thuật, mà là cập nhật mô hình từ kiến trúc cơ sở, để nâng cấp AI từ hiểu thông minh dựa trên văn bản lên hiểu thông minh dựa trên thị giác.

Tình trạng hiện tại của mô hình AI là, mặc dù thể hiện xuất sắc trong các nhiệm vụ dựa trên văn bản, nhưng ngay cả mô hình đa phương thức lớn tiên tiến nhất, vẫn sẽ vấp ngã trong nhiệm vụ căn chỉnh thị giác (Visual grounding) cơ bản nhất.

Ví dụ, làm thế nào để lắp một linh kiện nào đó khít vào một thiết bị cơ khí, làm cho nó hoạt động chính xác hơn, hiệu quả hơn? Loại nhiệm vụ vật lý không gian này rất đơn giản đối với học sinh tiểu học, nhưng lại rất khó đối với các mô hình đa phương thức lớn hiện có.

Điều này vẫn phải tìm manh mối từ sinh học. Trong não người, thị giác là chất nền cơ sở hỗ trợ nhiều quá trình tư duy. Khả năng sử dụng thị giác và suy luận không gian của con người lâu đời hơn nhiều so với suy luận logic ngôn ngữ.

Ví dụ, dạy người khác đi qua một mê cung, dùng ngôn ngữ mô tả sẽ làm người ta hoa mắt, nhưng vẽ một bản phác thảo lại có thể khiến người ta hiểu ngay.

Lại ví dụ, ngay cả một con chim, dù không có ngôn ngữ, nhưng có thể thông qua thị giác, nhận biết và suy luận đặc điểm địa lý, từ đó thực hiện di cư đường dài toàn cầu. Đây là một tín hiệu mạnh mẽ, cho thấy để thực sự thúc đẩy khả năng suy luận của máy móc, thị giác rất có thể là hướng đi đúng đắn.

Vậy, hãy tưởng tượng, nếu ngay từ lúc đột phá xây dựng mô hình, đã thử khắc bản năng thị giác sinh học này vào gen của AI, xây dựng một mô hình đa phương thức nguyên sinh có thể "đồng thời hiểu và xử lý văn bản, hình ảnh, video và âm thanh", thì có thể cho mô hình có khả năng hiểu thị giác. Andrew Dai và đội ngũ muốn xây dựng một "người cảm thụ đa giác quan" bẩm sinh, dạy máy móc không chỉ "nhìn thấy" thế giới, mà còn "hiểu" thế giới.

Theo Andrew Dai và đội ngũ, nhận thức sâu sắc "thế giới vật lý" thực sự là chìa khóa để đạt được bước nhảy vọt thông minh máy móc thế hệ tiếp theo, và cuối cùng chạm tới "Trí tuệ nhân tạo phổ quát thị giác (Visual AGI)".

VLM với suy luận hậu kỳ không phải là con đường đúng đắn dẫn đến suy luận thị giác

Trước đây không phải không có đội ngũ muốn làm việc này, thực tế đội ngũ Gemini trước đây của Andrew Dai, đã là đội ngũ rất tiên tiến trong lĩnh vực đa phương thức trên toàn cầu. Nhưng mô hình đa phương thức truyền thống, vẫn chủ yếu là VLM (mô hình ngôn ngữ hình ảnh), logic của nó được xây dựng trên cơ sở "hai bước": đầu tiên chuyển đổi đầu vào thị giác thành ngôn ngữ, sau đó mới thực hiện suy luận dựa trên văn bản (đôi khi hỗ trợ gọi công cụ bên ngoài).

Tuy nhiên, suy luận hậu kỳ về bản chất đều có hạn chế, một mặt dễ sinh ra ảo giác mô hình, mặt khác nhiều nhiệm vụ thị giác hoàn toàn không thể mô tả chính xác bằng văn bản.

Ngoài ra, các mô hình tạo sinh thị giác như NanoBanana, có khả năng tạo đa phương thức xuất sắc, nhưng khả năng tạo sinh và khả năng suy luận không ngang bằng nhau, "suy nghĩ" của chúng trước khi tạo sinh, về bản chất vẫn phụ thuộc vào mô hình ngôn ngữ, không phải là khả năng suy luận nguyên sinh.

Nếu muốn phát triển mô hình có thể thấu hiểu sự phức tạp về không gian, cấu trúc và quan hệ trong thế giới thị giác, tất yếu cần đổi mới mang tính đột phá trong công nghệ cơ sở.

Vậy, đổi mới như thế nào? Mấy nhà sáng lập Elorian AI ngâm mình nhiều năm trong lĩnh vực đa phương thức, cách làm của họ là: kết hợp sâu giữa huấn luyện đa phương thức và kiến trúc mới được thiết kế chuyên cho suy luận đa phương thức. Loại bỏ cách làm truyền thống xem hình ảnh là đầu vào tĩnh, chuyển sang huấn luyện mô hình tương tác trực tiếp và thao tác biểu diễn thị giác (Visual representations) để tự phân giải cấu trúc, quan hệ và ràng buộc vật lý trong đó.

Tất nhiên, yếu tố cốt lõi khác là dữ liệu, nó là chìa khóa quyết định hiệu suất và thành bại của các mô hình này.

Andrew Dai表示, họ rất coi trọng chất lượng dữ liệu, tỷ lệ pha trộn dữ liệu, nguồn gốc dữ liệu và sự đa dạng của dữ liệu, đồng thời đã đổi mới ở tầng dữ liệu, tái cấu trúc liên kết suy luận trong không gian thị giác, còn sử dụng sâu rộng dữ liệu tổng hợp trên quy mô lớn.

Những nỗ lực tổng hợp này, sẽ thúc đẩy ra đời hệ thống AI mới có thể vượt qua "nhận thức" thị giác đơn giản, tiến tới "suy luận" thị giác cao cấp.

Hệ thống AI này có thể là mô hình cơ sở suy luận thị giác: tức xây dựng một mô hình có tính phổ dụng cao, nhưng thể hiện cực kỳ xuất sắc trên tập năng lực cụ thể, năng lực cụ thể này chính là suy luận thị giác.

Vì là một mô hình cơ sở phổ dụng, lĩnh vực ứng dụng của nó nên rộng rãi.

Đầu tiên, trong đường đua robot, nó có thể trở thành trung tâm thần kinh cơ sở của hệ thống mạnh mẽ, trao cho nó khả năng tác nghiệp tự chủ trong các môi trường lạ lẫm khác nhau.

Ví dụ, trong đường đua robot, phái một robot xử lý một sự cố an toàn đột xuất trong môi trường nguy hiểm. Điều này đòi hỏi robot đưa ra quyết định nhanh chóng và chính xác trong chớp mắt. Nếu robot thiếu mô hình cơ sở có khả năng suy luận sâu, người ta sẽ không dám để nó bấm nút bừa bãi hoặc vận hành cần gạt. Nhưng nếu nó có khả năng suy luận cực mạnh, nó có thể nghĩ: "Trước khi vận hành bảng điều khiển này, có lẽ tôi nên kéo cần gạt này trước, kích hoạt cơ chế bảo vệ an toàn."

Ngoài ra trong quản lý thiên tai, mô hình có suy luận thị giác có thể thông qua phân tích hình ảnh vệ tinh để giám sát và phòng ngừa cháy rừng; trong lĩnh vực kỹ thuật, nó có thể nhìn chính xác các bản vẽ thị giác phức tạp, sơ đồ nguyên lý hệ thống, ý nghĩa của năng lực này nằm ở chỗ, quy tắc vận hành của thế giới vật lý khác biệt cơ bản với thế giới thuần mã, bạn không thể chỉ dựa vào gõ vài dòng mã thuần túy để thiết kế ra cánh máy bay.

Tuy nhiên, hiện tại mô hình, năng lực của Elorian AI tạm thời vẫn chỉ nằm trên giấy, họ dự kiến sẽ phát hành một mô hình đạt trình độ SOTA trong lĩnh vực suy luận thị giác vào năm 2026, đến lúc đó có thể kiểm tra thành quả của họ có phù hợp với tuyên bố hay không.

Khi AI thực sự có khả năng "suy luận thị giác", nó sẽ thay đổi thế giới vật lý như thế nào?

Để AI hiểu và ảnh hưởng thế giới vật lý thực, công nghệ đã lặp lại nhiều lần.

Từ nhận dạng hình ảnh thời CV truyền thống, đến mô hình tạo sinh hình ảnh/mô hình đa phương thức của AI生成, rồi đến mô hình thế giới, sự hiểu biết về thế giới vật lý luôn được tăng cường.

Mà mô hình cơ sở suy luận thị giác, rất có thể tiến thêm một bước, bởi vì có thể thực hiện suy luận thị giác, AI sẽ hiểu sâu hơn thế giới vật lý, từ đó đạt được trí thông minh máy móc tầng cao hơn.

Hãy tưởng tượng, khi mô hình có khả năng hiểu sâu và thao tác tinh tế "nạp điện" cho ngành trí thông minh thể hiện, cũng như ngành phần cứng AI, sẽ mở rộng đáng kể phạm vi ứng dụng của chúng. Ví dụ, robot có thể tiến hành sản xuất công nghiệp có độ tin cậy cao hơn, hoặc lĩnh vực chăm sóc y tế; phần cứng AI, đặc biệt là thiết bị đeo, trở thành trợ lý cá nhân thông minh hơn.

Tuy nhiên, ở cơ sở của những công nghệ này, vẫn là dữ liệu. Andrew Dai ở trên cũng表示, chất lượng dữ liệu, tỷ lệ pha trộn dữ liệu, nguồn gốc dữ liệu và sự đa dạng của dữ liệu, đều quyết định hiệu suất của mô hình.

Trong lĩnh vực AI vật lý, doanh nghiệp Trung Quốc dù ở tầng mô hình hay tầng dữ liệu, so với mô hình lớn văn bản, đều gần với trình độ dẫn đầu thế giới hơn. Nếu có thể dựa vào lợi thế dữ liệu, ứng dụng场景 phong phú hơn, đẩy nhanh tốc độ lặp, thì dù là trí thông minh thể hiện hay phần cứng AI, dù ứng dụng trong công nghiệp, y tế, hay gia đình, đều có cơ hội lớn hơn để đạt trình độ dẫn đầu, tất nhiên cũng có cơ hội chạy ra doanh nghiệp tầm cỡ thế giới.

你可能也喜歡

a16z：从公司到 DAO，DUNA 或成为下一代组织形式

这篇文章回顾了商业组织形式的演变历史，从中世纪的家族贸易、康孟达、合伙公司，到近代出现的股份公司、有限责任公司等，核心挑战始终是如何让陌生人有效协作。文章指出，公司制度虽解决了工业时代的协作问题，但带来了管理层级臃肿、委托代理问题等新成本。当前，去中心化自治组织（DAO）作为互联网原生组织，面临着关键的法律困境：缺乏法律认可导致成员可能承担无限责任，同时其运作模式与现行证券监管（如美国Howey测试）存在冲突，迫使项目寻求离岸基金会等权宜之计，这损害了创新与治理效率。文章重点介绍了一种新兴法律实体——去中心化非法人非营利协会（DUNA）。它已在阿拉巴马、西弗吉尼亚和怀俄明等州立法，旨在为去中心化网络提供法律人格、有限责任和持续存续等核心保护，使代币持有者社区能够以合法实体身份运作，而无需依赖传统公司的集中管理结构。DUNA并不解决所有治理或证券法问题，但它填补了关键制度空白，为DAO提供了一种可行的合规组织形式，代表了组织设计演进的新方向。

marsbit21 分鐘前

marsbit21 分鐘前

2026 链上 RWA 年中报告：代币化股票市值一年翻倍，但九成权利是空壳

《2026 链上 RWA 年中报告》指出，链上代币化股票市值在四个月内从9.51亿美元增至18.9亿美元，实现翻倍。然而，这一增长主要由少数产品驱动，且市场存在根本性矛盾：流动性好的产品（如离岸包装代币）往往缺乏真实的法律所有权，而具备坚实法律基础的产品（如受监管的美国基础设施产品）则流动性不足。报告强调，当前市场可视为分裂的“第2.5层”体系，尚无产品能同时实现标准所有权、广泛分发、机构流动性和独立链上价格发现。增长主要集中于三个工具：SECZ、FGRS和STRCx，它们贡献了近一半的增量。市场集中度高，Ondo、xStocks和Securitize三大平台占据了85%以上的市场份额。尽管资产分布在以太坊、Solana等多个区块链上，但它们背后常依赖相同的中介机构。报告提醒，总量数据（如报告的367.8亿美元RWA）需谨慎解读，它反映的是平台方法论下的权益价值，而非实际资金流动。真正的挑战在于统一法律框架与提升流动性，目前代币化国债展现了更强的产品匹配度，而股票ETF可能比单只股票更具规模化潜力。

marsbit1 小時前

marsbit1 小時前

比特币用户注意！今天的黑客攻击规模可能比您想象的更大。以下是您需要采取的措施

比特币硬件钱包制造商Coinkite宣布，在其Coldcard Mk3设备（固件版本4.0.1至5.0.3）中发现一个关键安全漏洞，可能影响设备生成的种子短语安全。该公司建议可能受影响的用户立即将资金转移到新的、更安全的钱包。此次警告发布之际，针对数百个单签名比特币钱包的大规模攻击调查正在进行。最初报告被盗约594 BTC，但Galaxy Research的更广泛分析表明，共有1196个钱包被清空，涉及约1082.65 BTC（当时价值约7020万美元）。所有交易均在7月30日的41分钟内完成，且具有相同的交易费结构，暗示攻击可能使用了自动工具扫描已泄露的私钥。值得注意的是，此次攻击发生在Coinkite公开披露Coldcard Mk3漏洞之前约30小时。安全专家建议，曾在受影响的Coldcard Mk3设备上创建种子短语的用户，不应再视该旧种子为安全。用户应在可靠的新硬件钱包上生成全新的种子短语，并将所有资金转移至新地址。仅更换设备是不够的，切勿将旧种子导入新钱包。

cryptonews.ru3 小時前

cryptonews.ru3 小時前

比特币八月行情：专家预计将测试价格区间，而非快速反转

比特币在八月可能继续承压，分析师预计市场将测试关键区间而非快速反转。七月比特币从多年低点反弹，但专家认为持续上涨条件尚不成熟，价格仍有跌至6万美元以下的风险。截至七月底，比特币交易于约6.35万美元，较2025年10月的历史高点下跌约50%。市场目前处于6万至6.5万美元的窄幅区间内。分析师指出，高利率、持续通胀、强势美元以及石油价格等因素共同构成不利的宏观经济背景，压制了比特币价格。此外，美国国债等传统资产的高收益率吸引了部分资金，而加密货币ETF资金持续流出（上半年净流出54亿美元），显示机构需求疲软。从历史数据看，八月通常是加密货币的弱势月份。专家认为市场可能正处于新周期开始前的最后阶段，建议投资者可考虑逐步积累仓位，但需警惕短期波动。主要预测场景如下： - 基本情况（50%概率）：在5.8万至6.8万美元区间震荡。 - 负面场景（30%概率）：跌破5.8万美元，下探5万至5.5万美元。 - 正面场景（20%概率）：突破6.7万美元，目标看向7.1万至7.5万美元。关键支撑位在6万至6.1万美元附近，而稳定在6.7万美元上方可能打破下跌趋势。部分分析师认为，即便反弹至7万美元，也可能出现新一轮下跌，长期目标位指向约5.3万美元区域。多数观点认为，更显著的趋势性行情可能需等到今年第四季度。投资者在八月需密切关注利率、通胀数据、ETF资金流、市场风险偏好以及主要参与者的动向，这个月可能更多是对耐心的考验，而非实现重大突破的时机。

cryptonews.ru3 小時前

cryptonews.ru3 小時前

Coldcard硬件钱包被黑：黑客在25分钟内转走594枚比特币

硬件钱包Coldcard遭黑客攻击：25分钟内损失594枚比特币硬件钱包长期以来被认为是存储数字货币最安全的方式，但Coinkite公司设备近期发生的事件迫使许多人重新审视这一观点。2026年7月30日，攻击者在短短25分钟内从500个地址转走了594.5枚比特币（约合4000万美元）。问题的根源在于一个潜伏了五年的软件代码错误。Coldcard本应通过安全芯片生成真随机数来创建种子短语，但由于一个宏定义中的笔误，Coinkite的开发者早在2021年3月就意外禁用了此功能。这导致设备转而基于可预测的数据（如处理器序列号和内部系统时钟）生成密钥，使得生成的种子短语看似安全，实则因生成过程可预测而极易被破解。对于Mk2和Mk3型号，密钥搜索空间骤降至约40位，而更新的Mk4、Mk5和Q型号的最终熵值也仅为约72位，远低于所需的128位。攻击者无需物理接触设备或进行网络钓鱼。他们仅利用了有缺陷的生成器参数，在离线状态下进行大规模枚举，生成了数百万可能的种子短语，并通过公开账本找到有余额的地址，自行签署了转账交易。 Coinkite最初声称新版本设备不受影响，但后续分析迫使公司承认所有运行受影响固件的设备均存在风险。公司负责人Rodolphe Novak已公开道歉，但排除了对受损用户进行经济补偿的可能性。对于已创建种子短语的用户，仅更新固件无法消除风险。必须将设备更新至安全版本固件，在更新后的设备上生成全新的种子短语，并将所有资金完全转移到由此新种子短语生成的新地址。使用BIP-39标准的密码短语可降低风险，但不能替代密钥迁移。公司的其他产品如TAPSIGNER等未受此次事件影响。此事件表明，即使是专用硬件也需要对代码进行持续独立的审计，尤其是在加密功能方面。从机器分析角度看，这与过去OpenSSL等随机数生成器缺陷长期未被发现的情况类似。开源代码理论上可通过独立审计和自动化工具加速发现此类错误，但此次漏洞潜伏五年表明理论与实践仍有差距。

cryptonews.ru3 小時前

cryptonews.ru3 小時前

交易

現貨

Khám phá AGI thế giới vật lý với 'Suy luận thị giác', ElorianAI huy động được 55 triệu USD

文章摘要

Người tiên phong về mô hình đa phương thức, muốn mô hình thị giác có khả năng suy luận

VLM với suy luận hậu kỳ không phải là con đường đúng đắn dẫn đến suy luận thị giác

Khi AI thực sự có khả năng "suy luận thị giác", nó sẽ thay đổi thế giới vật lý như thế nào?

熱門幣種推薦

相關問答

你可能也喜歡

a16z：从公司到 DAO，DUNA 或成为下一代组织形式

2026 链上 RWA 年中报告：代币化股票市值一年翻倍，但九成权利是空壳

比特币用户注意！今天的黑客攻击规模可能比您想象的更大。以下是您需要采取的措施

比特币八月行情：专家预计将测试价格区间，而非快速反转

Coldcard硬件钱包被黑：黑客在25分钟内转走594枚比特币

交易

熱門文章

如何購買AR

相關討論

熱門問答

熱門分類

熱門標籤