Khám phá AGI thế giới vật lý với 'Suy luận thị giác', ElorianAI huy động được 55 triệu USD

marsbitXuất bản vào 2026-04-23Cập nhật gần nhất vào 2026-04-23

Tóm tắt

Mặc dù AI mô hình lớn đã vượt trội trong lập trình và toán học, khả năng lập luận thị giác của chúng vẫn chỉ ở mức trẻ 3 tuổi. ElorianAI, do Andrew Dai (cựu Google DeepMind) và Yinfei Yang (chuyên gia AI của Apple) sáng lập, đã huy động 55 triệu USD để phát triển mô hình đa phương thức "suy nghĩ nguyên sinh trong không gian thị giác", nhằm đạt được AGI cho thế giới vật lý. Thay vì chuyển đổi hình ảnh thành văn bản như VLM truyền thống, họ xây dựng kiến trúc mới để AI trực tiếp thao tác và hiểu sâu biểu diễn thị giác, kết hợp dữ liệu tổng hợp chất lượng cao. Mô hình dự kiến ra mắt năm 2026, hứa hẹn ứng dụng trong robot, quản lý thiên tai và kỹ thuật, nơi cần ra quyết định phức tạp trong môi trường vật lý.

Văn | Công xã Alpha

Khả năng của mô hình AI lớn trong một số lĩnh vực đã vượt quá người bình thường, chẳng hạn như lập trình và toán học. Theo tin tức, Anthropic nội bộ gần như đã đạt được 100% lập trình AI, Gemini Deep Think của Google đã giải được 5 trong 6 bài toán tại IMO 2025, đạt trình độ huy chương vàng.

Nhưng về suy luận thị giác, ngay cả Gemini 3 Pro dẫn đầu về trình độ, cũng chỉ đạt mức độ của trẻ 3 tuổi trên Benchmark BabyVision - một bài kiểm tra khả năng suy luận thị giác cơ bản.

Tại sao mô hình lớn mạnh về lập trình và toán học, nhưng lại yếu về suy luận thị giác? Điều này là do "cách suy nghĩ" của nó có hạn chế. Mô hình ngôn ngữ hình ảnh (VLM) cần chuyển đổi đầu vào thị giác thành ngôn ngữ trước, sau đó mới thực hiện suy luận dựa trên văn bản. Tuy nhiên, nhiều nhiệm vụ thị giác hoàn toàn không thể mô tả chính xác bằng văn bản, điều này dẫn đến khả năng suy luận thị giác của mô hình kém.

Andrew Dai, người đã làm việc tại Google DeepMind 14 năm, cùng với chuyên gia AI kỳ cựu của Apple là Yinfei Yang, đã thành lập một công ty tên là Elorian AI. Mục tiêu của họ là nâng cao khả năng suy luận thị giác của mô hình từ "trình độ trẻ em" lên "trình độ người lớn", và cho mô hình có khả năng suy nghĩ nguyên sinh thực sự trong "không gian thị giác", từ đó hướng tới AGI của thế giới vật lý.

Elorian AI đã huy động được 55 triệu USD vốn đầu tư giai đoạn đầu do Striker Venture Partners, Menlo Ventures và Altimeter cùng dẫn đầu, với sự tham gia của 49 Palms và các nhà khoa học AI hàng đầu bao gồm Jeff Dean.

Người tiên phong về mô hình đa phương thức, muốn mô hình thị giác có khả năng suy luận

Là người gốc Hoa, Andrew Dai, cử nhân khoa học máy tính Cambridge, tiến sĩ học máy Edinburgh, đã thực tập tại Google trong thời gian học tiến sĩ và gia nhập Google vào năm 2012, ở lại 14 năm cho đến khi khởi nghiệp.


Nguồn ảnh:Linkedin của Andrew Dai

Không lâu sau khi gia nhập Google, ông cùng với Quoc V. Le đã đồng viết bài báo đầu tiên về huấn luyện trước mô hình ngôn ngữ và vi chỉnh có giám sát 《Semi-supervised Sequence Learning》. Bài báo này đặt nền móng cho sự ra đời của GPT. Một bài báo nền tảng khác của ông là 《Glam: Efficient scaling of language models with mixture-of-experts》, mở đường cho kiến trúc MoE phổ biến hiện nay.

Nguồn ảnh: Google

Trong thời gian ở Google, ông cũng tham gia sâu vào hầu hết các quá trình huấn luyện mô hình lớn, từ Palm đến Gemini1.5 và Gemini2.5. Dưới sự sắp xếp của Jeff Dean, ông bắt đầu phụ trách lãnh đạo mảng dữ liệu của Gemini (bao gồm dữ liệu tổng hợp) vào năm 2023, quy mô đội ngũ sau đó đã mở rộng lên đến hàng trăm người.

Nguồn ảnh:Linkedin của Yinfei Yang

Cùng khởi nghiệp với Andrew Dai là Yinfei Yang, người đã từng làm việc tại Google Research bốn năm, tập trung vào học biểu diễn đa phương thức, sau đó gia nhập Apple, phụ trách nghiên cứu và phát triển mô hình đa phương thức.

Nguồn ảnh:arxiv

Nghiên cứu tiêu biểu của ông 《Scaling up visual and vision-language representation learning with noisy text supervision》 đã thúc đẩy sự phát triển của học biểu diễn đa phương thức.

Đồng sáng lập Elorian AI còn có Seth Neel, từng là AP (Trợ lý Giáo sư) tại Đại học Harvard, cũng là chuyên gia về dữ liệu và AI.

Tại sao phải thảo luận về những bài báo mang tính khai phá mà các nhà đồng sáng lập Elorian AI đã viết? Bởi vì việc họ làm không phải là tối ưu hóa ở tầng kỹ thuật, mà là cập nhật mô hình từ kiến trúc cơ sở, để nâng cấp AI từ hiểu thông minh dựa trên văn bản lên hiểu thông minh dựa trên thị giác.

Tình trạng hiện tại của mô hình AI là, mặc dù thể hiện xuất sắc trong các nhiệm vụ dựa trên văn bản, nhưng ngay cả mô hình đa phương thức lớn tiên tiến nhất, vẫn sẽ vấp ngã trong nhiệm vụ căn chỉnh thị giác (Visual grounding) cơ bản nhất.

Ví dụ, làm thế nào để lắp một linh kiện nào đó khít vào một thiết bị cơ khí, làm cho nó hoạt động chính xác hơn, hiệu quả hơn? Loại nhiệm vụ vật lý không gian này rất đơn giản đối với học sinh tiểu học, nhưng lại rất khó đối với các mô hình đa phương thức lớn hiện có.

Điều này vẫn phải tìm manh mối từ sinh học. Trong não người, thị giác là chất nền cơ sở hỗ trợ nhiều quá trình tư duy. Khả năng sử dụng thị giác và suy luận không gian của con người lâu đời hơn nhiều so với suy luận logic ngôn ngữ.

Ví dụ, dạy người khác đi qua một mê cung, dùng ngôn ngữ mô tả sẽ làm người ta hoa mắt, nhưng vẽ một bản phác thảo lại có thể khiến người ta hiểu ngay.

Lại ví dụ, ngay cả một con chim, dù không có ngôn ngữ, nhưng có thể thông qua thị giác, nhận biết và suy luận đặc điểm địa lý, từ đó thực hiện di cư đường dài toàn cầu. Đây là một tín hiệu mạnh mẽ, cho thấy để thực sự thúc đẩy khả năng suy luận của máy móc, thị giác rất có thể là hướng đi đúng đắn.

Vậy, hãy tưởng tượng, nếu ngay từ lúc đột phá xây dựng mô hình, đã thử khắc bản năng thị giác sinh học này vào gen của AI, xây dựng một mô hình đa phương thức nguyên sinh có thể "đồng thời hiểu và xử lý văn bản, hình ảnh, video và âm thanh", thì có thể cho mô hình có khả năng hiểu thị giác. Andrew Dai và đội ngũ muốn xây dựng một "người cảm thụ đa giác quan" bẩm sinh, dạy máy móc không chỉ "nhìn thấy" thế giới, mà còn "hiểu" thế giới.

Theo Andrew Dai và đội ngũ, nhận thức sâu sắc "thế giới vật lý" thực sự là chìa khóa để đạt được bước nhảy vọt thông minh máy móc thế hệ tiếp theo, và cuối cùng chạm tới "Trí tuệ nhân tạo phổ quát thị giác (Visual AGI)".

VLM với suy luận hậu kỳ không phải là con đường đúng đắn dẫn đến suy luận thị giác

Trước đây không phải không có đội ngũ muốn làm việc này, thực tế đội ngũ Gemini trước đây của Andrew Dai, đã là đội ngũ rất tiên tiến trong lĩnh vực đa phương thức trên toàn cầu. Nhưng mô hình đa phương thức truyền thống, vẫn chủ yếu là VLM (mô hình ngôn ngữ hình ảnh), logic của nó được xây dựng trên cơ sở "hai bước": đầu tiên chuyển đổi đầu vào thị giác thành ngôn ngữ, sau đó mới thực hiện suy luận dựa trên văn bản (đôi khi hỗ trợ gọi công cụ bên ngoài).

Tuy nhiên, suy luận hậu kỳ về bản chất đều có hạn chế, một mặt dễ sinh ra ảo giác mô hình, mặt khác nhiều nhiệm vụ thị giác hoàn toàn không thể mô tả chính xác bằng văn bản.

Ngoài ra, các mô hình tạo sinh thị giác như NanoBanana, có khả năng tạo đa phương thức xuất sắc, nhưng khả năng tạo sinh và khả năng suy luận không ngang bằng nhau, "suy nghĩ" của chúng trước khi tạo sinh, về bản chất vẫn phụ thuộc vào mô hình ngôn ngữ, không phải là khả năng suy luận nguyên sinh.

Nếu muốn phát triển mô hình có thể thấu hiểu sự phức tạp về không gian, cấu trúc và quan hệ trong thế giới thị giác, tất yếu cần đổi mới mang tính đột phá trong công nghệ cơ sở.

Vậy, đổi mới như thế nào? Mấy nhà sáng lập Elorian AI ngâm mình nhiều năm trong lĩnh vực đa phương thức, cách làm của họ là: kết hợp sâu giữa huấn luyện đa phương thức và kiến trúc mới được thiết kế chuyên cho suy luận đa phương thức. Loại bỏ cách làm truyền thống xem hình ảnh là đầu vào tĩnh, chuyển sang huấn luyện mô hình tương tác trực tiếp và thao tác biểu diễn thị giác (Visual representations) để tự phân giải cấu trúc, quan hệ và ràng buộc vật lý trong đó.

Tất nhiên, yếu tố cốt lõi khác là dữ liệu, nó là chìa khóa quyết định hiệu suất và thành bại của các mô hình này.

Andrew Dai表示, họ rất coi trọng chất lượng dữ liệu, tỷ lệ pha trộn dữ liệu, nguồn gốc dữ liệu và sự đa dạng của dữ liệu, đồng thời đã đổi mới ở tầng dữ liệu, tái cấu trúc liên kết suy luận trong không gian thị giác, còn sử dụng sâu rộng dữ liệu tổng hợp trên quy mô lớn.

Những nỗ lực tổng hợp này, sẽ thúc đẩy ra đời hệ thống AI mới có thể vượt qua "nhận thức" thị giác đơn giản, tiến tới "suy luận" thị giác cao cấp.

Hệ thống AI này có thể là mô hình cơ sở suy luận thị giác: tức xây dựng một mô hình có tính phổ dụng cao, nhưng thể hiện cực kỳ xuất sắc trên tập năng lực cụ thể, năng lực cụ thể này chính là suy luận thị giác.

Vì là một mô hình cơ sở phổ dụng, lĩnh vực ứng dụng của nó nên rộng rãi.

Đầu tiên, trong đường đua robot, nó có thể trở thành trung tâm thần kinh cơ sở của hệ thống mạnh mẽ, trao cho nó khả năng tác nghiệp tự chủ trong các môi trường lạ lẫm khác nhau.

Ví dụ, trong đường đua robot, phái một robot xử lý một sự cố an toàn đột xuất trong môi trường nguy hiểm. Điều này đòi hỏi robot đưa ra quyết định nhanh chóng và chính xác trong chớp mắt. Nếu robot thiếu mô hình cơ sở có khả năng suy luận sâu, người ta sẽ không dám để nó bấm nút bừa bãi hoặc vận hành cần gạt. Nhưng nếu nó có khả năng suy luận cực mạnh, nó có thể nghĩ: "Trước khi vận hành bảng điều khiển này, có lẽ tôi nên kéo cần gạt này trước, kích hoạt cơ chế bảo vệ an toàn."

Ngoài ra trong quản lý thiên tai, mô hình có suy luận thị giác có thể thông qua phân tích hình ảnh vệ tinh để giám sát và phòng ngừa cháy rừng; trong lĩnh vực kỹ thuật, nó có thể nhìn chính xác các bản vẽ thị giác phức tạp, sơ đồ nguyên lý hệ thống, ý nghĩa của năng lực này nằm ở chỗ, quy tắc vận hành của thế giới vật lý khác biệt cơ bản với thế giới thuần mã, bạn không thể chỉ dựa vào gõ vài dòng mã thuần túy để thiết kế ra cánh máy bay.

Tuy nhiên, hiện tại mô hình, năng lực của Elorian AI tạm thời vẫn chỉ nằm trên giấy, họ dự kiến sẽ phát hành một mô hình đạt trình độ SOTA trong lĩnh vực suy luận thị giác vào năm 2026, đến lúc đó có thể kiểm tra thành quả của họ có phù hợp với tuyên bố hay không.

Khi AI thực sự có khả năng "suy luận thị giác", nó sẽ thay đổi thế giới vật lý như thế nào?

Để AI hiểu và ảnh hưởng thế giới vật lý thực, công nghệ đã lặp lại nhiều lần.

Từ nhận dạng hình ảnh thời CV truyền thống, đến mô hình tạo sinh hình ảnh/mô hình đa phương thức của AI生成, rồi đến mô hình thế giới, sự hiểu biết về thế giới vật lý luôn được tăng cường.

Mà mô hình cơ sở suy luận thị giác, rất có thể tiến thêm một bước, bởi vì có thể thực hiện suy luận thị giác, AI sẽ hiểu sâu hơn thế giới vật lý, từ đó đạt được trí thông minh máy móc tầng cao hơn.

Hãy tưởng tượng, khi mô hình có khả năng hiểu sâu và thao tác tinh tế "nạp điện" cho ngành trí thông minh thể hiện, cũng như ngành phần cứng AI, sẽ mở rộng đáng kể phạm vi ứng dụng của chúng. Ví dụ, robot có thể tiến hành sản xuất công nghiệp có độ tin cậy cao hơn, hoặc lĩnh vực chăm sóc y tế; phần cứng AI, đặc biệt là thiết bị đeo, trở thành trợ lý cá nhân thông minh hơn.

Tuy nhiên, ở cơ sở của những công nghệ này, vẫn là dữ liệu. Andrew Dai ở trên cũng表示, chất lượng dữ liệu, tỷ lệ pha trộn dữ liệu, nguồn gốc dữ liệu và sự đa dạng của dữ liệu, đều quyết định hiệu suất của mô hình.

Trong lĩnh vực AI vật lý, doanh nghiệp Trung Quốc dù ở tầng mô hình hay tầng dữ liệu, so với mô hình lớn văn bản, đều gần với trình độ dẫn đầu thế giới hơn. Nếu có thể dựa vào lợi thế dữ liệu, ứng dụng场景 phong phú hơn, đẩy nhanh tốc độ lặp, thì dù là trí thông minh thể hiện hay phần cứng AI, dù ứng dụng trong công nghiệp, y tế, hay gia đình, đều có cơ hội lớn hơn để đạt trình độ dẫn đầu, tất nhiên cũng có cơ hội chạy ra doanh nghiệp tầm cỡ thế giới.

Câu hỏi Liên quan

QTại sao các mô hình AI lớn như Gemini 3 Pro chỉ có khả năng lý luận thị giác tương đương trẻ 3 tuổi?

AVì các mô hình ngôn ngữ thị giác (VLM) hiện tại phải chuyển đổi đầu vào hình ảnh thành văn bản trước khi suy luận, nhưng nhiều nhiệm vụ thị giác không thể mô tả chính xác bằng ngôn ngữ, dẫn đến hạn chế trong khả năng lý luận.

QElorian AI được thành lập bởi những ai và mục tiêu của họ là gì?

AĐược đồng sáng lập bởi Andrew Dai (cựu Google DeepMind) và Yinfei Yang (chuyên gia AI của Apple). Mục tiêu là nâng cao khả năng lý luận thị giác của AI từ 'mức trẻ em' lên 'mức người lớn' và hướng tới AGI cho thế giới vật lý.

QElorian AI đã huy động được bao nhiêu vốn và từ những nhà đầu tư nào?

ACông ty đã huy động được 55 triệu USD từ các nhà đầu tư dẫn đầu như Striker Venture Partners, Menlo Ventures, Altimeter, cùng sự tham gia của 49 Palms và các nhà khoa học AI hàng đầu như Jeff Dean.

QCông nghệ của Elorian AI khác biệt thế nào so với mô hình đa phương tiện truyền thống?

AHọ tập trung vào kiến trúc mới cho phép mô hình xử lý và suy luận trực tiếp trong không gian thị giác, thay vì chuyển đổi hình ảnh thành văn bản trước. Điều này giúp giảm ảo giác và xử lý các tác vụ phức tạp như không gian vật lý.

QỨng dụng tiềm năng của mô hình lý luận thị giác trong thế giới thực là gì?

ABao gồm robot tự động xử lý môi trường nguy hiểm, phân tích hình ảnh vệ tinh để quản lý thiên tai, hiểu bản vẽ kỹ thuật phức tạp, và nâng cao khả năng của thiết bị đeo thông minh trong y tế hoặc công nghiệp.

Nội dung Liên quan

Zcash Chứng Kiến Sự Sụp Đổ Lịch Sử Khi Hàng Tỷ Đô La Biến Mất Khỏi Giá Trị Thị Trường

Thị trường tiền điện tử chấn động bởi sự sụp đổ mạnh mẽ của Zcash (ZEC), đồng tiền tập trung vào quyền riêng tư đã mất hơn một nửa giá trị chỉ trong 24 giờ. Sự sụt giảm đột ngột này xóa sổ khoảng 5 tỷ USD từ vốn hóa thị trường của nó. Nguyên nhân chính được cho là do lo ngại xung quanh một lỗ hổng bảo mật vừa được tiết lộ ảnh hưởng đến cơ sở hạ tầng riêng tư của mạng lưới. Lỗ hổng này, ẩn trong nhóm giao dịch riêng tư Orchard của Zcash từ tháng 5/2022, cho phép tạo ra ZEC giả mạo trong thử nghiệm. Mặc dù đã được vá vào ngày 2/6, thiết kế bảo mật của Zcash khiến không thể xác minh liệu có đồng ZEC giả nào đã được tạo ra trước đó hay không, dẫn đến sự hoang mang và bán tháo. Tình huống này làm nổi bật sự đánh đổi giữa tính riêng tư và minh bạch. Để khôi phục niềm tin, Shielded Labs đang xem xét một đề xuất nâng cấp mạng lưới cho phép xác minh tính toàn vẹn của tổng nguồn cung Zcash. Cộng đồng Zcash nhấn mạnh rằng việc phát hiện lỗ hổng là kết quả của quy trình nghiên cứu bảo mật đẳng cấp và chủ động, một dấu hiệu tích cực cho thấy mạng lưới liên tục được củng cố.

bitcoinist2 giờ trước

Zcash Chứng Kiến Sự Sụp Đổ Lịch Sử Khi Hàng Tỷ Đô La Biến Mất Khỏi Giá Trị Thị Trường

bitcoinist2 giờ trước

Câu chuyện về Bitcoin "Vàng Kỹ Thuật Số" có thất bại hay không?

**TÓM TẮT** Bài viết phân tích Bitcoin từ góc nhìn của Jason, tập trung vào ba vấn đề chính: bản chất của Bitcoin, nguyên nhân đợt giảm giá gần đây và triển vọng dài hạn. **1. Cách nhìn nhận tài sản Bitcoin:** Tác giả vẫn coi Bitcoin là một lớp tài sản mới, ưu việt hơn vàng về tính chất "vàng kỹ thuật số" nhờ: nguồn cung cố định (21 triệu BTC), khả năng chuyển giao vượt trội và tính minh bạch có thể kiểm chứng. Dù vẫn còn sớm (tỷ lệ thâm nhập toàn cầu ~3-4%) và biến động mạnh, quá trình hợp pháp hóa đang đẩy lùi các hoạt động phi chính thức. **2. Nguyên nhân đợt giảm giá 2025-2026:** Đợt giảm khoảng 50% từ đỉnh 12.6万美元 xuống dưới 6.1万美元 là một đợt bán theo chu kỳ có tính đồng thuận cao, phù hợp với mô hình lịch sử sau mỗi lần giảm một nửa phần thưởng. Sự kiện ETF Bitcoin năm 2024 đã mở đường cho dòng tiền tổ chức mua vào, đồng thời tạo cơ hội cho các nhà đầu tư sớm (có giá gốc rất thấp) chốt lời, dẫn đến một đợt "chuyển giao lịch sử" từ những người tin tưởng ban đầu sang các tổ chức đầu tư dài hạn. Một điểm đáng chú ý là biên độ các đợt sụt giảm trong lịch sử đang thu hẹp dần (từ 93% xuống còn ~50%), cho thấy tài sản đang trưởng thành và biến động giảm bớt. **3. Triển vọng dài hạn:** Về dài hạn, nếu tin vào luận điểm "vàng kỹ thuật số", giá trị Bitcoin nên được định giá theo vàng vật chất. Với vốn hóa hiện tại (~1.4 nghìn tỷ USD) chỉ bằng 7% vốn hóa vàng (~20 nghìn tỷ USD), tiềm năng tăng trưởng vẫn còn rất lớn nếu luận điểm này được hiện thực hóa một phần. Tuy nhiên, tác giả cảnh báo rủi ro thực sự không nằm ở bản thân Bitcoin (xác suất về 0 thấp hơn xác suất tăng trưởng), mà ở hai yếu tố: **cơ cấu danh mục đầu tư** (không all-in, vay mượn) và **độ hiểu biết sâu sắc về tài sản**. Chỉ khi hiểu rõ logic cốt lõi, nhà đầu tư mới có thể giữ vững lập trường qua các đợt biến động mạnh. Bài học từ Amazon (sụt 95% năm 2000 rồi tăng 42 lần) cho thấy điều quan trọng là "sống sót" được đến lúc tiềm năng được giải phóng. Câu hỏi cuối cùng được đặt ra: Liệu đợt giảm giá này chứng minh luận điểm "vàng kỹ thuật số" đã thất bại, hay chỉ đơn giản là quá trình chuyển giao chưa kết thúc? Câu trả lời phụ thuộc vào niềm tin nền tảng của mỗi người vào loại tài sản này.

marsbit2 giờ trước

Câu chuyện về Bitcoin "Vàng Kỹ Thuật Số" có thất bại hay không?

marsbit2 giờ trước

Chủ đề “Vàng kỹ thuật số” của BTC có thất bại không?

Tác giả, qua góc nhìn của Jason, phân tích về Bitcoin dưới ba khía cạnh chính: bản chất của tài sản Bitcoin, nguyên nhân đợt giảm giá gần đây và triển vọng dài hạn. **1. Bản chất của Bitcoin:** Tác giả coi Bitcoin là một loại tài sản mới, một phiên bản "vàng kỹ thuật số" ưu việt hơn nhờ tính chất: nguồn cung cố định (21 triệu), khả năng chuyển giao và kiểm toán vượt trội. Dù còn sớm với tỷ lệ thâm nhập toàn cầu khoảng 3-4% và biến động cao, Bitcoin đang dần được hợp thức hóa. **2. Nguyên nhân đợt giảm giá:** Đợt điều chỉnh từ đỉnh ~126k USD (10/2025) xuống ~61k USD (2/2026) được xem là một đợt bán theo chu kỳ 4 năm (sau sự kiện giảm một nửa phần thưởng) và là quá trình "chuyển giao lịch sử" từ các nhà đầu tư sớm sang các tổ chức dài hạn thông qua ETF. Đáng chú ý, mức độ sụt giảm qua các chu kỳ đang thu hẹp (từ 93% xuống ~50%), phản ánh sự trưởng thành của tài sản. **3. Triển vọng dài hạn:** Với vai trò "vàng kỹ thuật số", vốn hóa Bitcoin hiện chỉ bằng ~7% vốn hóa vàng vật chất. Nếu đạt 30-50% vốn hóa vàng, tiềm năng tăng trưởng vẫn rất lớn. Tuy nhiên, tác giả không đưa ra lời khuyên mua ngay và nhấn mạnh hai rủi ro thực sự: **cấu trúc danh mục đầu tư** (không nên all-in, dùng đòn bẩy hoặc tiền không nên dùng) và **độ hiểu biết về tài sản** - yếu tố then chốt để giữ vững tâm lý qua các đợt biến động mạnh. Câu hỏi then chốt là liệu bạn có thể "sống sót" để chứng kiến tiềm năng dài hạn, giống như cổ phiếu Amazon đã vượt qua đợt sụt giảm 95% năm 2000. Bài viết kết luận bằng một câu hỏi mở: Liệu việc vàng tăng 60% trong khi Bitcoin giảm 50% có nghĩa là câu chuyện "vàng kỹ thuật số" đã thất bại, hay đơn giản phản ánh quá trình chuyển giao chưa kết thúc và sự tiến hóa từ tài sản đầu cơ sang tài sản được định vị? Câu trả lời phụ thuộc vào niềm tin cốt lõi của mỗi người vào loại tài sản này.

链捕手2 giờ trước

Chủ đề “Vàng kỹ thuật số” của BTC có thất bại không?

链捕手2 giờ trước

Từ Mã đến Nhận Thức: Hướng Dẫn Nghìn Chữ về Sự Tiến Hóa của Bộ Não Robot

Từ nhiều thập kỷ trước, robot chủ yếu được điều khiển bằng mã lập trình truyền thống, với các lớp như cảm nhận, ước tính trạng thái, lập kế hoạch và điều khiển được xây dựng thủ công. Chúng hoạt động tốt trong môi trường được thiết kế trước nhưng thiếu khả năng tổng quát hóa. Sự xuất hiện của học sâu (deep learning) đã cách mạng hóa lớp cảm nhận, trong khi học tăng cường (reinforcement learning) và học bắt chước (imitation learning) bắt đầu cải thiện lớp điều khiển. Tuy nhiên, mỗi chính sách học được vẫn còn hẹp và thiếu linh hoạt. Sự bùng nổ của các mô hình ngôn ngữ lớn (LLM) như ChatGPT đã mang lại bước nhảy vọt: LLM đóng vai trò như một bộ lập kế hoạch thông minh, dịch chỉ dẫn ngôn ngữ tự nhiên thành chuỗi hành động để hệ thống robot (như ROS2) thực thi. Dù vậy, LLM vẫn chỉ nằm ở lớp lập kế hoạch. Bước tiến quan trọng tiếp theo là các Mô hình Thị giác-Ngôn ngữ-Hành động (VLA). Các mô hình như RT-2 của Google hay OpenVLA hợp nhất lý luận và hành động trong một mạng thần kinh duy nhất, nhận đầu vào là hình ảnh và lệnh, rồi trực tiếp xuất ra các chỉ thị chuyển động, giúp robot linh hoạt và có khả năng tổng quát hóa hơn. Kiến trúc tiên tiến nhất hiện nay cho robot hình người là "hệ thống kép" (System 1/System 2), lấy cảm hứng từ tâm lý học. System 2 (chậm) là một VLA lớn, xử lý cảnh quan và lý luận ở tần số thấp. System 1 (nhanh) là một mạng nhỏ, tốc độ cao, nhận ý định từ System 2 và xuất ra các lệnh chuyển động liên tục. Một số hệ thống còn có System 0 như một lớp phản xạ để giữ thăng bằng. Việc tính toán được chia sẻ: các vòng lặp điều khiển an toàn quan trọng chạy cục bộ trên bo mạch (ví dụ: NVIDIA Jetson) để đảm bảo độ trễ thấp và độ tin cậy, trong khi các tác vụ như giao diện hội thoại hay học tập nhóm có thể chạy trên đám mây. Các mô hình mã nguồn mở như OpenVLA, NVIDIA Isaac GR00T, và Physical Intelligence π0 đang thúc đẩy lĩnh vực này, cho phép các công ty khởi nghiệp tinh chỉnh chúng với dữ liệu riêng thay vì đào tạo từ đầu. Dù đã có tiến bộ lớn, robot VLA hiện tại vẫn có hạn chế: khó khăn trong phục hồi sau lỗi, hiệu quả mẫu thấp, khó khăn với nhiệm vụ dài hạn và thiếu "hiểu biết vật lý" thực sự. Để giải quyết những hạn chế này, lĩnh vực đang tập trung vào "Mô hình Thế giới" (World Model). Đây là các mạng thần kinh có thể dự đoán hệ quả của hành động dựa trên trạng thái hiện tại. Bằng cách mô phỏng nhiều tương lai khả thi trước khi hành động, robot có thể lập kế hoạch tốt hơn, phục hồi tốt hơn và cải thiện khả năng tổng quát hóa. Các kiến trúc chính gồm: mô hình khuếch tán pixel (Cosmos/Sora), Kiến trúc Dự đoán Nhúng Chung (JEPA của LeCun) và Mô hình Thế giới Hành động Tiềm ẩn (Genie/Dreamer). Tương lai, robot tiên tiến có thể kết hợp VLA với Mô hình Thế giới để lập kế hoạch và kiểm tra hành động trong mô phỏng trước khi thực thi, đồng thời tạo ra lượng dữ liệu tổng hợp khổng lồ cho đào tạo. Yếu tố then chốt hiện nay là dữ liệu, với việc điều khiển từ xa (teleoperation) là phương pháp thu thập chính. Mô phỏng (simulation) cũng đóng vai trò ngày càng quan trọng. Về kinh tế, chi phí phần cứng robot hình người đang giảm nhanh, mở ra thị trường rộng lớn hơn. Tuy nhiên, lĩnh vực này vẫn đang ở giai đoạn phát triển, tương tự "thời kỳ GPT-2" của AI vật lý, với tiềm năng to lớn nhưng cần thêm thời gian để trưởng thành hoàn toàn và triển khai một cách tự chủ, an toàn.

marsbit3 giờ trước

Từ Mã đến Nhận Thức: Hướng Dẫn Nghìn Chữ về Sự Tiến Hóa của Bộ Não Robot

marsbit3 giờ trước

Bong bóng AI đang vỡ

Thị trường đang biến động mạnh với nhiều ý kiến về "bong bóng AI". Mặc dù các chuyên gia như Ray Dalio cảnh báo mức độ bong bóng tương đối cao, nhưng những người như CEO NVIDIA, Jensen Huang, vẫn nhìn thấy cơ hội to lớn và nhu cầu về năng lực tính toán mới chỉ bắt đầu bùng nổ. Cả hai quan điểm đều có phần đúng. Bong bóng trong lĩnh vực AI là có thực, giống như bong bóng Internet năm 2000. Tuy nhiên, bong bóng công nghệ thường là cách thị trường phản ứng với một lực lượng sản xuất đột phá. Sau khi bong bóng vỡ, cơ sở hạ tầng vật chất và công nghệ cốt lõi được xây dựng sẽ trở thành nền tảng cho sự phát triển bùng nổ tiếp theo, như đã thấy với Internet. Hiện tại, đầu tư vào cơ sở hạ tầng AI (như GPU, hệ thống làm mát, điện) là rất lớn, trong khi doanh thu từ các công ty thuần AI còn hạn chế, cho thấy sự mất cân đối. Nhưng một yếu tố then chốt là chi phí suy luận AI (inference cost) đã giảm hơn 99.7% trong hai năm qua. Khi chi phí biên của "trí thông minh" tiến gần đến 0, nó mở khóa một lượng lớn nhu cầu và ứng dụng mới trong mọi ngành công nghiệp, từ phần mềm, y sinh đến sản xuất. Điều này tuân theo "Nghịch lý Jevons": hiệu quả tăng lên dẫn đến mức tiêu thụ tổng thể cao hơn. Thị trường hiện đang trong giai đoạn thanh lọc, nơi các công ty chỉ dựa vào khái niệm sẽ bị đào thải. Xu hướng sâu xa bao gồm: 1) Chuyển dịch giá trị từ chi đầu tư (CapEx) sang chi vận hành (OpEx), nơi các ứng dụng AI thực sự tạo ra lợi nhuận; 2) Các công ty cơ sở hạ tầng có thể tiêu hóa định giá cao thông qua tăng trưởng lợi nhuận mạnh mẽ; 3) AI đang được tích hợp sâu vào các ngành như tài chính, pháp lý, chăm sóc sức khỏe và sản xuất, nâng cao hiệu quả đáng kể. Tóm lại, trong khi bong bóng đầu tư có thể xì hơi và gây ra đợt sàng lọc, động lực cơ bản của AI với tư cách là một lực lượng sản xuất đột phá là không thể đảo ngược. Giống như Internet trước đây, tương lai sẽ là một kỷ nguyên mà hầu hết mọi ngành công nghiệp đều được chuyển đổi và trao quyền bởi AI.

链捕手3 giờ trước

Bong bóng AI đang vỡ

链捕手3 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua AR

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Arweave (AR) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Arweave (AR) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Arweave (AR) của BạnSau khi mua Arweave (AR), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Arweave (AR)Giao dịch Arweave (AR) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 605Xuất bản vào 2024.12.11Cập nhật vào 2026.06.02

Làm thế nào để Mua AR

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của AR (AR) được trình bày dưới đây.

活动图片