Nhóm của Lý Phi Phi làm rõ khái niệm 'Mô hình thế giới', Sora chỉ có thể tính là trình kết xuất

marsbitXuất bản vào 2026-06-04Cập nhật gần nhất vào 2026-06-04

Tóm tắt

Nhóm của Giáo sư Lý Phi Phi từ World Labs và Đại học Stanford đã công bố một bài phân tích khái niệm, chỉ ra sự lạm dụng thuật ngữ "mô hình thế giới" trong AI. Bài viết phân loại các hệ thống được gọi là "mô hình thế giới" thành ba chức năng chiếu theo vòng lặp nhận thức POMDP: bộ kết xuất, bộ mô phỏng và bộ lập kế hoạch. Theo phân loại này, các mô hình tạo video như Sora của OpenAI thuộc nhóm "bộ kết xuất". Chúng tập trung tạo ra đầu ra pixel chân thực cho thị giác con người từ trạng thái hoặc mô tả, nhưng không thực sự tính toán các quy luật vật lý chính xác để dự đoán sự thay đổi trạng thái dựa trên hành động. Do đó, chúng không phải là mô hình thế giới đầy đủ hay bộ mô phỏng thế giới. Ngược lại, "bộ mô phỏng" (ví dụ: NVIDIA Omniverse) tập trung vào việc tạo ra trạng thái vật lý-chính xác cho các tính toán, còn "bộ lập kế hoạch" chuyển đổi quan sát thành hành động. Sự nhầm lẫn khái niệm này, thường được thúc đẩy bởi tiếp thị, có thể dẫn đến đánh giá sai lệch về khả năng công nghệ, ảnh hưởng đến lựa chọn kỹ thuật và đầu tư. Việc làm rõ này có giá trị thực tiễn, giúp các doanh nghiệp và nhà đầu tư đánh giá đúng năng lực của từng loại hệ thống. Tương lai có thể hướng tới sự hợp nhất của ba chức năng, nhưng hiện tại, việc nhận biết ranh giới của chúng là rất quan trọng.

Ngày 3 tháng 6 năm 2026, nhóm World Labs cùng với Giáo sư Lý Phi Phi của Đại học Stanford đã công bố một bài viết phân tích khái niệm với tiêu đề thẳng thắn đến mức hầu như không có trang trí: "Phân loại chức năng của Mô hình Thế giới". Câu đầu tiên của bài viết đã chạm đến một sự thỏa hiệp ngầm trong ngành: "Mô hình thế giới là một trong những thuật ngữ quan trọng nhất, cũng như bị lạm dụng nhiều nhất trong lĩnh vực trí tuệ nhân tạo hiện nay."

Bối cảnh của câu nói này, bất kỳ ai theo dõi ngành AI đều không xa lạ.

Tháng 2 năm 2024, OpenAI phát hành mô hình tạo video Sora, tiêu đề báo cáo kỹ thuật ghi rõ "Video Generation Models as World Simulators". Giám đốc robot của NVIDIA, Jim Fan, lúc đó đã để lại một bình luận trên LinkedIn mà sau này được nhắc đi nhắc lại: Sora về bản chất là một "Mô hình thế giới chỉ cho phép hành động 'no-op' (không thao tác) duy nhất". Ở phía khác, theo các báo cáo công khai, nhóm AI của Tesla đã nhiều lần trong các sự kiện công khai gọi thành phần dự đoán bên trong hệ thống lái tự động hoàn toàn (FSD) là "Mô hình thế giới" hoặc "Trình mô phỏng thế giới". Công cụ game engine, công cụ tạo 3D, mô hình trí tuệ thể hiện, các sản phẩm và công nghệ đa dạng đều bị nhồi nhét vào cùng một rổ và dán cùng một nhãn mác.

Một trình tạo video, một mạng dự đoán lái xe tự động, một mô hình điều khiển robot, một động cơ vật lý, chúng có điểm chung gì? Hầu như không có. Nhưng tất cả đều được gọi là "Mô hình thế giới".

Sự hỗn loạn khái niệm kéo dài hơn hai năm này, cuối cùng cũng có người cố gắng sắp xếp một cách có hệ thống. Lần này, nhóm của Lý Phi Phi không công bố mô hình mới, không công bố benchmark mới, cũng không trình diễn bất kỳ chức năng sản phẩm nào. Họ làm một việc cơ bản hơn: quay trở lại nguồn gốc lý thuyết là quá trình ra quyết định Markov phần quan sát được (POMDP), và quy ước tất cả các hệ thống trên thị trường được gọi là "Mô hình thế giới" thành ba phép chiếu chức năng khác nhau của cùng một vòng lặp nhận thức.

Ba phép chiếu đó lần lượt là: Trình kết xuất (Renderer), Trình mô phỏng (Simulator), Bộ lập kế hoạch (Planner). Trong khuôn khổ phân loại của World Labs, Sora và các mô hình tạo video cùng loại, thuộc về trình kết xuất.

Tại sao một thuật ngữ có thể chứa đựng nhiều ý nghĩa mâu thuẫn nhau đến vậy

Để hiểu được nguồn gốc của sự hỗn loạn này, cần phải đặt ra một câu hỏi cơ bản hơn: Khi một công ty nói "Chúng tôi đang làm Mô hình thế giới", họ thực sự đang nói về cái gì?

Đối với OpenAI, mục tiêu của Sora là "hiểu và thể hiện thế giới vật lý trong video". Theo báo cáo kỹ thuật, bằng cách học quy luật thống kê từ khối lượng dữ liệu video khổng lồ, Sora có thể tạo ra những hình ảnh phù hợp với nhận thức thị giác thông thường, chiếc cốc rơi xuống đất sẽ vỡ, máy bay giấy rời tay sẽ bay, người đi bộ hai chân luân phiên bước. Những hình ảnh này trông có vẻ "hiểu vật lý".

Đối với Tesla, "Mô hình thế giới" là mạng nơ-ron trong hệ thống FSD dự đoán quỹ đạo chuyển động của các thành phần tham gia giao thông trong vài giây tới. Nó cần xuất ra vị trí 3D, tốc độ, hướng chính xác để cung cấp cho mô-đun lập kế hoạch đường đi tính toán quyết định lái xe an toàn. Mô hình này không cần xuất pixel, nó xuất ra vector và phân phối xác suất.

Đối với công ty robot, "Mô hình thế giới" là cơ chế mô phỏng nội bộ giúp cánh tay robot có thể dự đoán "nếu tôi đẩy chiếc cốc này sang trái 5 cm, nó có đổ không?". Nó cần hiểu thuộc tính vật thể, cơ học tiếp xúc và tính ổn định, đầu ra là đánh giá khả năng thực thi của hành động.

Mục tiêu của ba loại công ty hoàn toàn khác nhau. Công ty tạo video quan tâm đến độ trung thực pixel, công ty lái xe tự động quan tâm đến độ chính xác dự đoán trạng thái vật lý, công ty robot quan tâm đến khả năng suy diễn hậu quả hành động. Tất cả đều đang làm "Mô hình thế giới", nhưng làm hoàn toàn không phải cùng một thứ.

World Labs trong bài viết đã chỉ thẳng vào cốt lõi vấn đề: Lý do những hệ thống này đều được gán cùng một cái tên, là vì chúng thực sự đều thể hiện một mặt nào đó của "hiểu biết về thế giới". Nhưng chúng mỗi cái chỉ hoàn thành một khâu trong chu trình nhận thức hoàn chỉnh, lại bị ngôn ngữ tiếp thị, báo chí và câu chuyện vốn đầu tư đóng gói thành mô hình thế giới hoàn chỉnh.

Một động lực khác của sự hỗn loạn khái niệm là sức căng nội tại của thuật ngữ này. Cụm từ "Mô hình thế giới" tự thân mang tính chất kể chuyện hoành tráng, nghe có vẻ có nhiều không gian tưởng tượng hơn so với "Mô hình tạo video" hoặc "Mô hình dự đoán video", và có thể hỗ trợ tốt hơn cho định giá cao và câu chuyện gọi vốn. Khi năng lực công nghệ không đáp ứng được kỳ vọng của công chúng, việc khái niệm trở thành công cụ tuyên truyền là điều tất yếu.

Trở về những năm 1960, "Mô hình thế giới" hoàn chỉnh nên là gì

Khuôn khổ phân loại của World Labs được xây dựng dựa trên một nền tảng lý thuyết tưởng chừng cũ kỹ: Quá trình ra quyết định Markov phần quan sát được (POMDP).

Khuôn khổ này mô tả một vòng lặp hoàn chỉnh về sự tương tác giữa tác nhân thông minh và môi trường. Tác nhân ở trong một trạng thái môi trường nào đó, nó thực hiện một hành động, hành động thay đổi trạng thái môi trường, tác nhân thông qua cảm biến thu được một phần quan sát, quan sát kích hoạt cập nhật trạng thái nội bộ, nhận thức sau khi cập nhật thúc đẩy hành động tiếp theo. Vòng lặp lặp đi lặp lại.

Trong khuôn khổ này, chức năng hoàn chỉnh của "Mô hình thế giới" nên bao gồm ba khâu: tạo quan sát từ trạng thái (pixel, point cloud mà mắt người nhìn thấy hoặc cảm biến thu thập được), suy diễn trạng thái tiếp theo từ hành động và trạng thái hiện tại (dự đoán biến đổi vật lý), tạo hành động từ quan sát và mục tiêu (lập kế hoạch ra quyết định).

Mô hình ngôn ngữ học quy luật thống kê của chuỗi văn bản, mô hình thế giới học các đặc tính thống kê của không gian và thời gian. Ánh sáng phản xạ trên bề mặt vật liệu khác nhau như thế nào, vật thể chuyển động dưới tác dụng của trọng lực ra sao, năng lượng truyền đi thế nào sau khi vật rắn va chạm, đây mới là những quy luật mà mô hình thế giới cần nắm bắt.

Nhóm World Labs chỉ ra trong bài viết rằng, tất cả các hệ thống hiện nay trên thị trường được gọi là "Mô hình thế giới", thực tế chỉ là phép chiếu của một khâu chức năng nào đó trong vòng lặp hoàn chỉnh nói trên. Một số hệ thống chỉ làm công việc "từ trạng thái đến quan sát" - kết xuất, một số chỉ làm "từ hành động đến trạng thái tiếp theo" - suy diễn trạng thái, một số chỉ làm "từ quan sát đến hành động" - lập kế hoạch. Mỗi cái cắt lấy một đoạn cung tròn của vòng lặp, nhưng lại bị dán nhãn đại diện cho hình tròn hoàn chỉnh.

Giá trị của khung phân tích này nằm ở chỗ, nó cung cấp một hệ tọa độ so sánh vượt ra ngoài ngôn ngữ tiếp thị. Bất kể một công ty đóng gói sản phẩm của mình như thế nào, chỉ cần đặt nó trở lại vòng lặp POMDP, xem nó nhận đầu vào gì, xuất ra đầu ra gì, thiếu khâu nào, ranh giới năng lực của nó sẽ lộ ra.

Trình kết xuất, Trình mô phỏng, Bộ lập kế hoạch: Ranh giới năng lực của ba phép chiếu

Trong phân loại của World Labs, loại thứ nhất được định nghĩa là "Trình kết xuất" (Renderer). Mục tiêu cốt lõi của nó là tạo ra đầu ra pixel trung thực cao hướng đến nhận thức thị giác của con người. Đầu vào là biểu diễn trạng thái môi trường nào đó (có thể là mô tả văn bản, tham số cảnh 3D hoặc mã hóa ngầm định), đầu ra là những khung hình liên tục.

Hướng tối ưu của trình kết xuất là độ trung thực thị giác chứ không phải độ chính xác vật lý. Bài viết của World Labs chỉ rõ, tòa nhà do trình kết xuất tạo ra có thể "xiêu vẹo", bởi vì nó không thực sự giải phương trình cơ học kết cấu; chất lỏng bắn tung tóe mà nó tạo ra có thể trông rất thật, nhưng thể tích, tốc độ dòng chảy và lực va đập của chất lỏng có thể hoàn toàn không tương ứng với đại lượng vật lý thực. Vì vậy, loại mô hình này không thể dùng cho thiết kế kiến trúc, không thể dùng để huấn luyện robot, không thể dùng cho các nhiệm vụ cần mô phỏng chính xác về mặt vật lý.

Genie 3 của Google, các mô hình chuyển văn bản thành video, và hầu hết tất cả công cụ tạo video AI, đều thuộc danh mục này. Sora tất nhiên cũng nằm trong đó.

Loại thứ hai là "Trình mô phỏng" (Simulator). Mục tiêu cốt lõi của nó không phải là tạo ra hình ảnh cho người xem, mà là tạo ra trạng thái tiếp theo chính xác có thể sử dụng cho các tính toán tiếp theo. Đầu vào là trạng thái môi trường hiện tại và lực tác động bên ngoài (hoặc hành động), đầu ra là trạng thái tiếp theo trung thực với quy luật thế giới thực về mặt vật lý và hình học. Trạng thái đầu ra của trình mô phỏng có thể dùng để phân tích ứng suất, tính toán năng lượng tiêu thụ, phát hiện va chạm, cũng có thể làm đầu vào cho trình kết xuất để tạo ra hình ảnh hóa, nhưng giá trị cốt lõi của nó nằm ở khả năng tính toán của chính trạng thái đó.

NVIDIA Omniverse là đại diện tiêu biểu cho loại hệ thống này. Nó không phải là mô hình AI nguyên bản, mà là một nền tảng song sinh kỹ thuật số kết hợp động cơ vật lý truyền thống và tính toán tăng tốc AI. World Labs đánh giá trong bài viết, trình mô phỏng là cầu nối giữa kết xuất và lập kế hoạch, nhưng sự khan hiếm dữ liệu chú thích vật lý 3D chất lượng cao là nút thắt chính. Theo ước tính của World Labs trong bài viết, dữ liệu dùng để huấn luyện loại mô hình này, ít hơn vài bậc độ lớn so với dữ liệu video có thể thu thập được trên internet.

Loại thứ ba là "Bộ lập kế hoạch" (Planner). Đầu vào của nó là dữ liệu quan sát (hình ảnh camera, point cloud lidar, số liệu cảm biến xúc giác...) và chỉ thị mục tiêu, đầu ra là hành động tiếp theo nên thực hiện. Mô hình VLA (Vision-Language-Action) và World Action Models đều thuộc loại này.

Sự khác biệt giữa ba phân loại lớn không phải là sự phân kỳ nhỏ nhặt về đường hướng công nghệ, mà là sự phân hóa chức năng mang tính căn bản. Trình kết xuất xuất pixel cho người xem, trình mô phỏng xuất trạng thái cho máy tính, bộ lập kế hoạch xuất hành động cho bộ truyền động chạy. Một hệ thống có thể đồng thời có nhiều năng lực, nhưng khi hầu hết các hệ thống được gọi là "Mô hình thế giới" về bản chất chỉ làm công việc kết xuất, thì việc đồng nhất "kết xuất" với "hiểu biết thế giới" là một sự không khớp nhận thức nghiêm trọng.

Một cuộc tranh luận kéo dài hai năm: Rốt cuộc Sora có phải là Mô hình thế giới không

Tháng 2 năm 2024, OpenAI phát hành Sora, tiêu đề báo cáo kỹ thuật trực tiếp ghi "Video Generation Models as World Simulators". Cách dùng từ này ngay lập tức gây ra tranh luận sôi nổi trong giới học thuật và cộng đồng nhà phát triển.

Những người ủng hộ cho rằng, video do Sora tạo ra thể hiện tính nhất quán không gian 3D, tính bền vững của vật thể và sự hiểu biết trực quan nào đó về tương tác vật lý. Một chiếc bánh hamburger bị cắn sẽ để lại vết răng, một con chó chạy trên tuyết sẽ làm bắn tung bông tuyết, những chi tiết này dường như cho thấy mô hình đã học được một số quy luật vật lý.

Lập luận cốt lõi của những người phản đối xuất phát từ định nghĩa kinh điển về mô hình thế giới trong lĩnh vực học tăng cường: một mô hình thế giới phải có khả năng dự đoán chuyển đổi trạng thái dựa trên hành động. Nghĩa là, cho trước trạng thái hiện tại và một đầu vào hành động, mô hình nên xuất ra trạng thái tiếp theo sau hành động đó. Sora không làm được điều này. Người dùng không thể nói với Sora "đẩy chiếc cốc đó từ bên trái", sau đó quan sát liệu cốc có đổ không, đổ về hướng nào, các mảnh vỡ bay đi đâu.

Bình luận của Jim Fan đã nắm bắt chính xác mâu thuẫn này: "Sora về bản chất là một mô hình thế giới, chỉ là nó chỉ cho phép hành động 'no-op' (không thao tác) duy nhất." Câu này có nghĩa là, Sora thực sự đang dự đoán sự thay đổi của môi trường theo thời gian, nhưng quá trình thay đổi này không chịu bất kỳ sự can thiệp bên ngoài nào, chỉ có thể diễn ra dọc theo chuỗi nhân quả vốn có trong dữ liệu video. Nó không thực hiện suy diễn tương tác, mà đang viết tiếp chuỗi quan sát thụ động.

Trên diễn đàn r/MachineLearning của Reddit, không ít nhà nghiên cứu học tăng cường bày tỏ sự chỉ trích gay gắt hơn: Hệ thống không thể dự đoán chuyển đổi trạng thái dựa trên hành động thì không thể gọi là mô hình thế giới, chỉ có thể gọi là mô hình dự đoán video.

Khung phân loại của World Labs đã cung cấp một câu trả lời có tính chất kết luận cho cuộc tranh luận này. Trong vòng lặp POMDP, hành động là đầu vào then chốt thúc đẩy chuyển đổi trạng thái, hệ thống thiếu đầu vào này chỉ là phép chiếu của khâu "sinh quan sát" trong chu trình nhận thức hoàn chỉnh. Sora thuộc về trình kết xuất, không phải mô hình thế giới hoàn chỉnh, càng không phải trình mô phỏng thế giới.

Nhưng điều này không có nghĩa là Sora không có giá trị. Trình kết xuất giải quyết một vấn đề khác: làm thế nào để tạo ra hình ảnh phù hợp với kỳ vọng thị giác của con người. Chính bản thân vấn đề này đã cực kỳ khó khăn và có giá trị thương mại to lớn. Vấn đề nằm ở chỗ, đóng gói khả năng kết xuất thành khả năng "hiểu biết thế giới" sẽ gây hiểu lầm cho các nhà ra quyết định công nghệ và nhà đầu tư, khiến người ta lầm tưởng rằng những mô hình này đã có năng lực suy diễn vật lý hoặc tương tác thể hiện.

Giá trị công nghiệp của việc làm rõ khái niệm

Làm rõ ranh giới định nghĩa của "Mô hình thế giới" không phải là một trò chơi chữ học thuật. Nó trực tiếp ảnh hưởng đến lựa chọn công nghệ, phán đoán đầu tư và nhận thức của công chúng về năng lực AI.

Đối với một doanh nghiệp sản xuất đang đánh giá việc sử dụng một "Mô hình thế giới" nào đó để huấn luyện robot, việc làm rõ mô hình đó thực chất là trình kết xuất, trình mô phỏng hay bộ lập kế hoạch, là điều kiện tiên quyết để tránh thử sai hàng triệu đô la. Một mô hình chỉ có thể tạo ra hình ảnh video, dù hình ảnh trung thực đến đâu, cũng không thể thay thế cho việc tính toán chính xác lực tác động lên vật thể, quỹ đạo chuyển động và hậu quả va chạm.

Đối với các tổ chức đầu tư, phân biệt ba phép chiếu có nghĩa là có thể xác định vị trí của dự án trong chồng công nghệ một cách chính xác hơn. Một công ty khởi nghiệp tự xưng là "Mô hình thế giới", nếu sản phẩm về bản chất là một trình kết xuất, đối thủ cạnh tranh của nó là các công ty tạo video, chứ không phải nền tảng song sinh kỹ thuật số hay mô hình điều khiển robot. Điều này trực tiếp quyết định cách ước tính quy mô thị trường và lựa chọn công ty đối chiếu.

Đối với giới học thuật, phân loại rõ ràng là tiền đề để thiết lập các benchmark có thể so sánh. Nếu thuật ngữ "Mô hình thế giới" tiếp tục bị tổng quát hóa, các nhà nghiên cứu sẽ khó định nghĩa điều gì được tính là cải tiến, điều gì được tính là đột phá, đánh giá ngang hàng sẽ được xây dựng trên cơ sở đa nghĩa.

World Labs trong bài viết cũng chỉ ra, làm rõ khái niệm không phải để tạo ra sự đối lập. Hướng phát triển trong tương lai sẽ là sự hòa hợp của ba phép chiếu. Một mô hình thực sự hiểu thuộc tính vật lý của chiếc cốc, nên có thể đồng thời kết xuất hình dáng thị giác của nó, mô phỏng quá trình vật lý khi nó bị đẩy đổ, và lập kế hoạch cách tay máy nắm chắc nó một cách ổn định. Nhưng trước khi công nghệ phát triển đến bước đó, nhận thức rõ ranh giới của mỗi bên có ý nghĩa thực tế hơn là mơ tưởng về sự hòa hợp.

Theo ước tính của World Labs trong bài viết, trình mô phỏng và công nghệ song sinh kỹ thuật số điển hình như NVIDIA Omniverse, đang nhắm đến thị trường tiềm năng trị giá trên nghìn tỷ đô la trong các lĩnh vực như nhà máy, kho bãi, chuỗi cung ứng. Con số này xuất phát từ đánh giá của chính nhà sản xuất, còn thị trường khi nào mới thực sự đạt đến quy mô này, phụ thuộc vào việc trình mô phỏng có thể đột phá nút thắt khan hiếm dữ liệu vật lý 3D chất lượng cao hay không.

Đối với ngành AI ở giai đoạn hiện tại, có lẽ nhận thức quan trọng nhất rất đơn giản: Có thể tạo video trung thực, không bằng hiểu biết thế giới vật lý; Được gọi là mô hình thế giới, không bằng thực sự đang mô phỏng thế giới. Xuyên thấu ngôn ngữ tiếp thị, xem xét một hệ thống trong vòng lặp POMDP thực sự tiếp nhận đầu vào gì, xuất ra kết quả gì, thiếu khâu nào, là cách phán đoán trung thực nhất về ranh giới năng lực công nghệ.

Câu hỏi Liên quan

QNhóm nghiên cứu của Giáo sư Lý Phi Phi và World Labs đã phân loại các hệ thống được gọi là "mô hình thế giới" hiện nay thành mấy loại chức năng? Mỗi loại đó là gì?

AHọ phân loại thành ba loại chức năng chính dựa trên chu trình nhận thức trong khung lý thuyết POMDP (Quá trình quyết định Markov có thể quan sát một phần). Đó là: 1) Bộ kết xuất (Renderer) - tạo ra đầu ra pixel chân thực cho con người xem. 2) Bộ mô phỏng (Simulator) - tạo ra trạng thái môi trường tiếp theo chính xác về mặt vật lý và hình học để máy tính xử lý. 3) Bộ lập kế hoạch (Planner) - tạo ra hành động tiếp theo dựa trên quan sát và mục tiêu để cơ cấu chấp hành thực hiện.

QTheo phân loại của bài viết, mô hình tạo video Sora của OpenAI thuộc loại nào? Tại sao nó không được coi là một "mô hình thế giới" hoàn chỉnh hay một "bộ mô phỏng thế giới"?

ATheo phân loại của bài viết, Sora thuộc loại **Bộ kết xuất (Renderer)**. Nó không được coi là một mô hình thế giới hoàn chỉnh vì nó chỉ thực hiện một phần của chu trình nhận thức: tạo ra các quan sát (video) từ một trạng thái nhất định. Nó thiếu khả năng cốt lõi của một mô hình thế giới theo định nghĩa kinh điển trong học tăng cường: **dự đoán sự chuyển đổi trạng thái dựa trên hành động đầu vào**. Người dùng không thể đưa ra một hành động cụ thể (như "đẩy cốc sang trái") để Sora mô phỏng chính xác kết quả vật lý tiếp theo. Nó chỉ có thể tiếp tục chuỗi quan sát thụ động từ dữ liệu đã học.

QSự khác biệt cơ bản về chức năng đầu ra giữa Bộ kết xuất (Renderer), Bộ mô phỏng (Simulator) và Bộ lập kế hoạch (Planner) là gì?

ASự khác biệt cơ bản về chức năng đầu ra của ba loại này là: 1) **Bộ kết xuất (Renderer)**: Đầu ra là **pixel/hình ảnh** (ví dụ: video, hình ảnh 3D) được tối ưu cho nhận thức thị giác của con người, nhấn mạnh độ chân thực hình ảnh hơn là độ chính xác vật lý. 2) **Bộ mô phỏng (Simulator)**: Đầu ra là **trạng thái** (ví dụ: vị trí 3D, vận tốc, hướng, ứng suất) chính xác về mặt vật lý và hình học, có thể dùng để tính toán tiếp (phân tích, dự đoán). 3) **Bộ lập kế hoạch (Planner)**: Đầu ra là **hành động** (ví dụ: lệnh điều khiển cho cánh tay robot, góc lái cho xe) dựa trên quan sát và mục tiêu để hệ thống thực thi.

QViệc làm rõ khái niệm "mô hình thế giới" có giá trị thực tiễn như thế nào đối với ngành công nghiệp AI theo bài viết?

AViệc làm rõ khái niệm "mô hình thế giới" có giá trị thực tiễn lớn trong nhiều khía cạnh: 1) **Lựa chọn công nghệ**: Giúp các doanh nghiệp (như nhà sản xuất robot) tránh sai lầm tốn kém khi chọn nhầm một bộ kết xuất (chỉ tạo video) cho các nhiệm vụ cần mô phỏng vật lý chính xác. 2) **Đánh giá đầu tư**: Giúp các nhà đầu tư xác định chính xác vị trí công nghệ, thị trường cạnh tranh và tiềm năng thực sự của một startup tự xưng là "mô hình thế giới". 3) **Định hướng nghiên cứu**: Tạo nền tảng chung để xây dựng các tiêu chuẩn đánh giá và so sánh hiệu quả giữa các nghiên cứu. 4) **Nhận thức công chúng**: Điều chỉnh kỳ vọng, tránh hiểu lầm rằng khả năng tạo video chân thực đồng nghĩa với việc hiểu và mô phỏng được thế giới vật lý.

QBài viết đề cập đến thách thức chính nào đối với sự phát triển của Bộ mô phỏng (Simulator) và công nghệ song sinh kỹ thuật số?

AThách thức chính được bài viết đề cập đối với sự phát triển của Bộ mô phỏng (Simulator) và công nghệ song sinh kỹ thuật số là **sự khan hiếm của dữ liệu vật lý 3D chất lượng cao**. Loại dữ liệu cần thiết để huấn luyện các mô hình này (dữ liệu được chú thích chính xác về các thuộc tính vật lý, hình học, tương tác) ít hơn nhiều cấp số so với lượng dữ liệu video có sẵn trên internet. Sự thiếu hụt này tạo thành một nút thắt quan trọng, ảnh hưởng đến tốc độ phát triển và khả năng mở rộng quy mô thị trường tiềm năng hàng nghìn tỷ USD của lĩnh vực này.

Nội dung Liên quan

Startup Web3 tại Trung Quốc: Những hướng đi tốt nào? (Phần 5)

Trong loạt bài về cơ hội khởi nghiệp Web3 tại Trung Quốc, phần này tập trung vào việc các nhóm bảo mật/kiểm soát rủi ro và các nhóm ứng dụng/cộng đồng có thể chuyển dịch năng lực sang lĩnh vực AI. **Nhóm bảo mật & kiểm soát rủi ro:** Từ bảo mật trên chuỗi sang kiểm toán hành vi AI Agent. Khi AI Agent phát triển, rủi ro an ninh mở rộng từ tài sản sang hành vi tự động như quyền truy cập, gọi công cụ và thanh toán. Các đội ngũ với kinh nghiệm giám sát chuỗi, kiểm toán có thể chuyển sang cung cấp dịch vụ kiểm tra nhật ký hoạt động Agent, kiểm soát quyền hạn, giám sát truy cập dữ liệu và quản trị an ninh AI cho doanh nghiệp, đặc biệt trong các ngành nhạy cảm như tài chính, y tế. **Nhóm ứng dụng & cộng đồng:** Từ sản phẩm Web3 sang sản phẩm được tăng cường bởi AI. Thay vì chuyển đổi hoàn toàn, các nhóm này nên tích hợp AI vào quy trình sản phẩm và vận hành hiện có để giải quyết vấn đề thực tế. Ví dụ: * Công cụ nghiên cứu đầu tư: Dùng AI để lọc thông tin, tóm tắt tài liệu, giải thích dữ liệu on-chain. * Nền tảng nội dung/cộng đồng: Dùng AI để phân loại câu hỏi, gắn nhãn người dùng, tạo đường dẫn học tập cá nhân hóa. * Công cụ giao dịch/vận hành: Dùng AI để phân tích, nhắc nhở rủi ro, hỗ trợ chiến lược. Chìa khóa là AI phải cải thiện được trải nghiệm người dùng hoặc hiệu quả vận hành, không chỉ là thêm một chatbot. **Các hướng đi nên thận trọng:** 1. Mô hình ngôn ngữ lớn (LLM) phổ thông: Đòi hỏi nguồn lực khổng lồ, cạnh tranh khốc liệt. 2. Nền tảng AI Agent chung chung: Khó tìm nhu cầu thanh toán cụ thể, dễ dừng ở bản demo. 3. Giao dịch AI tự động, tư vấn đầu tư AI: Dễ chạm vào vấn đề quản lý tiền của người dùng, hứa hẹn lợi nhuận và ranh giới pháp lý nhạy cảm. 4. Chỉ "khoác áo" AI cho dự án cũ: Nếu không giải quyết nhu cầu thực hay cải thiện giá trị cốt lõi, sẽ không bền vững. **Tóm lại:** Đối với các nhà khởi nghiệp Web3 Trung Quốc, việc chuyển sang AI không phải là mục tiêu chính. Điều quan trọng là xem xét năng lực hiện có (dữ liệu, danh tính, thanh toán, bảo mật, vận hành) có thể được áp dụng vào các kịch bản AI thực tế nào, với người trả tiền rõ ràng và ranh giới pháp lý tương đối minh bạch. AI là cơ hội để mở rộng năng lực cốt lõi, không phải để thay thế một nền tảng thiếu nhu cầu thực sự.

marsbit23 phút trước

Startup Web3 tại Trung Quốc: Những hướng đi tốt nào? (Phần 5)

marsbit23 phút trước

Sự Quan Tâm Tăng Cao Đối Với Little Pepe (LILPEPE) Đẩy Nhanh Đợt Bán Trước Với Hơn 28 Triệu USD Tài Trợ

Dự án tiền điện tử Little Pepe (LILPEPE) đang thu hút sự chú ý đáng kể với đợt mở bán trước (presale) cực kỳ thành công. Tính đến nay, dự án đã huy động được hơn 28 triệu USD, với Giai đoạn 13 đã bán được 98.46%. Đây được coi là một trong những đợt presale meme coin nhanh nhất năm 2025. LILPEPE nổi bật nhờ chiến lược phát hành với vốn hóa thị trường bằng 0, được xây dựng trên mạng Lớp 2 tương thích Ethereum và có cơ sở hạ tầng rõ ràng. Dự án áp dụng mô hình không thuế giao dịch, tích hợp cơ chế staking, bảo vệ chống bot sniper và hướng tới quản trị cộng đồng DAO. Dự án đã được kiểm toán bởi CertiK. Cộng đồng của LILPEPE rất sôi động, thể hiện qua các chương trình giveaway với tổng giải thưởng lớn, thu hút hàng trăm nghìn lượt tham gia. Sức hút của dự án còn được phản ánh qua lượng tìm kiếm trực tuyến vượt trội so với các meme coin khác như PEPE, DOGE hay SHIB. Giá token tại Giai đoạn 13 là 0.0022 USD và sẽ được niêm yết ở mức 0.0030 USD, mang lại cơ hội tăng giá cho các nhà đầu tư. Đợt presale có tổng cộng 19 giai đoạn và đang tiến gần đến lúc kết thúc.

TheNewsCrypto36 phút trước

Sự Quan Tâm Tăng Cao Đối Với Little Pepe (LILPEPE) Đẩy Nhanh Đợt Bán Trước Với Hơn 28 Triệu USD Tài Trợ

TheNewsCrypto36 phút trước

Thượng Viện Anh Kêu Gọi BoE Nới Lỏng Quy Định Stablecoin Vì Lo Ngại Về Năng Lực Cạnh Tranh

Thượng viện Vương quốc Anh (House of Lords) đã kêu gọi Ngân hàng Trung ương Anh (BoE) và các cơ quan quản lý xem xét lại một số đề xuất quy định gây tranh cãi đối với stablecoin, cảnh báo rằng các quy tắc cứng nhắc có thể khiến Anh tụt hậu trong cuộc cạnh tranh toàn cầu. Ủy ban Quy định Dịch vụ Tài chính của Thượng viện, trong một báo cáo công bố hôm thứ Tư, ủng hộ nhiều đề xuất cốt lõi của BoE như yêu cầu stablecoin phải được đảm bảo 1:1 bằng tài sản dự trữ. Tuy nhiên, họ chỉ ra rằng một số khía cạnh cần được cân nhắc thêm. Cụ thể, ủy ban đề nghị đánh giá lại đề xuất yêu cầu các nhà phát hành stablecoin hệ thống phải giữ ít nhất 40% dự trữ dưới dạng tiền gửi ngân hàng không hưởng lãi. Họ cho rằng điều này tạo gánh nặng vận hành và có thể làm suy yếu khả năng cạnh tranh của thị trường Anh. Ngoài ra, các giới hạn sở hữu được đề xuất (10.000-20.000 bảng cho cá nhân, 10 triệu bảng cho doanh nghiệp) cũng bị cho là có thể cản trở không cần thiết sự phát triển của stablecoin dựa trên đồng bảng và khó thực thi. Báo cáo nhấn mạnh rằng khung quy định cuối cùng phải linh hoạt, minh bạch và tạo sân chơi bình đẳng để stablecoin cạnh tranh với các phương thức thanh toán khác. Nếu không, Vương quốc Anh có nguy cơ "tụt lại phía sau" so với các quốc gia khác, nơi có khung pháp lý rõ ràng hơn. Lời kêu gọi này diễn ra sau khi Phó Thống đốc BoE phụ trách ổn định tài chính, Sarah Breeden, thừa nhận các đề xuất trước đó có thể đã "quá thận trọng" và ngân hàng sẵn sàng xem xét lại các quy tắc. BoE dự kiến sẽ công bố chính sách cuối cùng và dự thảo quy tắc vào cuối tháng này.

bitcoinist1 giờ trước

Thượng Viện Anh Kêu Gọi BoE Nới Lỏng Quy Định Stablecoin Vì Lo Ngại Về Năng Lực Cạnh Tranh

bitcoinist1 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

AGENT S là gì

Agent S: Tương Lai của Tương Tác Tự Động trong Web3 Giới thiệu Trong bối cảnh không ngừng phát triển của Web3 và tiền điện tử, các đổi mới đang liên tục định nghĩa lại cách mà cá nhân tương tác với các nền tảng kỹ thuật số. Một dự án tiên phong như vậy, Agent S, hứa hẹn sẽ cách mạng hóa tương tác giữa con người và máy tính thông qua khung tác nhân mở của nó. Bằng cách mở đường cho các tương tác tự động, Agent S nhằm đơn giản hóa các nhiệm vụ phức tạp, cung cấp các ứng dụng chuyển đổi trong trí tuệ nhân tạo (AI). Cuộc khám phá chi tiết này sẽ đi sâu vào những phức tạp của dự án, các tính năng độc đáo của nó và những tác động đối với lĩnh vực tiền điện tử. Agent S là gì? Agent S đứng vững như một khung tác nhân mở đột phá, được thiết kế đặc biệt để giải quyết ba thách thức cơ bản trong việc tự động hóa các nhiệm vụ máy tính: Thu thập Kiến thức Cụ thể theo Miền: Khung này học một cách thông minh từ nhiều nguồn kiến thức bên ngoài và kinh nghiệm nội bộ. Cách tiếp cận kép này giúp nó xây dựng một kho lưu trữ phong phú về kiến thức cụ thể theo miền, nâng cao hiệu suất của nó trong việc thực hiện nhiệm vụ. Lập Kế Hoạch Qua Các Tầm Nhìn Nhiệm Vụ Dài Hạn: Agent S sử dụng lập kế hoạch phân cấp tăng cường kinh nghiệm, một cách tiếp cận chiến lược giúp phân chia và thực hiện các nhiệm vụ phức tạp một cách hiệu quả. Tính năng này nâng cao đáng kể khả năng quản lý nhiều nhiệm vụ con một cách hiệu quả và hiệu suất. Xử Lý Các Giao Diện Động, Không Đều: Dự án giới thiệu Giao Diện Tác Nhân-Máy Tính (ACI), một giải pháp đổi mới giúp nâng cao tương tác giữa các tác nhân và người dùng. Sử dụng các Mô Hình Ngôn Ngữ Lớn Đa Phương Thức (MLLMs), Agent S có thể điều hướng và thao tác các giao diện người dùng đồ họa đa dạng một cách liền mạch. Thông qua những tính năng tiên phong này, Agent S cung cấp một khung vững chắc giải quyết các phức tạp liên quan đến việc tự động hóa tương tác giữa con người với máy móc, mở ra nhiều ứng dụng trong AI và hơn thế nữa. Ai là Người Tạo ra Agent S? Mặc dù khái niệm về Agent S là hoàn toàn đổi mới, thông tin cụ thể về người sáng lập vẫn còn mơ hồ. Người sáng lập hiện vẫn chưa được biết đến, điều này làm nổi bật giai đoạn sơ khai của dự án hoặc sự lựa chọn chiến lược để giữ kín các thành viên sáng lập. Bất chấp sự ẩn danh, sự chú ý vẫn tập trung vào khả năng và tiềm năng của khung này. Ai là Các Nhà Đầu Tư của Agent S? Vì Agent S còn tương đối mới trong hệ sinh thái mã hóa, thông tin chi tiết về các nhà đầu tư và những người tài trợ tài chính của nó không được ghi chép rõ ràng. Sự thiếu vắng thông tin công khai về các nền tảng đầu tư hoặc tổ chức hỗ trợ dự án dấy lên câu hỏi về cấu trúc tài trợ và lộ trình phát triển của nó. Hiểu biết về sự hỗ trợ là rất quan trọng để đánh giá tính bền vững và tác động tiềm năng của dự án. Agent S Hoạt Động Như Thế Nào? Tại cốt lõi của Agent S là công nghệ tiên tiến cho phép nó hoạt động hiệu quả trong nhiều bối cảnh khác nhau. Mô hình hoạt động của nó được xây dựng xung quanh một số tính năng chính: Tương Tác Giống Như Con Người: Khung này cung cấp lập kế hoạch AI tiên tiến, cố gắng làm cho các tương tác với máy tính trở nên trực quan hơn. Bằng cách bắt chước hành vi của con người trong việc thực hiện nhiệm vụ, nó hứa hẹn nâng cao trải nghiệm người dùng. Ký Ức Tường Thuật: Được sử dụng để tận dụng các trải nghiệm cấp cao, Agent S sử dụng ký ức tường thuật để theo dõi lịch sử nhiệm vụ, từ đó nâng cao quy trình ra quyết định của nó. Ký Ức Tình Huống: Tính năng này cung cấp cho người dùng hướng dẫn từng bước, cho phép khung này cung cấp hỗ trợ theo ngữ cảnh khi các nhiệm vụ diễn ra. Hỗ Trợ OpenACI: Với khả năng chạy cục bộ, Agent S cho phép người dùng duy trì quyền kiểm soát đối với các tương tác và quy trình làm việc của họ, phù hợp với tinh thần phi tập trung của Web3. Tích Hợp Dễ Dàng với Các API Bên Ngoài: Tính linh hoạt và khả năng tương thích với nhiều nền tảng AI khác nhau đảm bảo rằng Agent S có thể hòa nhập liền mạch vào các hệ sinh thái công nghệ hiện có, làm cho nó trở thành lựa chọn hấp dẫn cho các nhà phát triển và tổ chức. Những chức năng này cùng nhau góp phần vào vị trí độc đáo của Agent S trong không gian tiền điện tử, khi nó tự động hóa các nhiệm vụ phức tạp, nhiều bước với sự can thiệp tối thiểu của con người. Khi dự án phát triển, các ứng dụng tiềm năng của nó trong Web3 có thể định nghĩa lại cách mà các tương tác kỹ thuật số diễn ra. Thời Gian Phát Triển của Agent S Sự phát triển và các cột mốc của Agent S có thể được tóm tắt trong một dòng thời gian nêu bật các sự kiện quan trọng của nó: 27 tháng 9, 2024: Khái niệm về Agent S được ra mắt trong một bài nghiên cứu toàn diện mang tên “Một Khung Tác Nhân Mở Sử Dụng Máy Tính Như Một Con Người,” trình bày nền tảng cho dự án. 10 tháng 10, 2024: Bài nghiên cứu được công bố công khai trên arXiv, cung cấp một cái nhìn sâu sắc về khung và đánh giá hiệu suất của nó dựa trên tiêu chuẩn OSWorld. 12 tháng 10, 2024: Một video trình bày được phát hành, cung cấp cái nhìn trực quan về khả năng và tính năng của Agent S, thu hút thêm sự quan tâm từ người dùng và nhà đầu tư tiềm năng. Những dấu mốc trong dòng thời gian không chỉ minh họa sự tiến bộ của Agent S mà còn chỉ ra cam kết của nó đối với sự minh bạch và sự tham gia của cộng đồng. Những Điểm Chính Về Agent S Khi khung Agent S tiếp tục phát triển, một số thuộc tính chính nổi bật, nhấn mạnh tính đổi mới và tiềm năng của nó: Khung Đổi Mới: Được thiết kế để cung cấp cách sử dụng máy tính trực quan giống như tương tác của con người, Agent S mang đến một cách tiếp cận mới cho việc tự động hóa nhiệm vụ. Tương Tác Tự Động: Khả năng tương tác tự động với máy tính thông qua GUI đánh dấu một bước tiến tới các giải pháp tính toán thông minh và hiệu quả hơn. Tự Động Hóa Nhiệm Vụ Phức Tạp: Với phương pháp mạnh mẽ của nó, nó có thể tự động hóa các nhiệm vụ phức tạp, nhiều bước, làm cho các quy trình nhanh hơn và ít sai sót hơn. Cải Tiến Liên Tục: Các cơ chế học tập cho phép Agent S cải thiện từ các trải nghiệm trước đó, liên tục nâng cao hiệu suất và hiệu quả của nó. Tính Linh Hoạt: Khả năng thích ứng của nó trên các môi trường hoạt động khác nhau như OSWorld và WindowsAgentArena đảm bảo rằng nó có thể phục vụ một loạt các ứng dụng rộng rãi. Khi Agent S định vị mình trong bối cảnh Web3 và tiền điện tử, tiềm năng của nó để nâng cao khả năng tương tác và tự động hóa quy trình đánh dấu một bước tiến quan trọng trong công nghệ AI. Thông qua khung đổi mới của mình, Agent S minh họa cho tương lai của các tương tác kỹ thuật số, hứa hẹn một trải nghiệm liền mạch và hiệu quả hơn cho người dùng trên nhiều ngành công nghiệp khác nhau. Kết luận Agent S đại diện cho một bước nhảy vọt táo bạo trong sự kết hợp giữa AI và Web3, với khả năng định nghĩa lại cách chúng ta tương tác với công nghệ. Mặc dù vẫn còn ở giai đoạn đầu, những khả năng cho ứng dụng của nó là rộng lớn và hấp dẫn. Thông qua khung toàn diện của mình giải quyết các thách thức quan trọng, Agent S nhằm đưa các tương tác tự động lên hàng đầu trong trải nghiệm kỹ thuật số. Khi chúng ta tiến sâu hơn vào các lĩnh vực tiền điện tử và phi tập trung, các dự án như Agent S chắc chắn sẽ đóng một vai trò quan trọng trong việc định hình tương lai của công nghệ và sự hợp tác giữa con người với máy tính.

Tổng lượt xem 847Xuất bản vào 2025.01.14Cập nhật vào 2025.01.14

AGENT S là gì

Làm thế nào để Mua S

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Sonic (S) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Sonic (S) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Sonic (S) của BạnSau khi mua Sonic (S), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Sonic (S)Giao dịch Sonic (S) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 1.5kXuất bản vào 2025.01.15Cập nhật vào 2026.06.02

Làm thế nào để Mua S

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của S (S) được trình bày dưới đây.

活动图片