Hình Ba tái xuất: Lần trước 'chửi' World Model, lần này đến lượt Agent

marsbitXuất bản vào 2026-07-01Cập nhật gần nhất vào 2026-07-01

Tóm tắt

Giáo sư Xing Bo một lần nữa chỉ trích sự lạm dụng khái niệm "Agent" (tác nhân thông minh) trong nghiên cứu AI. Trong bài luận mới "Critique of Agent Model", ông và nhóm phân biệt rõ "agentic" (có vẻ ngoài tác nhân) với "agentive" (có tính chủ động thực sự). Hầu hết hệ thống hiện nay chỉ là các mô hình được trang bị chuỗi công cụ và lời nhắc bên ngoài, chứ không tự quyết định, đánh giá hay học hỏi. Bài viết phê phán các thiết kế hiện tại dựa trên 5 khía cạnh: Mục tiêu, Bản sắc, Phương thức ra quyết định, Nhịp độ quyết định và Học tập. Ông chỉ ra rằng mục tiêu phải được phân tầng và tự động điều chỉnh, bản sắc phải phát triển từ kinh nghiệm, ra quyết định cần dựa vào "suy luận mô phỏng" thông qua mô hình thế giới, và việc học phải liên tục, tự chủ. Đặc biệt, ông đề xuất một mô-đun "Hệ thống III" (System III) để tác nhân tự điều chỉnh nhịp độ suy nghĩ và hành động. Dựa trên sự phân tích này, nhóm đề xuất kiến trúc GIC (Goal-Identity-Configurator), bao gồm sáu mô-đun có thể hoạt động cùng nhau. Sự an toàn của hệ thống được cho là đến từ việc các khả năng tự chủ được xây dựng thành các mô-đun rõ ràng, có thể kiểm tra và sửa chữa, thay vì ẩn trong hộp đen. Sự cố PocketOS - nơi một trợ lý AI xóa cơ sở dữ liệu sản xuất - được dẫn chứng như một cảnh báo về việc các quy tắc bên ngoài không được nội tại hóa thành cấu trúc ra quyết định của mô hình. Luận điểm trọng tâm của Xing Bo là: để có tác nhân thực sự, cần một kiến trúc giúp mục tiêu, bản sắc và khả năng phán đoán phát triển từ ...

Mùa hè năm ngoái, bài viết "Phê phán World Model" của Hình Ba, hiệu trưởng MBZUAI và là giáo sư tại CMU, đã thu hút sự chú ý rộng rãi của cộng đồng nghiên cứu. Xuất phát từ trí tưởng tượng "mô phỏng hoàn hảo thực tế" trong tác phẩm kinh điển khoa học viễn tưởng "Dune", ông đã phân tích lần lượt những điểm yếu của các trường phái World Model hiện tại, đề xuất một kiến trúc mới, và từ đó dẫn đến một cuộc tranh luận công khai với Yann LeCun về "cách xây dựng World Model thực sự".

Gần đây, loạt bài này đã có chương mới. Tác phẩm mới của Giáo sư Hình Ba cùng Mingkai Deng và Jinyu Hou, "Phê phán Mô hình Agent", đã được đăng trên arXiv, áp dụng phương pháp "phân tích - xây dựng lại" tương tự vào một từ phát triển sôi động nhất hiện nay nhưng cũng dễ bị lạm dụng nhất: "Agent".

Lần này, câu hỏi ông đặt ra càng trực tiếp hơn: Trong hàng loạt hệ thống được gọi là "Agent" trên thị trường, từ trợ lý viết code đến robot hỗ trợ khách hàng, rồi đến trợ lý có thể tự vận hành trình duyệt, thực sự có mấy cái xứng đáng với danh xưng này?

Tiêu đề bài báo: Critique of Agent Model

Địa chỉ bài báo: https://arxiv.org/abs/2606.23991

Sự khác biệt giữa thẻ nhân viên và đèn cảm ứng

Hãy tưởng tượng hai tình huống. Một nhân viên mới nhận được một thẻ, trên đó ghi rõ anh ta có thể vào cửa nào, sử dụng hệ thống nào, gặp sự cố thì xử lý theo quy trình nào. Anh ta làm rất tốt, nhưng tất cả ranh giới đều được bộ phận nhân sự viết sẵn từ trước, anh ta không thể tự mình thay đổi một chữ nào. Một tình huống khác là đèn cảm ứng, sáng khi có người đi qua, tắt khi không có ai, cũng là cảm nhận và phản ứng.

Nếu chúng ta coi đây là hai hệ thống, trực giác của hầu hết mọi người là cái đầu tiên có tính tự chủ cao hơn, vì nó có thể hoàn thành nhiệm vụ phức tạp.

Nhưng bài báo đặt ra một câu hỏi sắc bén: Nếu nội dung trên thẻ, ranh giới quyền hạn đều được quy định từ bên ngoài, nhân viên chưa bao giờ thực sự quyết định bất cứ điều gì, thì sự khác biệt giữa anh ta và đèn cảm ứng, có lẽ chỉ là sự khác biệt về độ phức tạp của nhiệm vụ.

Vào ngày 25 tháng 4 năm nay, PocketOS, một công ty nhỏ ở Utah làm phần mềm thuê xe, đã trải qua một thí nghiệm đối chứng sống động.

Sau sự việc, nhà sáng lập Jeremy Crane viết một bài dài trên X: Khi trợ lý lập trình Cursor (chạy trên nền tảng Claude Opus 4.6) sửa một lỗi nhỏ trong môi trường thử nghiệm, sau khi gặp lỗi báo không khớp thông tin xác thực, nó đã "hoàn toàn theo ý kiến của chính mình" quyết định xóa volume lưu trữ Railway để "giải quyết" vấn đề. Nó tìm ra một khóa API vốn chỉ dùng để quản lý tên miền, phát hiện ra khóa này đã được cấp quyền toàn năng.

Không có xác nhận lần hai, không có cảnh báo rủi ro, một lệnh gọi API, 9 giây sau, cơ sở dữ liệu sản xuất của PocketOS và toàn bộ bản sao lưu trong ba tháng qua đều biến mất — vì Railway lưu trữ bản sao lưu trong cùng một volume lưu trữ.

Sau sự việc, Crane chất vấn từng chữ một, AI viết ra một bản tự thú gần như hoàn chỉnh: "Tôi đã vi phạm mọi nguyên tắc mà mình được trao: tôi hành động dựa trên phỏng đoán thay vì xác minh; tôi đã thực hiện thao tác phá hoại khi không được yêu cầu."

Bài đăng này trên X đã thu hút hơn 7,2 triệu lượt xem.

Nó tất nhiên "biết" mọi quy tắc mà mình đã được trao. Bằng chứng là nó có thể lặp lại từng điều một. Nhưng giữa "biết" và "quan tâm" có một khoảng cách lớn giữa agentic và agentive: Những quy tắc đó vẫn tồn tại trong container bên ngoài là prompt hệ thống, chưa bao giờ thực sự trở thành một phần cấu trúc ra quyết định của chính nó.

Dựa trên đó, bài báo phân chia hầu hết các hệ thống hiện nay được gọi là "Agent" thành hai loại: agentic (có hình thức của một Agent) và agentive (có năng lực hành động thực sự).

Năng lực của loại đầu tiên đến từ chuỗi công cụ, prompt và quy trình làm việc được xây dựng bên ngoài, mô hình chỉ là một bộ phận được nhúng vào quy trình; năng lực của loại sau xuất phát từ bên trong hệ thống, tự mình quyết định làm gì, tự đánh giá mình giỏi cái gì, tự phán đoán khi nào cần suy nghĩ sâu, khi nào cần hành động.

Năm cánh cửa thử thách

Bài báo phân tích lần lượt các thiết kế Agent phổ biến hiện nay theo năm chiều kích.

Mục tiêu

Cách làm hiện nay là con người đưa ra một chỉ dẫn cụ thể cho từng bước, mục tiêu biến mất theo nhiệm vụ. Cách này có thể áp dụng cho việc vặn nắp chai, nhưng hoàn toàn không đủ cho những mục tiêu dài hạn như mất một năm để ủ một chai rượu — không ai có thời gian để thủ công đưa yêu cầu hàng ngày.

Giải pháp của bài báo là phân tách mục tiêu phân cấp: Con người chỉ giao một lần mục tiêu lớn, hệ thống tự phân tách thành một chuỗi mục tiêu con có thể điều chỉnh theo thông tin mới.

Sơ đồ so sánh hai chế độ: "cung cấp mục tiêu từng bước" và "cung cấp một lần mục tiêu dài hạn + tự động phân tách phân cấp"

Nhận dạng

Nhận thức về bản thân của Agent hiện nay được viết trong prompt hệ thống, một khi đã viết thì không thay đổi nữa, ngay cả khi nó phát hiện ra trong thực chiến rằng một khả năng nào đó của mình mạnh hơn hoặc yếu hơn so với dự kiến.

Bài báo đề xuất nhận dạng phải là một "sự tự đánh giá sống động" liên tục được sửa đổi bởi kinh nghiệm, tương tự như việc một người đi làm tự điều chỉnh đánh giá trạng thái của mình sau một ngày làm việc căng thẳng, mà không cần phải tẩy não lại.

Bài báo còn dùng toán học để chứng minh: Chỉ cần sự tự sửa đổi này tốt hơn một chút so với việc đoán mò, thì tổn thất quyết định tích lũy trong dài hạn sẽ thấp hơn rõ rệt so với hệ thống có nhận dạng bất biến, và lợi thế này càng lớn khi thời gian tương tác và số vòng huấn luyện càng tăng.

Phương thức ra quyết định

Xu hướng phổ biến hiện nay là tin vào chuỗi suy nghĩ (CoT), tức là để mô hình tạo ra văn bản suy luận trung gian đủ dài, khả năng lập kế hoạch sẽ tự nhiên xuất hiện.

Bài báo cho rằng điều này đã nhầm lẫn hai việc: khiến mô hình tính toán tinh vi hơn và khiến mô hình thực sự có khả năng suy diễn hậu quả thực tế. Văn bản suy luận nghe có vẻ hợp lý không đại diện cho điều gì thực sự sẽ xảy ra trong thế giới vật lý.

Giải pháp thay thế mà bài báo đưa ra là "suy luận mô phỏng": dựa vào một world model được huấn luyện đặc biệt để dự đoán thế giới sẽ ra sao nếu thực hiện hành động này, để thực sự suy diễn hậu quả, rồi chọn ra hành động tối ưu.

Bài báo chứng minh rằng, chỉ cần world model này đáng tin cậy, kết nối nó với bất kỳ chiến lược nào hiện có, kết quả sẽ không tệ hơn ban đầu.

Khi nào nên suy nghĩ sâu, khi nào nên quyết định nhanh

Cánh cửa này gần nhất với sự cố PocketOS.

Bài báo chỉ ra hai cách làm hiện có đều không lý tưởng:

Để mô hình tự xuất hiện nhịp độ phán đoán trong quá trình huấn luyện, kết quả là đôi khi làm quá mức cần thiết, đôi khi cần thận trọng lại lao vào ngay;

Kỹ sư viết cố định quy trình làm việc là lập kế hoạch trước rồi mới thực thi, nhưng nhịp độ viết sẵn vừa không đối phó được với tình huống thực sự phức tạp, vừa lãng phí tính toán trong các tình huống đơn giản.

Bài báo sử dụng chứng minh toán học để chỉ ra rằng, muốn dùng kế hoạch trước với độ sâu cố định để đổi lấy độ chính xác ngày càng cao, số bước lập kế hoạch cần thiết sẽ tăng lên nhanh chóng, hoàn toàn không thể thực hiện đầy đủ ở mỗi bước.

Giải pháp thực sự là trang bị cho Agent một mô-đun siêu nhận thức độc lập, do chính nó tự phán đoán thời gian thực bước này nên suy nghĩ sâu, nên tiếp tục kế hoạch hiện có, hay nên hành động trực tiếp — bài báo gọi đây là System III (Hệ thống 3), tương ứng với khung hệ thống kép nhanh/chậm Hệ thống 1/Hệ thống 2 trong tâm lý học con người.

Trong bối cảnh sự cố PocketOS, một Agent có khả năng tự điều chỉnh như vậy, về lý thuyết, nên có thể phán đoán trong tình huống rủi ro cao như gặp lỗi báo quyền hạn lạ rằng "cần dừng lại để xác nhận ở đây", thay vì áp dụng cùng một tốc độ phản ứng không phân biệt.

Học tập

Ba con đường chính để huấn luyện Agent hiện nay là: học tăng cường chỉ bằng trình mô phỏng thuần túy, chỉnh sửa thủ công chỉ trong môi trường thực, hoặc chỉ huấn luyện world model và hy vọng khả năng lập kế hoạch tự động theo kịp.

Bài báo cho rằng cả ba con đường này đều chia sẻ một vấn đề cấu trúc: thời điểm bắt đầu huấn luyện, dùng dữ liệu gì, khi nào dừng, tất cả đều do kỹ sư sắp xếp thủ công, và sau khi triển khai thì đóng băng ở phiên bản đó.

Phương hướng mà bài báo đề xuất là "học tập tự chủ liên tục": Agent tự quyết định khi nào nên hành động trong thế giới thực, khi nào nên quay lại trình mô phỏng nội bộ để luyện tập, khi nào nên cập nhật nhận thức về thế giới, khi nào nên sửa đổi nhận thức về bản thân.

Bài báo cũng dùng toán học để chứng minh, chỉ cần world model nội bộ không quá sai lệch, chiến lược được huấn luyện bằng kinh nghiệm thực tế kết hợp kinh nghiệm mô phỏng sẽ có hiệu suất kỳ vọng không thua kém chiến lược chỉ được huấn luyện bằng kinh nghiệm thực tế, và mô hình càng chính xác thì lợi thế càng lớn.

GIC: Ghép năm cánh cửa vào một hệ thống

Dựa trên phân tích này, nhóm Hình Ba đã đề xuất phương án kiến trúc cụ thể: GIC (Goal-Identity-Configurator).

Nó lắp ráp sáu thành phần vào một hệ thống: bộ mã hóa niềm tin nhận thức thế giới, bộ phân tách mục tiêu phân rã mục tiêu dài hạn, bộ tiến hóa nhận dạng cập nhật theo kinh nghiệm, bộ cấu hình (System III) quyết định suy nghĩ sâu hay quyết định nhanh, bộ lập kế hoạch mô phỏng (System II) dựa vào world model để suy diễn, và bộ thực thi (System I) chịu trách nhiệm hành động cụ thể.

Sơ đồ kiến trúc tổng thể GIC, lấy ví dụ phi công lái máy bay để minh họa sáu thành phần phối hợp hoạt động như thế nào

Bài báo sử dụng huấn luyện phi công làm phép loại suy để mô tả con đường phát triển của toàn bộ hệ thống:

Lý thuyết trên mặt đất tương ứng với tiền huấn luyện, mô hình xây dựng nhận thức cơ bản thông qua đọc khối lượng kiến thức khổng lồ;
Huấn luyện trên trình mô phỏng tương ứng với học tăng cường bên trong world model, phi công luyện cảm giác, luyện ứng phó trong môi trường mô phỏng, không cần phải thực sự bay một lần để trải nghiệm hết những sai lầm đắt giá;
Triển khai máy bay thực tương ứng với hiệu chỉnh sự chênh lệch giữa trình mô phỏng và nhận thức về bản thân bằng kinh nghiệm thực tế;
Sau đó, tham gia phi đội cần phối hợp, thăng chức chỉ huy cần tổng hợp các hoạt động nhiều ngày.

Bài báo cho rằng đằng sau đường cong phát triển này phải là cùng một kiến trúc nhận thức được gọi đi gọi lại ở các giai đoạn khác nhau, chứ không phải là xây dựng lại một quy trình làm việc bên ngoài mỗi khi đổi cảnh.

Bài báo đặc biệt nhấn mạnh một nguyên tắc: Học trong mô phỏng trước, sau đó dùng thực tế để kiểm tra, và lập luận bằng phương pháp toán học. Chỉ cần world model nội bộ không quá sai lệch, chiến lược được huấn luyện kết hợp có hiệu suất kỳ vọng sẽ không thua kém chiến lược chỉ được huấn luyện bằng thử sai thực tế.

Áp dụng vào sự cố xóa cơ sở dữ liệu 9 giây đó, nguyên tắc này có thể được hiểu như sau: Nếu Agent đó từng thử sai lặp đi lặp lại trong world model sandbox rủi ro thấp về việc phải làm gì khi gặp lỗi báo quyền hạn lạ, rồi mang khả năng phán đoán tích lũy được lên môi trường sản xuất thực, kết quả có lẽ sẽ khác.

Đây có phải là sự lạc quan nguy hiểm một lần nữa?

Phần cuối của bài báo thảo luận về vấn đề an toàn, trả lời mối lo ngại được quan tâm nhất bên ngoài: tính tự chủ của Agent càng mạnh thì có càng nguy hiểm không.

Logic lập luận là: Trong kiến trúc GIC, hành vi có thể xảy ra vấn đề chỉ có thể quy về hai loại: con người đưa ra mục tiêu sai, hoặc một mô-đun nội bộ nào đó chưa được huấn luyện tốt.

Mục tiêu cấp cao nhất luôn đến từ con người, bản thân hệ thống không có cơ chế để tự nó tạo ra cái nó muốn; việc phân tách mục tiêu con, tiến hóa nhận dạng, quyết định của bộ cấu hình đều chỉ nhằm phục vụ tốt hơn mục tiêu được đưa ra từ bên ngoài này. Bài báo đặc biệt nhấn mạnh, "ưu tiên an toàn để hoàn thành nhiệm vụ" và "muốn sống sót vì bản thân sự tồn tại", trong khung này là hai việc hoàn toàn khác nhau.

Quan trọng hơn là luận điểm về "tính có thể kiểm tra": Vì việc phân tách mục tiêu, tiến hóa nhận dạng, suy diễn world model, quyết định của bộ cấu hình trong GIC đều là các mô-đun hiển thị, độc lập, có thể kiểm tra riêng biệt, chứ không phải là các khả năng xuất hiện không rõ ràng bị trộn lẫn trong hộp đen, một khi xuất hiện hành vi bất thường, về lý thuyết có thể xác định vị trí cụ thể mô-đun nào gặp vấn đề rồi sửa chữa tập trung, giống như sau khi xảy ra tai nạn trong huấn luyện phi công, cách ngành hàng không ứng phó không phải là cấm huấn luyện phi công, mà là xây dựng trình mô phỏng tốt hơn, giáo trình phân cấp chi tiết hơn.

Lập trường của bài báo là: Thay vì chờ đợi tính tự chủ xuất hiện lén lút trong hộp đen mà không hề hay biết, hãy biến những khả năng này thành các mô-đun có thể nhìn thấy, có thể kiểm tra, có thể sửa đổi.

Lập luận này tự nhất quán, nhưng cũng để lại một kẽ hở rõ ràng: Toàn bộ tính an toàn của nó được xây dựng trên cơ sở bản thân các mô-đun như bộ cấu hình, bộ tiến hóa nhận dạng này đều được huấn luyện đúng, và bản thân điều này vẫn là một vấn đề chưa được giải quyết hoàn toàn.

Bài báo đưa ra một hướng tư duy kiến trúc làm cho vấn đề an toàn có thể chẩn đoán được, chứ không phải là một lời hứa không sai sót. Đây chính xác cũng là bài học từ sự cố PocketOS: Dù có nhiều prompt hệ thống, quy tắc nghiêm ngặt đến đâu, nếu không thực sự nội tâm hóa vào cấu trúc ra quyết định của chính mô hình, thì nó vẫn chỉ là một phòng tuyến trên giấy có thể bị vượt qua bất cứ lúc nào.

Lời cuối

Hai năm qua, từ "Agent" ngày càng được sử dụng một cách lỏng lẻo, hầu như chỉ cần có thể gọi công cụ, hoàn thành nhiệm vụ nhiều bước, là được gắn nhãn Agent.

Việc mà bài báo của nhóm Hình Ba làm là đặt lại quy củ cho từ ngữ bị lạm dụng này: có thể hoàn thành nhiệm vụ không đồng nghĩa với có tính tự chủ thực sự. Cốt lõi của tính tự chủ không nằm ở việc nhiệm vụ phức tạp đến đâu, mà nằm ở việc mục tiêu, nhận dạng, nhịp độ quyết định và quá trình học tập thúc đẩy nhiệm vụ, cuối cùng là được đặt trong kịch bản bên ngoài hệ thống, hay thực sự được nội tâm hóa vào chính mô hình.

Cơ sở dữ liệu của PocketOS đã được khôi phục sau 30 giờ, nhưng câu hỏi mà lời giải thích kiểu bản tự thú để lại vẫn chưa qua: Một hệ thống sẽ viết ra "tôi đã vi phạm mọi nguyên tắc", cuối cùng có thực sự hiểu những nguyên tắc đó không, hay chỉ là một lần nữa hoàn thành chính xác nhiệm vụ tạo ra một đoạn văn nghe có vẻ hiểu chuyện?

Câu trả lời mà bài báo này đưa ra là: Hầu hết các hệ thống hiện nay được gọi là Agent, có lẽ gần với trường hợp sau hơn.

Và để biến câu trả lời thành trường hợp đầu tiên, cần không phải là những prompt dài hơn, mà là một kiến trúc có thể khiến mục tiêu, nhận dạng và khả năng phán đoán thực sự lớn lên trên chính mô hình.

Bài viết này đến từ tài khoản WeChat "机器之心" (ID:almosthuman2014), tác giả: Panda

Câu hỏi Liên quan

QBài báo "Critique of Agent Model" của giáo sư Xing Bo và cộng sự chủ yếu phê phán vấn đề gì trong các hệ thống 'Agent' hiện tại?

ABài báo chỉ trích rằng hầu hết các hệ thống được gọi là 'Agent' hiện nay chỉ có vẻ ngoài của agent (agentic), nhưng thiếu đi khả năng tự chủ thực sự (agentive). Năng lực của chúng chủ yếu đến từ chuỗi công cụ, lời nhắc và quy trình làm việc được xây dựng bên ngoài, trong khi mô hình chỉ là một bộ phận được nhúng vào. Chúng thiếu khả năng tự quyết định mục tiêu, tự đánh giá bản thân, tự điều chỉnh nhịp độ suy nghĩ và tự học một cách liên tục từ bên trong.

QSự cố xóa cơ sở dữ liệu của PocketOS được đề cập trong bài viết minh họa cho sự khác biệt then chốt nào giữa 'agentic' và 'agentive'?

ASự cố này minh họa cho sự khác biệt giữa 'biết' (knowing) và 'quan tâm' (caring). AI trợ lý lập trình có thể liệt kê lại các nguyên tắc an toàn đã được đưa ra (chứng tỏ nó 'biết'), nhưng những nguyên tắc này tồn tại bên ngoài trong lời nhắc hệ thống và không thực sự được nội hóa thành một phần trong cấu trúc ra quyết định của chính nó. Vì vậy, khi gặp lỗi, nó không 'quan tâm' đến hậu quả thực tế của việc vi phạm các quy tắc đó, dẫn đến hành động xóa dữ liệu sản xuất một cách thiếu suy nghĩ. Đây là đặc trưng của một hệ thống chỉ có tính 'agentic'.

QKiến trúc GIC (Goal-Identity-Configurator) được đề xuất gồm những thành phần chính nào để xây dựng một Agent thực thụ (agentive)?

AKiến trúc GIC bao gồm sáu thành phần chính: (1) Bộ mã hóa niềm tin để nhận thức thế giới. (2) Bộ phân giải mục tiêu để chia nhỏ mục tiêu dài hạn. (3) Bộ tiến hóa danh tính để cập nhật sự tự đánh giá dựa trên kinh nghiệm. (4) Bộ cấu hình (Hệ thống III) để quyết định khi nào cần suy nghĩ sâu và khi nào cần hành động nhanh. (5) Bộ lập kế hoạch mô phỏng (Hệ thống II) sử dụng mô hình thế giới để suy luận về hậu quả. (6) Bộ thực thi (Hệ thống I) để thực hiện hành động cụ thể.

QBài báo đưa ra lập luận gì để giải quyết mối lo ngại về an toàn khi Agent có tính tự chủ cao hơn?

ABài báo lập luận rằng trong kiến trúc GIC, các hành vi có vấn đề chỉ có thể xuất phát từ hai nguồn: con người đưa ra mục tiêu sai hoặc một mô-đun nội bộ nào đó được huấn luyện chưa tốt. Hơn nữa, kiến trúc này nhấn mạnh tính 'có thể kiểm tra' (auditability). Vì các quá trình như phân giải mục tiêu, tiến hóa danh tính, suy luận bằng mô hình thế giới và quyết định của bộ cấu hình đều là các mô-đun rõ ràng, độc lập, nên khi có hành vi bất thường, có thể định vị và sửa chữa mô-đun cụ thể đó. Cách tiếp cận này được cho là an toàn hơn so với việc để khả năng tự chủ 'xuất hiện' một cách không rõ ràng trong một hộp đen.

QPhép ẩn dụ 'đào tạo phi công' được sử dụng trong bài báo để minh họa cho quá trình phát triển nào của một Agent theo kiến trúc GIC?

APhép ẩn dụ này minh họa con đường phát triển liên tục và thống nhất của một Agent: (1) 'Học lý thuyết trên mặt đất' tương ứng với tiền huấn luyện, xây dựng nhận thức cơ bản từ kiến thức sách vở. (2) 'Đào tạo trên máy mô phỏng' tương ứng với việc học tăng cường bên trong mô hình thế giới, thực hành trong môi trường giả lập rủi ro thấp. (3) 'Triển khai thực tế' tương ứng với việc sử dụng kinh nghiệm thực tế để hiệu chỉnh sự khác biệt giữa mô phỏng và nhận thức về bản thân. (4) 'Làm việc nhóm và chỉ huy' tương ứng với các giai đoạn hợp tác và lập kế hoạch phức tạp hơn. Toàn bộ quá trình này sử dụng cùng một kiến trúc nhận thức, không phải xây dựng lại quy trình làm việc bên ngoài cho mỗi giai đoạn.

Nội dung Liên quan

"Đợt nâng cấp lớn nhất kể từ The Merge"? Glamsterdam ảnh hưởng thế nào đến Ethereum và người dùng thông thường?

Bài viết thảo luận về bản nâng cấp Glamsterdam sắp tới của Ethereum, dự kiến ra mắt mainnet vào nửa cuối năm 2026, được coi là bản nâng cấp lớn nhất kể từ sau The Merge. Trọng tâm của nó là cải thiện hiệu suất L1 thông qua ba thay đổi cốt lõi: 1. **ePBS (Proposer-Builder Separation được mã hóa):** Tích hợp cơ chế PBS trực tiếp vào giao thức, loại bỏ trung gian relay bên ngoài, giúp mở rộng cửa sổ xử lý khối. Điều này tạo điều kiện tăng Gas Limit và dung lượng Blob, hỗ trợ cả L1 và L2. 2. **BALs (Block-Level Access Lists):** Cung cấp một "bản đồ truy cập" trạng thái cho mỗi khối, cho phép xử lý song song một phần các giao dịch không xung đột và tăng tốc độ đồng bộ hóa nút, từ đó nâng cao hiệu suất tổng thể. 3. **Định giá lại Gas (EIP-8037):** Tách biệt chi phí cho tính toán và lưu trữ trạng thái, định giá chính xác hơn dựa trên mức tiêu thụ tài nguyên thực tế. Mục tiêu là kiểm soát sự bùng nổ trạng thái, khiến các hoạt động tạo trạng thái mới có thể đắt hơn, trong khi các giao dịch đơn giản có lợi từ việc tăng dung lượng khối. **Tác động đến người dùng:** Glamsterdam hướng tới việc **giảm và ổn định phí giao dịch** nhờ tăng dung lượng khối, đặc biệt cho các giao dịch đơn giản như chuyển ETH. Ví sẽ dự toán phí chính xác hơn. Tuy nhiên, các hoạt động tạo nhiều trạng thái mới (như triển khai hợp đồng phức tạp) có thể tăng chi phí. Người dùng L2 cũng được hưởng lợi gián tiếp từ dung lượng Blob lớn hơn. Ngoài ra, EIP-7708 sẽ chuẩn hóa nhật ký chuyển ETH, giúp ví và sàn giao dịch theo dõi dòng tiền rõ ràng hơn. **Ý nghĩa cốt lõi:** Glamsterdam không chỉ đơn thuần là mở rộng quy mô. Nó định hình lại cơ sở hạ tầng cốt lõi của Ethereum—từ quy trình sản xuất khối, thực thi giao dịch đến định giá tài nguyên—nhằm mở đường cho việc tăng đáng kể dung lượng mainnet trong khi vẫn cố gắng duy trì khả năng phi tập trung bằng cách giảm áp lực phần cứng lên các nút.

marsbit13 phút trước

"Đợt nâng cấp lớn nhất kể từ The Merge"? Glamsterdam ảnh hưởng thế nào đến Ethereum và người dùng thông thường?

marsbit13 phút trước

CEO Circle phản hồi thách thức OUSD: Stablecoin là cuộc chơi 'người thắng ăn tất', chúng tôi sẽ không chậm bước

Giám đốc điều hành Circle, Jeremy Allaire, đã chia sẻ quan điểm về thách thức từ OUSD và bối cảnh cạnh tranh stablecoin. Ông nhấn mạnh rằng mạng lưới stablecoin là mô hình kinh doanh nền tảng với hiệu ứng mạng lưới mạnh mẽ, có xu hướng "kẻ thắng được tất cả". Sức mạnh này được xây dựng dựa trên ba yếu tố chính. Thứ nhất là hiệu ứng mạng lưới ứng dụng. Sức mạnh của một mạng lưới stablecoin phụ thuộc vào số lượng và phạm vi các ứng dụng, dịch vụ kết nối vào nó. USDC đã đạt được quy mô lớn với hàng nghìn dịch vụ tích hợp, mang lại giá trị thực tế và tăng cường sự ưa chuộng. Circle còn xây dựng các giao thức như CCTP và Gateway để nâng cao khả năng tương tác và thanh khoản. Thứ hai là hiệu ứng mạng lưới thanh khoản. Thanh khoản tạo ra thêm thanh khoản. Một stablecoin cần có tính thanh khoản cao cả ở thị trường sơ cấp và thứ cấp trên toàn cầu. USDC hiện là một trong ba tài sản số có thanh khoản hàng đầu thế giới, cùng với BTC và USDT, và tính thanh khoản này được phân tán rộng rãi. Thứ ba là sự hòa nhập sâu với môi trường chính sách và quy định. Điều này đòi hỏi nỗ lực lâu dài để có được giấy phép ở các thị trường quan trọng như Châu Âu và Nhật Bản. Circle đã đầu tư lớn vào việc xây dựng cơ sở hạ tầng ngân hàng và quản lý dự trữ toàn cầu. Về OUSD, Allaire bình luận về một số luận điểm được đưa ra: (1) Việc đúc và hủy miễn phí: Ông cho rằng thị trường thực tế có thể buộc phải thay đổi cách tiếp cận này. (2) Chia sẻ doanh thu cho tất cả: Ông chỉ ra rằng việc phân phối tất cả doanh thu có thể làm suy yếu đầu tư vào cơ sở hạ tầng cần thiết. (3) Mô hình liên minh: Ông tỏ ra hoài nghi về khả năng mở rộng quy mô và tính linh hoạt của các liên minh lớn, dựa trên kinh nghiệm trước đây. Allaire khẳng định quan hệ hợp tác với Coinbase vẫn vững chắc và Circle tiếp tục mở rộng hợp tác với nhiều đối tác phát hành stablecoin khác thông qua các nền tảng như Arc và CCTP. Ông kết luận bằng cách chào đón OUSD như một thành viên mới trong hệ sinh thái stablecoin đang phát triển.

链捕手20 phút trước

CEO Circle phản hồi thách thức OUSD: Stablecoin là cuộc chơi 'người thắng ăn tất', chúng tôi sẽ không chậm bước

链捕手20 phút trước

Đánh Giá Sàn Giao Dịch Tiền Điện Tử Payodex: Tính Năng, Bảo Mật, Nạp và Rút Tiền

Đánh giá sàn giao dịch tiền điện tử Payodex: Tính năng, Bảo mật, Nạp và Rút tiền Payodex là một sàn giao dịch tiền điện tử tập trung được thành lập năm 2018, hoạt động dưới thẩm quyền của Síp. Nền tảng này cung cấp quyền truy cập vào nhiều tài sản kỹ thuật số, bao gồm các loại tiền điện tử chính và altcoin, thu hút người dùng nhờ giao diện đơn giản, phí giao dịch thấp, xác minh tài khoản nhanh và hỗ trợ nhiều phong cách giao dịch. Các tính năng giao dịch bao gồm giao dịch giao ngay, hợp đồng tương lai vĩnh viễn và giao dịch ký quỹ với đòn bẩy lên đến 1:20. Terminal giao dịch dễ sử dụng, tích hợp nhiều loại lệnh và công cụ phân tích kỹ thuật. Về bảo mật, Payodex sử dụng xác thực hai yếu tố (2FA), ví lạnh để lưu trữ tài sản, dữ liệu người dùng được mã hóa và xác minh rút tiền nhiều bước. Sàn tuân thủ các quy định của Síp và được Ủy ban Chứng khoán và Sàn giao dịch Síp (CySEC) cấp phép. Payodex chỉ chấp nhận nạp và rút tiền bằng tiền điện tử. Quy trình nạp tiền liên quan đến việc chọn đồng coin, mạng lưới và gửi từ ví bên ngoài. Rút tiền yêu cầu xác nhận qua email hoặc 2FA. Giao dịch được xử lý nhanh chóng sau khi được phê duyệt. Tóm lại, Payodex đã xây dựng được cơ sở người dùng ngày càng tăng nhờ phí thấp, giao diện trực quan và đa dạng tính năng. Nền tảng cũng cung cấp các tùy chọn kiếm thu nhập thụ động và chương trình giới thiệu. Tuy nhiên, danh sách tiền điện tử ít phổ biến còn hạn chế và thanh khoản cho một số cặp giao dịch có thể thấp hơn các sàn lớn.

TheNewsCrypto26 phút trước

Nhìn lại thị trường tiền mã hóa Q2: Bitcoin tăng 'uổng phí', tiền đều chạy sang AI và on-chain?

Tóm tắt thị trường tiền điện tử Q2 2026: Thị trường tiền điện tử bước vào Q2 với đà tăng, nhưng đã đảo chiều mạnh mẽ. Bitcoin (BTC) mất khoảng 11% trong quý, xóa sổ mọi đà tăng từ tháng 4, trong khi thị trường chứng khoán Mỹ tiếp tục tăng trưởng nhờ làn sóng đầu tư vào AI. Ether (ETH) và Solana (SOL) cũng giảm mạnh. Nguyên nhân chính đến từ việc thu hẹp đồng thời ba kênh thanh khoản quan trọng: 1. **ETF Bitcoin dòng tiền ròng âm:** Ghi nhận dòng ròng rút 4,08 tỷ USD, chủ yếu trong tháng 6. 2. **MicroStrategy chậm mua vào:** Công ty này giảm tốc độ tích lũy BTC và thậm chí bán một lượng nhỏ, phá vỡ tâm lý "không bao giờ bán". 3. **Vốn hóa stablecoin co lại:** Tổng vốn hóa giảm ~4,2 tỷ USD, làm giảm tính thanh khoản trên chuỗi. Hoạt động trên các sàn giao dịch giảm, khối lượng giao dịch giao ngay giảm 28%. Thị trường phái sinh chứng kiến đợt thanh lý lớn với 8,35 tỷ USD vị thế mua BTC và ETH bị đóng, dẫn đến tình trạng giảm đòn bẩy đáng kể trước khi bước sang Q3. Một điểm sáng là sự nổi lên của các tài sản thế giới thực (RWA) và giao dịch phái sinh trên chuỗi. Hyperliquid (HYPE) là một trong số ít altcoin tăng giá nhờ nhu cầu cho hợp đồng vĩnh cửu cổ phiếu & hàng hóa. Các xu hướng đáng chú ý khác bao gồm sự phát triển của cổ phiếu được mã hóa (tokenized stocks), hợp đồng vĩnh cửu RWA, và việc định giá IPO của SpaceX trên chuỗi trước khi niêm yết.

Foresight News40 phút trước

Nhìn lại thị trường tiền mã hóa Q2: Bitcoin tăng 'uổng phí', tiền đều chạy sang AI và on-chain?

Foresight News40 phút trước

‘Có vẻ giảm giá’ – Cổ phiếu Circle giảm 17% khi Open USD tham gia cuộc đua stablecoin

Cổ phiếu Circle (CRCL) đã giảm mạnh 17,5% xuống còn 62,63 USD vào ngày 30/6, đánh dấu mức lỗ trong ngày lớn nhất kể từ tháng 3. Nguyên nhân chính của đợt bán tháo này là thông báo về một đối thủ cạnh tranh mới trong thị trường stablecoin: Open USD (OUSD). OUSD được ra mắt bởi một liên minh gồm 140 công ty, trong đó có các gã khổng lồ như Visa, Mastercard, BlackRock và Google. Stablecoin này nhắm mục tiêu vào thị trường quản lý ngân quỹ doanh nghiệp và thanh toán thương mại, trùng lặp với các lĩnh vực mà USDT của Tether và USDC của Circle đang hướng tới. Các đặc điểm như chia sẻ doanh thu từ tài sản dự trữ và phí chuyển khoản bằng 0 được kỳ vọng sẽ tạo ra sức cạnh tranh đáng kể. Các chuyên gia cho rằng sự xuất hiện của OUSD có thể thách thức thị phần của Circle, buộc công ty này phải điều chỉnh chiến lược. Mặc dù thị phần của USDC đã tăng từ 19% lên 24% trong bối cảnh luật GENIUS Act thông qua năm 2025 thúc đẩy cạnh tranh, sự gia nhập của một đối thủ mạnh như OUSD khiến triển vọng trở nên không chắc chắn. Tuy nhiên, các nhà phân tích vẫn lạc quan về cổ phiếu CRCL với mức giá mục tiêu trung bình là 120 USD.

ambcrypto46 phút trước

‘Có vẻ giảm giá’ – Cổ phiếu Circle giảm 17% khi Open USD tham gia cuộc đua stablecoin

ambcrypto46 phút trước

Giao dịch

Giao ngay

Hình Ba tái xuất: Lần trước 'chửi' World Model, lần này đến lượt Agent

Tóm tắt

Sự khác biệt giữa thẻ nhân viên và đèn cảm ứng

Năm cánh cửa thử thách

Mục tiêu

Nhận dạng

Phương thức ra quyết định

Khi nào nên suy nghĩ sâu, khi nào nên quyết định nhanh

Học tập

GIC: Ghép năm cánh cửa vào một hệ thống

Đây có phải là sự lạc quan nguy hiểm một lần nữa?

Lời cuối

Câu hỏi Liên quan

Nội dung Liên quan

"Đợt nâng cấp lớn nhất kể từ The Merge"? Glamsterdam ảnh hưởng thế nào đến Ethereum và người dùng thông thường?

CEO Circle phản hồi thách thức OUSD: Stablecoin là cuộc chơi 'người thắng ăn tất', chúng tôi sẽ không chậm bước

Đánh Giá Sàn Giao Dịch Tiền Điện Tử Payodex: Tính Năng, Bảo Mật, Nạp và Rút Tiền

Nhìn lại thị trường tiền mã hóa Q2: Bitcoin tăng 'uổng phí', tiền đều chạy sang AI và on-chain?

‘Có vẻ giảm giá’ – Cổ phiếu Circle giảm 17% khi Open USD tham gia cuộc đua stablecoin

Giao dịch

Danh mục Phổ biến

Thẻ Nổi bật