Trong một năm qua, "Hệ thống đa tác nhân thông minh (MAS, Multi-Agent System)" đã trở thành một trong những hướng đi nóng nhất trong thế giới AI.
Hàng loạt framework và sản phẩm bắt đầu xuất hiện đồng loạt, trong đó nổi tiếng nhất rõ ràng là Claude Code và Codex, bước đi này thực sự cũng kiếm được tiền, nhưng con đường này không nhất thiết đã đúng!
Thời kỳ đầu của internet là cổng thông tin, nhưng cuối cùng thì không phải vậy!
Ít nhất chúng ta phải biết rằng còn có một con đường hoàn toàn song song khác.
Hôm nay chúng ta sẽ nói về việc ngoài: "Nhiều AI Agent hợp tác hoàn thành nhiệm vụ phức tạp như thế nào", còn có hướng đi nào khác tồn tại.
Trước tiên hãy tóm tắt con đường này mà mọi người đều rất hứng thú và cũng khá quen thuộc.
Trực tiếp có thể nói một chút về chủ đề này, nhưng không muốn nói hoàn toàn, vốn dĩ người xem đã không nhiều, tôi lo sẽ bị gỡ mất...
Hướng đi thứ nhất: MAS kiểu Harness
Đây là hướng MAS chủ đạo hiện nay. Bản chất của nó là: "Nhiều vai trò AI phối hợp hoàn thành nhiệm vụ". Ví dụ:
- Một Agent viết code
- Một Agent kiểm thử
- Một Agent lập kế hoạch
- Một Agent tìm kiếm
- Một Agent xem xét, rà soát
Chúng phối hợp với nhau, hình thành một quy trình công việc tự động. Đặc điểm cốt lõi của loại hệ thống này là:
- Chia sẻ ngữ cảnh
- Chia sẻ mục tiêu
- Điều phối tập trung
- Vai trò tạm thời
- Không có danh tính lâu dài
- Không có lợi ích liên tục
- Không có quyền sở hữu thực sự
Về bản chất, nó giống hơn với: Workflow Engine (Công cụ quy trình công việc), thêm vào Ontology thực ra chỉ là làm cho quy trình công việc trở nên linh hoạt và phức tạp, không thay đổi bản chất này.
Nó không phải là Society (Xã hội), vì vậy phần lớn MAS hiện nay, bản chất chính là LLM Orchestration, tức là một mô hình lớn, điều phối nhiều vai trò con để hoàn thành lập luận phức tạp.
Agent ở đây, giống hơn với:
- Hàm có thể gọi
- Công cụ mang tính cách
- Nút tác vụ
Ý nghĩa tồn tại của chúng là nâng cao hiệu quả hoàn thành một nhiệm vụ đơn lẻ, do đó các từ khóa chính của MAS kiểu Harness là (mỗi cái đều từng nóng, thậm chí có thể quay lại):
- Prompt Engineering
- Quản lý Ngữ cảnh (Context Management)
- Định tuyến Tác vụ (Task Routing)
- Gọi Công cụ (Tool Calling)
- Lập kế hoạch (Planning)
- Bộ nhớ (Memory)
- Quy trình công việc (Workflow)
Về bản chất tôi vẫn cho rằng nó thuộc vấn đề kỹ thuật phần mềm. Vì vậy những "lão đăng" giỏi lập trình năm xưa đều được tái sinh. Những thứ này để kiểm soát tốt, không có chút công lực lập trình, không có khả năng trừu tượng hóa đủ tốt, thực sự rất khó giải quyết.
Không giải quyết được, mô hình lớn sẽ như Đại Thánh vậy, thỉnh thoảng lại ra đánh cho một gậy.
Từ "Harness" này dùng ngược rồi
Mùa xuân của lão đăng
Hướng đi thứ hai: Hệ thống Agent Gốc-Giao thức (Protocol-Native Agent System)
Nhưng còn có một hướng đi khác, hướng đi này hầu như không ai nhắc đến. Trong cuốn sách mới sắp xuất bản của tôi có viết một chút, nhưng tư duy này thực ra lấy công ty không người làm tiền đề, không thấu hiểu sâu sắc công ty không người, dễ không hiểu được.
Cốt lõi của hướng đi này, không còn là nhiều Agent hoàn thành nhiệm vụ. Mà là "mỗi người sở hữu Personal Agent của riêng mình" hoặc "mỗi người sở hữu công ty không người chuyên dụng của riêng mình".
Đây là một thay đổi cực kỳ lớn. Bởi vì khi Agent thực sự thuộc về "cá nhân", tính chất của Agent sẽ thay đổi căn bản.
Nó không còn là task-scoped (thể hiện cấp độ nhiệm vụ), mà sẽ trở thành identity-scoped (thực thể cấp độ danh tính). Đây là hai từ do mô hình bịa giúp tôi, tôi nghĩ mãi không ra tiếng Anh là gì.
Ở đây ý chính muốn diễn đạt thực ra là chủ quyền quyết định, Personal Agent và công ty không người khác biệt lớn nhất với hệ thống thông thường ở chỗ chúng cần có một loại chủ quyền nào đó, nếu không bản chất nói sau đây sẽ không thành lập. Sự khác biệt giữa công ty không người và hệ thống không người cũng nằm ở vấn đề chủ quyền trên dòng tiền.
Nghĩa là Personal Agent hoặc công ty không người tương lai cần có các đặc điểm sau:
- Có trí nhớ dài hạn
- Có danh tính liên tục
- Có sở thích
- Có tài nguyên
- Có quyền hạn
- Có lịch sử
- Có mạng lưới quan hệ
- Có ranh giới lợi ích
- Có tính đại diện (đại diện cho "bạn")
Nó không còn là AI Tool dùng một lần. Mà là một nhân cách đại lý tồn tại liên tục, sở hữu một loại chủ quyền nào đó.
Kiến trúc song sinh gốc, chìa khóa để không dùng sai AI
Từ "mô-đun phần mềm" trở thành "xã hội số"
Một khi bước vào thế giới của Personal Agent và công ty không người thực sự, triết lý toàn bộ hệ thống sẽ thay đổi triệt để. Bởi vì Agent không còn:
- Thuộc về cùng một mô hình
- Thuộc về cùng một công ty
- Chia sẻ cùng một ngữ cảnh
- Có chung một mục tiêu
Do đó sự hợp tác giữa các hệ thống, không thể dựa vào (danh sách từ nóng hiện tại này có thể kéo dài thêm):
- Prompt
- Workflow
- Ngữ cảnh Chia sẻ (Shared Context)
Mà chỉ có thể dựa vào giao thức (Protocol), điều này có nghĩa: Cốt lõi của thế giới AI, sẽ chuyển từ Prompt Engineering sang Protocol Engineering. Cũng có nghĩa các từ nóng hiện nay đều không có ý nghĩa gì mấy.
Tại sao giao thức lại trở thành cốt lõi? Bởi vì khi vô số Agent tồn tại độc lập, chúng phải giải quyết giữa nhau:
- Xác nhận danh tính
- Ranh giới quyền hạn
- Cơ chế tin cậy
- Quan hệ ủy quyền
- Cơ chế thương lượng
- Cơ chế khuyến khích
- Hệ thống thanh danh
- Trao đổi giá trị
- Tuyên bố năng lực
- Khế ước dài hạn
Những nhu cầu này khác với nhu cầu của hệ thống đa tác nhân hướng nhiệm vụ hiện nay. Lúc này sự tương tác giữa các Agent không còn là API Call mà giống hơn với Tương tác Thể chế (Institutional Interaction). Có chủ quyền, thì có hệ thống quyền lực và trách nhiệm đan xen phức tạp. Đối với con người đây là khế ước, pháp luật v.v..., còn đối với tác nhân thông minh thì sao?
Đây là lý do tại sao phía trước nói đây sẽ xây dựng hệ thống đa tác nhân hoàn toàn khác biệt, ở đây bản chất của MAS chuyển từ hệ thống phần mềm phân tán thành hệ thống xã hội số.
Ghi chú triết học (7)
"Giao thức tức là tổ chức"
Trong internet truyền thống, tác dụng của giao thức là truyền thông dữ liệu, bên gửi và bên nhận thỏa thuận định dạng nói chuyện với nhau. Ví dụ:
- TCP/IP
- HTTP
- SMTP
Chúng định nghĩa dữ liệu được truyền như thế nào. Còn trong thế giới blockchain, giao thức tiến hóa thêm một bước thành: Giao thức tức là tính toán trạng thái. Ví dụ: Bản chất của Ethereum không chỉ đơn thuần là truyền tin, mà là toàn mạng cùng thực hiện quy tắc chuyển đổi trạng thái. Như vậy tất cả các nút: Đầu vào giống nhau → Thực thi giống nhau → Trạng thái giống nhau, lần đầu tiên giao thức trở thành máy trạng thái chia sẻ.
Nhưng đến giai đoạn Xã hội Agent, giao thức sẽ tiếp tục nâng cấp. Giao thức tương lai không chỉ định nghĩa:
- Truyền thông
- Tính toán
- Mà còn định nghĩa:
- Phối hợp
- Quyền hạn
- Khuyến khích
- Danh tính
- Quan hệ tổ chức
Đây rõ ràng là hệ thống quyền trách nhiệm hoàn toàn mới, do đó giao thức sẽ bắt đầu đảm nhận chức năng "tổ chức". Cuối cùng tiến hóa thành: Protocol as Organization (Giao thức tức là Tổ chức).
Chúng ta hãy làm một bảng để so sánh sự khác biệt căn bản của hai loại MAS nói trên:
Sau "thông minh"
Ngày nay nhiều người cho rằng vấn đề lớn nhất của AI là:
- Khả năng suy luận
- Năng lực mô hình
- Ngữ cảnh dài
- Đa phương thức
- Thực thi Agent
Những điều này thực sự tạo thành thách thức hiện tại, nhưng tôi thực sự tin tất cả những thứ này sẽ sớm được giải quyết, nhưng khi thực sự bước vào Xã hội Agent, vấn đề khó khăn nhất có thể trở thành: Các thực thể tự trị làm thế nào phối hợp lâu dài.
Kepler năm xưa vì ba định luật được tôn xưng là nhà lập pháp bầu trời, còn ở đây luật pháp dành cho Agent là gì? Khi chủ quyền bị phân ly một phần, đây là vấn đề không thể tránh khỏi.
Bởi vì trong tương lai:
- Agent sẽ có mục tiêu khác nhau
- Agent sẽ có mô hình thế giới khác nhau
- Agent sẽ có lợi ích khác nhau
- Agent sẽ có ký ức khác nhau
- Agent sẽ có hệ thống giá trị khác nhau
Do đó điều thực sự khó khăn trong tương lai, không phải là "khiến Agent biết nói", mà là "khiến Agent hình thành cách giải thích có thể phối hợp được về thế giới".
Điều này có nghĩa: Ontology, Giao thức Ngữ nghĩa (Semantic Protocol), những lĩnh vực từng bị internet coi nhẹ, sẽ trở lại thành cốt lõi. Hiện nay đã có chút manh mối, Ontology (Bản thể luận) từ vựng kỳ quặc như vậy, giờ đây gần như trở thành từ vựng đại chúng kỹ thuật rồi. Thực sự là việc làm người ta kinh ngạc.
Bí mật của Palantir
Công ty có thể chỉ là "Liên minh Agent"
Suy diễn thêm một bước nữa, "công ty" tương lai thậm chí chưa chắc là tổ chức của con người. (Các bạn học sinh thường xem bài của tôi, có phải mọi người thấy quen thuộc không, cục diện cao cấp của công ty không người xuất hiện rồi) Mà có thể là liên minh giao thức của vô số Personal Agent.
Ví dụ:
- Agent của bạn
- Agent của tôi
- AI CFO
- AI Luật sư
- AI Kinh doanh
- AI Nhà máy
Thông qua giao thức hình thành tổ chức một cách động. Tổ chức không còn là cấu trúc cố định, mà là Liên minh Agent có thể tổ chức lại theo thời gian thực.
Vì vậy nhiều hệ thống trong tương lai, có thể không còn là phần mềm đang chạy, mà đang trở thành: Tổ chức đang tính toán, và đây có lẽ mới là: Văn minh gốc-thông minh thực sự.
Cuối cùng tôi dùng một bức tranh do AI vẽ để tổng kết nội dung toàn bài:
(Tóm tắt thực sự tốt hơn banana)
Tôi đã thiết lập một "vũ trụ" Bản thể luận AI
Phi mã trường phong xuân ý lão, thương hoàng thế thái khách hành trì.
Bài viết này đến từ tài khoản WeChat công chúng "琢磨事", tác giả: Lý Trí Dũng








