"Chén Thánh" của hệ thống phân tán - Giao thức đồng thuận (Consensus Protocols), từ lâu đã là "địa ngục lỗi" của các kỹ sư hạ tầng hàng đầu. Do trạng thái cực kỳ phức tạp và sự đan xen đa node, các phương pháp kiểm thử truyền thống và LLM đơn lẻ gần như bất lực trước các Deep Bug (lỗ hổng logic sâu) cứng đầu.
Gần đây, trong bài báo được chấp nhận tại hội nghị ICML 2026, các nhà nghiên cứu từ 0G Labs cùng với các đội ngũ học thuật và công nghiệp hàng đầu từ Đại học Quốc gia Singapore, Đại học Bắc Kinh, Đại học Bưu Chính Viễn Thông Bắc Kinh đã đề xuất khung framework tự động hóa kiểm thử đầu tiên kết hợp sâu sắc kiến thức lĩnh vực với sự hợp tác đa tác tử (Multi-Agent) của mô hình lớn - Agora.
Thông qua kiến trúc sáng tạo, khung framework này nhắm thẳng vào điểm đau của giao thức, trong các giao thức cốt lõi của công nghiệp và học thuật như Raft, EPaxos, HotStuff, BullShark, đã phát hiện liên tiếp 15 Deep Bug cấp giao thức chưa từng được biết đến trước đây! Trong khi đó, các mô hình lớn mạnh mẽ như GPT-5.2, Claude 4.5, v.v., đều thất bại, không phát hiện được lỗi nào. Trong bối cảnh cả hệ thống đa tác tử (Multi-Agent) và "Kiểm soát chất lượng bằng Tác tử" (Agentic Quality Control) đều trở thành lĩnh vực nóng nhất năm 2026, Agora mang đến không chỉ là một bài báo nghiên cứu, mà còn là một giải pháp cấp công nghiệp có thể triển khai thực tế.
Bài báo: "Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents"
1. Bối cảnh: Sự hợp tác mạnh mẽ giữa 0G và NUS, sự tích lũy kiến thức hệ thống lâu dài giao thoa với mô hình đa tác tử xuyên thế hệ
Sự phát triển của giao thức đồng thuận phân tán vừa là lịch sử đổi mới của những thiên tài, vừa là lịch sử dẫm phải vô số hố sâu của các kỹ sư hàng đầu. Như nhà đoạt giải Turing Lamport đã nói, đảm bảo tính đúng đắn của việc triển khai giao thức phân tán, khó khăn không kém việc đi xuyên qua một mê cung không ngừng rung chuyển trong tình trạng bịt mắt. Và ngay trên đường đua "địa ngục" này, thị trường đang chuyển hướng thầm lặng: Theo quan sát của Gartner, lượng tư vấn doanh nghiệp cho hệ thống đa tác tử đã tăng vọt hơn mười lần trong hơn một năm, thị trường nền tảng đa tác tử cũng bước vào giai đoạn mở rộng tốc độ cao tăng gần gấp đôi mỗi năm - việc sử dụng "sự hợp tác đa tác tử" để xác minh các hệ thống cơ sở cứng nhất, đang từ ý tưởng tiên phong trở thành nhu cầu cấp thiết của ngành.
Đối mặt với đường đua cấp độ địa ngục này, các gã khổng lồ công nghệ lừng lẫy đã tiên phong thăm dò theo cách đầu tư nặng. Ví dụ, dự án Glasswing mà Anthropic đỉnh cao ngành gần đây tiến hành nội bộ trong Claude Code, mặc dù cố gắng dùng tác tử chạm vào kiểm thử hạ tầng cơ sở, nhưng kiến trúc của nó vẫn cực kỳ phụ thuộc vào mô hình lớn thương mại hàng đầu cao cấp nhất, chi tiết dự án mập mờ, và chỉ hợp tác kín với rất ít tổ chức công nghệ lớn và tập đoàn đa quốc gia. Chí mạng hơn, các giải pháp kiểu gã khổng lồ này có thể thể hiện lượng tiêu thụ Token khủng khiếp khi chạy, rào cản tính toán đắt đỏ và lộ trình đầu tư nặng này trực tiếp loại trừ các công ty khởi nghiệp và doanh nghiệp vừa và nhỏ có ngân sách hạn chế.
Chẳng lẽ các công ty nhỏ, cộng đồng mã nguồn mở đã định sẵn không thể sử dụng công cụ kiểm toán lỗ hổng tự động hóa hàng đầu?
Các kỹ sư từ 0G Labs cùng với Xiang Liu từ Đại học Quốc gia Singapore, Sa Song, giáo sư Yong Sun từ Đại học Bưu Chính Viễn Thông Bắc Kinh, nghiên cứu sinh tiến sĩ Zhao Wei Zhang và nhà nghiên cứu C. Y. Zhang từ Trường Thông minh, Đại học Bắc Kinh đã trao quyền kiến thức sâu sắc về lĩnh vực Tác tử của mình vào hệ thống, mở ra một cuộc đổi mới đột phá "lấy nhỏ thắng lớn", công trình của họ đã được chấp nhận tại hội nghị đỉnh cao AI ICML 2026.
"Sự lắng đọng kiến thức hệ thống lâu dài" của giới học thuật, gặp "cơn đau và sự nhạy bén" của giới công nghiệp, làm thế nào để tạo ra cuộc cách mạng an ninh hệ thống thế hệ tiếp theo?
Đội ngũ 0G đã tích lũy kinh nghiệm tấn công-phòng thủ cấp sản xuất cực kỳ phong phú trong việc triển khai giao thức đồng thuận blockchain; trong khi đó đội ngũ có sự lắng đọng học thuật rất sâu sắc trong lĩnh vực hệ thống phân tán hiệu suất cao, điều khiển đồng thời cơ sở và xác minh hình thức hệ thống. Họ hiểu rõ các phương pháp truyền thống (như kiểm thử mờ Fuzzing) khi đối mặt với kho mã cấp công nghiệp thường bị giới hạn bởi sự bùng nổ không gian trạng thái. Các nhà nghiên cứu từ nhiều phía quyết định, đưa kiến thức suy luận logic về các bất biến toàn cục (invariants) của hệ thống phân tán tích lũy lâu dài làm "linh hồn", tiêm vào mô hình hợp tác đa tác tử tiên tiến nhất và kiến trúc Harness tự động hóa, cho ra mắt khung framework Agora bình đẳng mã nguồn mở.
Đồng thời, với tư cách là hạ tầng AI mô-đun hóa tiên phong ngành và mạng lưới khả dụng dữ liệu phi tập trung hiệu suất cao, đội ngũ 0G trong việc triển khai công nghiệp giao thức đồng thuận blockchain, kiến trúc BFT (chịu lỗi Byzantine) đồng thời cao, đã tích lũy kinh nghiệm tấn công-phòng thủ cấp sản xuất cực kỳ phong phú và các mẫu khiếm khuyết giao thức thực tế từ thế giới thực.
Sự hợp nhất xuyên ngành này đã thay đổi hoàn toàn quy tắc trò chơi: Nó không phải là kiểm thử bạo lực mù quáng, cũng không phải là "xem voi mù" của mô hình lớn thiếu kiến thức lĩnh vực, mà thông qua sự phân công chuyên môn hóa của các Tác tử, chuyển hóa trực giác suy luận logic hàng chục năm của chuyên gia hệ thống lão luyện thành sự đấu tranh và hợp tác giữa các Tác tử, từ đó có được thực lực cứng rắn giáng cấp đánh bại các công cụ kiểm thử truyền thống.
Khác với lộ trình đầu tư nặng của Glasswing động tí là nuốt chửng lượng Token hàng đầu khổng lồ, Agora mang đến một giải pháp thay thế bình đẳng cực kỳ thân thiện với doanh nghiệp vừa và nhỏ - nó chứng minh rằng ngay cả trong điều kiện mô hình nền "kém hơn một chút", hiệu quả chi phí cao hơn, thông qua kiến trúc hợp tác đa tác tử nhận thức lĩnh vực tinh tế, vẫn có thể moi ra các Deep Bug cứng đầu!
2. Điểm đau: LLM đơn lẻ khó vượt qua lằn ranh, hệ thống phân tán treo lơ lửng "Thanh kiếm Damocles logic sâu"
Trong thời đại ngày nay, nơi dữ liệu lớn, blockchain và cơ sở dữ liệu phân tán thống lĩnh, giao thức đồng thuận (như Paxos, Raft, PBFT, v.v.) chính là nền móng cơ sở của toàn bộ thế giới số. Tuy nhiên, việc triển khai giao thức đồng thuận nổi tiếng là "cực kỳ khó". Ngay cả những dự án tiêu chuẩn công nghiệp đã được rèn giũa bởi vô số kỹ sư hàng đầu toàn cầu, chạy nhiều năm như etcd, vẫn ẩn chứa những Deep Bug (lỗ hổng logic sâu) khiến người ta toát mồ hôi lạnh.
Loại lỗ hổng này khác với các lỗi triển khai cấp thấp thông thường (Implementation Bugs) như rò rỉ bộ nhớ, tràn số nguyên, chúng trải dài qua nhiều giai đoạn thực thi, phụ thuộc vào trạng thái đồng thời phức tạp. Một khi bị kích hoạt độc hại, không chỉ dẫn đến hỏng hóc dữ liệu cốt lõi, thậm chí có thể gây ra tổn thất thảm khốc cấp độ tài chính.
Mô hình ngôn ngữ lớn (LLM) nổi lên mạnh mẽ trong những năm gần đây, mặc dù thể hiện xuất sắc trong phân tích mã thông thường, nhưng khi đối mặt với đồng thuận phân tán lại tỏ ra "ngu ngốc". Chúng nhiều lắm chỉ có thể tìm ra các khiếm khuyết nông cạn của mã cục bộ, còn trước các lỗ hổng logic cấp giao thức phụ thuộc trạng thái toàn cục, LLM đơn lẻ thường sa lầy vào đống mã cục bộ, hoàn toàn không thể thực hiện suy luận thời gian toàn cục.
3. Phá vỡ thế cục: Ba Tác tử chuyển dịch càn khôn của Agora và Kiến trúc Harness cốt lõi
Để phá vỡ bế tắc này, Agora lần đầu tiên đưa mô hình kiểm thử dựa trên giả thuyết kinh điển của giới học thuật (Hypothesis-Driven Testing, HDT) vào hệ thống Tác tử mô hình lớn. Để đạt được suy luận toàn cục hiệu quả, Agora loại bỏ hoàn toàn mô hình "tác chiến đơn độc" truyền thống, tách rời tinh tế quy trình làm việc thành ba Tác tử chuyên môn hóa cao, mỗi tác tử đảm nhận chức năng riêng:
Tác tử Điều phối (Orchestrator Agent): Chịu trách nhiệm duy trì trạng thái toàn cục và "khai thác lỗ hổng" từ các lỗ hổng đã biết.
Tác tử Chiến lược (Strategy Agent): Chịu trách nhiệm tiêm kiến thức lĩnh vực phân tán, tạo ra các kịch bản bất thường cực kỳ xâm lấn nhắm vào giao thức CFT và BFT.
Tác tử Sinh mã Kiểm thử (TestGen Agent): Người thực thi. Và chìa khóa thực sự giúp Agora có thể triển khai, tạo ra kiểm thử hiệu quả khép kín, nằm ở kiến trúc kiểm thử tự động hóa cốt lõi của nó.
Kiến trúc của nó được minh họa như sau:
Trong thiết kế tổng thể của Agora, phép màu bình đẳng "lấy nhỏ thắng lớn" này không đến từ hư không, mà bắt nguồn từ sự hợp nhất sâu sắc giữa cơ chế tương tác tác tử tinh tế và kiến trúc Harness kiểm thử.
Nhóm nghiên cứu đã thiết kế chuyên biệt bên trong khung hệ thống một cơ chế giao tiếp và bộ nhớ cực kỳ đơn giản, hiệu quả (Succinct Memory & Communication), đảm bảo các Tác tử tập trung vào nhiệm vụ cốt lõi của chính mình, đồng thời giảm chi phí truyền tải ngữ cảnh dư thừa xuống mức tối thiểu. Trong ràng buộc giao tiếp cực hạn này, Tác tử Điều phối (chịu trách nhiệm phối hợp toàn cục và kiểm soát trạng thái), Tác tử Chiến lược (chịu trách nhiệm tạo môi trường và kịch bản bất thường phân tán) và Tác tử Sinh mã Kiểm thử (chịu trách nhiệm kiểm thử mã và đánh giá động Evaluation) đan xen hoàn hảo, cùng nhau thúc đẩy và đáp ứng kiến trúc Harness:
Vòng lặp tự động hóa khép kín kết hợp đôi kiếm: Khi Tác tử Chiến lược suy luận ra kịch bản tấn công phân tán trừu tượng, dựa trên khung tương tác được tách rời cao độ, Tác tử Sinh mã Kiểm thử có thể lập tức kích hoạt kiểm thử cơ sở. Kiến trúc này không chỉ có khả năng thích ứng môi trường mạnh mẽ, có thể vượt qua các môi trường ngôn ngữ lập trình khác nhau như Go, Rust, chuyển đổi giả thuyết tấn công thành kiểm thử đơn vị thực sự có thể chạy, mà còn tích hợp công nghệ vòng lặp phản chiếu (Reflection-Loop) hiệu quả.
Một khi kiểm thử chạy báo lỗi trong môi trường, hệ thống sẽ chính xác, thời gian thực nắm bắt ngăn xếp cuộc gọi và nhật ký thực thi, và truyền lại một cách tinh gọn cho Tác tử để tự sửa chữa có định hướng. Sự kết hợp hữu cơ này của "tương tác cực giản đa tác tử + vòng lặp khép kín Harness động" không chỉ cho phép Agora với chi phí Token cực thấp bắt chính xác các Deep Bug logic ẩn nhất, mà còn tạo ra báo cáo phân tích chi tiết với tỷ lệ báo động sai cực thấp.
Tổng quan cuối cùng khi chạy được minh họa như sau:
4. Thành quả: Khám phá 15 Deep Bug Zero-Day hàng đầu, mô hình baseline mô hình lớn thất bại toàn diện
Kết quả đánh giá gây chấn động. Nhóm nghiên cứu đã tiến hành cuộc duyệt binh toàn diện trên bốn kho giao thức đồng thuận nổi tiếng (bao gồm etcd cấp sản xuất và thành phần cơ sở của Sui - blockchain công khai mới nổi), và so sánh với các mô hình mạnh nhất thế giới như GPT-5.2, Gemini 3.0 Pro Preview, Claude Sonnet 4.5 và Qwen3 Coder.
Kết quả không chỉ giúp chính hệ thống đồng thuận mà 0G đang chạy trở nên an toàn hơn, mà còn thể hiện sự giáng cấp áp đảo:
15 Logic Deep Bug hoàn toàn mới lộ diện: Agora đã phát hiện thành công 15 lỗ hổng logic sâu cấp giao thức chưa từng được biết đến trước đây. Các lỗ hổng này trải dài qua các lĩnh vực nguy hiểm cao như phân kỳ thực thi, vi phạm tính đơn điệu, khiếm khuyết cấu trúc liên kết, lỗ hổng chữ ký.
Mô hình lớn gốc thất bại hoàn toàn: Ngược lại, các mô hình baseline (ngay cả khi được trang bị chuỗi công cụ động ReAct tiên tiến), khi đối mặt với loại lỗ hổng logic sâu này đều trắng tay (0/15). Chúng tiêu tốn lượng Token lớn, nhưng chỉ có thể quanh quẩn với các Bug triển khai mã cấp thấp.
Tỷ lệ báo động sai cực thấp và hiệu quả chi phí siêu cao: Trong tất cả các báo cáo Bug mà Agora tạo ra, tỷ lệ lỗ hổng logic thực sự chiếm tới 73.9% (tỷ lệ báo động sai chỉ 26.1%). Đáng kinh ngạc hơn, trung bình mỗi lỗ hổng logic hàng đầu khiến kiến trúc sư kỳ cựu rụng tóc chỉ cần tiêu thụ khoảng 5.32M tokens (tương đương khoảng 40 đô la), hiệu quả chi phí cực cao.
Kết quả trên nhiều LLM được thể hiện như sau:
5. Tương lai: Khả năng mở rộng cao, tiến vào nhiều "vùng cấm" cứng đầu cơ sở hơn
Thành công của Agora không chỉ là liều thuốc tăng cường mạnh mẽ cho an ninh hệ thống phân tán, mà còn chỉ ra hướng đi cho mô hình lớn triển khai vào ứng dụng công nghiệp dọc.
Đặc biệt quan trọng, thiết kế kiến trúc của Agora thể hiện tính khả chuyển và phổ quát cực cao. Nhóm nghiên cứu nhấn mạnh, Agora còn có thể nhanh chóng được người dùng rộng rãi sao chép sử dụng dưới dạng plugin hoặc skill, mã của chúng tôi (github.com/0gfoundation/agora) cung cấp các skills tương ứng để hỗ trợ sao chép. Không chỉ vậy, mô hình "mô hình lớn + hợp tác đa tác tử + dẫn dắt bằng giả thuyết" của Agora không chỉ có thể dùng cho giao thức đồng thuận. Do việc kiểm soát quy trình làm việc cơ sở và kho kiến thức lĩnh vực cấp cao, kiểm thử đã được tách rời sâu sắc. Điều này có nghĩa kiến trúc này không chỉ có thể giúp nhiều người dùng nhanh chóng sử dụng để debug giao thức đồng thuận, mà còn có thể nhanh chóng mở rộng theo cách "cắm và chạy" (Plug-and-Play) sang các lĩnh vực cứng đầu khác cũng bị hành hạ bởi "địa ngục lỗ hổng logic sâu":
Điều khiển đồng thời cơ sở dữ liệu (Concurrency Control): Dùng để kiểm thử khiếm khuyết xung đột giao dịch phức tạp trong cơ sở dữ liệu phân tán ở các cấp độ cô lập cực đoan (như Serializable).
Hạt nhân hệ điều hành / Hệ thống đồng thời: Phát hiện sâu các điều kiện deadlock và race ẩn trong hạ tầng đa luồng.
Kiểm toán hợp đồng thông minh Web3: Tiến hành thăm dò sâu biên giới an ninh cho các giao thức chuỗi chéo và logic DeFi liên quan đến mô hình kinh tế phức tạp. Thị trường an ninh blockchain dự kiến năm 2026 đã đạt quy mô khoảng 8.5 tỷ đô la, và đã xuất hiện sản phẩm thương mại sử dụng "hệ thống an ninh đa tác tử" để kiểm toán hợp đồng thông minh, nén chu kỳ kiểm toán từ vài tuần xuống vài giờ, nhu cầu thị trường đang bùng nổ.
Thời đại an ninh tự động hóa AI cho hạ tầng cơ sở cấp công nghiệp, có lẽ chính thức được mở ra bởi Agora và kiến trúc Harness của nó.
Chúng ta có lý do để tin rằng, Agora có thể thông qua việc phát hiện nhiều deep bug hơn ở các lĩnh vực khác nhau giúp kiểm thử tốt hơn năng lực của coding LLM, các trường hợp sử dụng deep bug mà nó phát hiện cũng có thể giúp coding LLM nâng cao khả năng hiểu mã.
Agora có thể nâng cao đáng kể an ninh của các kho mã là nền tảng cho giao dịch an toàn tài chính như giao thức đồng thuận, điều khiển đồng thời, hợp đồng thông minh. Và Agora cũng có thể giúp nhiều công ty công nghệ phát hiện logic bug sâu hơn, nhưng tiêu thụ ít tokens hơn, tiết kiệm tiền bạc nhưng lại hiệu quả hơn!
Quan trọng hơn, điều này vừa khớp với hai lĩnh vực nóng nhất hiện tại: một là hệ thống đa tác tử đang đi từ thử nghiệm đến sản xuất - Gartner dự đoán đến năm 2028 sẽ có hơn ba phần mềm doanh nghiệp tích hợp AI tác tử, quy mô thị trường nền tảng đa tác tử trong vài năm sẽ tăng từ mức hàng chục tỷ đô la lên hàng trăm tỷ đô la; hai là kiểm soát chất lượng bằng tác tử (Agentic Quality Control) "dùng tác tử kiểm duyệt tác tử" đang trở thành tiêu chuẩn ngành năm 2026.
Trong bối cảnh báo cáo Veracode 2025 chỉ ra khoảng 45% mã được tạo bởi AI chứa lỗ hổng an ninh, thị trường an ninh AI tác tử đang chạy với tốc độ tăng trưởng kép hàng năm khoảng 42%, Agora cho phép các công ty công nghệ với chi phí token thấp hơn đào ra Logic Bug sâu hơn, nâng cấp kiểm toán an ninh từ "công việc thủ công tính theo tuần" thành "khả năng tự động hóa giao hàng theo giờ".
Và khi bức tranh của lĩnh vực này dần trở nên rõ ràng, những người thực sự chiếm ưu thế, thường không phải là những gã khổng lồ ồn ào nhất, mà là đội ngũ sớm nhất chạy thông phương pháp luận và có thể sao chép liên tục.









