Trong hai năm qua, các doanh nghiệp đã đẩy nhanh việc đưa các tác nhân AI vào quy trình làm việc thực tế: từ dịch vụ khách hàng, vận hành hậu cần, đến các quy trình ra quyết định cường độ cao như tài chính và tuân thủ. Khi các hệ thống này ngày càng được tích hợp vào hoạt động kinh doanh thực tế, một vấn đề mới đang nổi lên: tác nhân có thể truy xuất thông tin, nhưng khi công việc trở nên 'phức tạp', nhiều bước hoặc rủi ro cao, chúng thường khó đưa ra quá trình lập luận ổn định, có thể giải thích và tái tạo được.
Hôm nay, phòng thí nghiệm AI mã nguồn mở Sentient chính thức ra mắt Arena - một môi trường thời gian thực, sẵn sàng cho sản xuất, dành cho hàng nghìn nhà phát triển AI toàn cầu, để thử nghiệm áp lực và lặp lại theo hình thức thi đấu trên các vấn đề lập luận khó nhất của doanh nghiệp. Đội hình tham gia đầu tiên trong giai đoạn khởi đầu của Arena bao gồm Founders Fund, Pantera, và Franklin Templeton (Quản lý tài sản quy mô hơn 1,5 nghìn tỷ USD) - đây cũng là tín hiệu cho thấy các tổ chức đang có sự quan tâm rõ ràng và sớm đối với việc 'đánh giá có cấu trúc các tác nhân AI trước khi triển khai'.
"Khi doanh nghiệp áp dụng tác nhân AI vào nghiên cứu, vận hành và quy trình công việc hướng đến khách hàng, vấn đề không còn là liệu các hệ thống này có đủ mạnh hay không... mà là chúng có đáng tin cậy trong quy trình làm việc thực tế hay không," Julian Love, Đối tác Quản lý tại Franklin Templeton Digital Assets (Tài sản Kỹ thuật số Franklin Templeton) cho biết. Love nói thêm rằng, một môi trường có cấu trúc như Arena sẽ giúp ngành công nghiệp phân biệt giữa 'ý tưởng tiềm năng' và 'khả năng thực sự có thể áp dụng vào sản xuất'.
Himanshu Tyagi, Đồng sáng lập Sentient, cho biết: "Tác nhân AI trong nội bộ doanh nghiệp không còn là thử nghiệm; chúng đang bước vào các quy trình then chốt liên quan đến khách hàng, tiền bạc và kết quả vận hành. Sự thay đổi này làm thay đổi tiêu chí đánh giá. Hệ thống trông ấn tượng trong bản demo là chưa đủ. Doanh nghiệp cần biết: trong môi trường sản xuất, khi cái giá của thất bại rất cao và sự tin tưởng lại rất mong manh, liệu tác nhân có còn lập luận ổn định được không. Doanh nghiệp cần tính so sánh, tính lặp lại và một phương pháp không phụ thuộc vào mô hình nền tảng hoặc chồng công cụ, có thể theo dõi lâu dài sự cải thiện độ tin cậy."
Arena mô phỏng sự hỗn độn thực tế của quy trình làm việc doanh nghiệp: thông tin không đầy đủ, ngữ cảnh dài, hướng dẫn mơ hồ, các nguồn mâu thuẫn nhau. Arena không chỉ đánh giá liệu tác nhân có đưa ra 'câu trả lời đúng' hay không, mà còn ghi lại toàn bộ dấu vết lập luận (reasoning trace), để các nhóm kỹ sư xác định nguyên nhân thất bại và xác minh lâu dài xem các cải tiến có hiệu quả hay không.
Điều này cung cấp một điểm chuẩn trung lập, không phụ thuộc nhà cung cấp (vendor-agnostic benchmark) cho việc đánh giá lập luận xuyên mô hình, xuyên chồng công nghệ. Arena nhấn mạnh hiệu suất cấp sản xuất thay vì hiệu suất Demo, từ đó hình thành năng lực tác nhân có thể xác minh, phù hợp với các kịch bản rủi ro cao, và doanh nghiệp cũng có thể di chuyển các năng lực này sang dữ liệu riêng và công cụ nội bộ của mình.
Trong thử thách đầu tiên, các nhà phát triển tham gia Arena sẽ tập trung vào một vấn đề cơ bản cấp doanh nghiệp: lập luận tài liệu (document reasoning). Tác nhân AI cần lập luận và tính toán trên dữ liệu phi cấu trúc phức tạp - loại công việc này là nền tảng cho các kịch bản như phân tích tài chính, điều tra nguyên nhân gốc rễ, soạn thảo bản ghi nhớ đầu tư, dịch vụ khách hàng.
Các bên tham gia khác trong giai đoạn đầu bao gồm alphaXiv, Fireworks, OpenHands, OpenRouter; khi Arena mở rộng về nhiệm vụ, ngành và tích hợp mô hình, dự kiến sẽ có thêm nhiều người tham gia.
Khảo sát gần đây cũng làm nổi bật khoảng trống mà Arena đang cố gắng giải quyết: 85% doanh nghiệp cho biết họ muốn trở thành 'doanh nghiệp tác nhân (agentic enterprises)', gần ba phần tư có kế hoạch triển khai tác nhân tự trị, nhưng chưa đến một phần tư thực sự sở hữu hệ thống quản trị trưởng thành; nhiều doanh nghiệp khó mở rộng quy mô thí điểm lên triển khai sản xuất lớn. Doanh nghiệp trung bình đang chạy khoảng hơn chục tác nhân, thường nằm rải rác trong các kịch bản biệt lập; không ít doanh nghiệp cho rằng, nếu không có khả năng điều phối và phối hợp tốt hơn, việc tiếp tục thêm tác nhân sẽ chỉ làm tăng độ phức tạp, trong khi giá trị lại giảm.
"Tại OpenHands, chúng tôi luôn sẵn sàng hỗ trợ các nhà phát triển sử dụng tác nhân để giải quyết các vấn đề thực tế, thiết thực," Graham Neubig, Nhà khoa học Kiêm trưởng kiêm Đồng sáng lập OpenHands cho biết. "Chúng tôi cũng rất vui mừng hỗ trợ những người tham gia sử dụng OpenHands Software Agent SDK để ứng phó với những thách thức phức tạp này."
Alex Atallah, Đồng sáng lập kiêm CEO OpenRouter, cho biết: "Arena chính là loại dự án có thể thúc đẩy AI mã nguồn mở tiến lên phía trước - nó cho phép các nhà nghiên cứu cạnh tranh, lặp lại và đổi mới trong môi trường công khai. Chúng tôi rất mong đợi được hợp tác sâu hơn với Sentient và cung cấp cơ sở hạ tầng, để các thí nghiệm diễn ra nhanh hơn, dễ dàng mở rộng quy mô hơn."
Arena sẽ ra mắt toàn cầu, mời hàng nghìn nhà phát triển AI đăng ký tham gia nhóm giới hạn đầu tiên, và sẽ tổ chức sự kiện trực tiếp tại San Francisco từ tháng 3 năm 2026.
Ghi chú (Notes To Editor):
-
Julian Love, Đối tác Quản lý tại Franklin Templeton Digital Assets, cho biết: "Khi doanh nghiệp áp dụng tác nhân AI vào nghiên cứu, vận hành và quy trình công việc của khách hàng, vấn đề không còn là liệu các hệ thống này có mạnh mẽ hay không, hoặc liệu chúng có thể tạo ra một câu trả lời hay không, mà là chúng có đáng tin cậy trong quy trình làm việc thực tế hay không. Một môi trường sandbox như Arena, nơi tác nhân được thử nghiệm trong quy trình làm việc thực tế, phức tạp và quá trình lập luận của chúng có thể được kiểm tra, sẽ giúp hệ sinh thái phân biệt ý tưởng triển vọng với khả năng có thể triển khai sản xuất, đồng thời nâng cao sự tin tưởng về cách công nghệ này được tích hợp và mở rộng quy mô."
-
Alex Atallah, Đồng sáng lập kiêm CEO OpenRouter, cho biết: "Arena chính là loại dự án thúc đẩy AI mã nguồn mở tiến lên phía trước - nó cho phép các nhà nghiên cứu cạnh tranh, lặp lại, đổi mới trong không gian công khai. Chúng tôi rất mong đợi được hợp tác sâu hơn với Sentient và cung cấp cơ sở hạ tầng, để các thí nghiệm diễn ra nhanh hơn, dễ dàng mở rộng quy mô hơn!"
-
Graham Neubig, Nhà khoa học Kiêm trưởng kiêm Đồng sáng lập OpenHands, cho biết: "Tại OpenHands, chúng tôi luôn sẵn sàng hỗ trợ các nhà phát triển sử dụng tác nhân để giải quyết các vấn đề thực tế, thiết thực. Chúng tôi cũng rất vui mừng hỗ trợ những người tham gia sử dụng OpenHands Software Agent SDK để ứng phó với những thách thức phức tạp này."
Về Sentient Labs
Sentient Labs là một tổ chức nghiên cứu công nghệ và sản phẩm hàng đầu, cam kết thúc đẩy sự phát triển của AI mã nguồn mở. Là động cơ đổi mới thuộc Sentient Foundation, Sentient Labs tiến hành nghiên cứu tiên phong về các hướng như lập luận AI, sự liên kết (alignment) và hợp tác tác nhân thông minh. Sentient là đơn vị phát triển cốt lõi của các framework hiệu suất cao như ROMA và các mô hình mã nguồn mở như Dobby. Sứ mệnh của Sentient là đưa AI mã nguồn mở từ 'thử nghiệm' trở thành 'tất yếu'. Bằng cách cung cấp cơ sở hạ tầng để xây dựng các hệ thống tác nhân mạnh mẽ, có thể kết hợp, Sentient cho phép các nhà phát triển thương mại hóa các công cụ mã nguồn mở và đạt được khả năng sử dụng cấp doanh nghiệp. Sentient cam kết thúc đẩy mã nguồn mở trở thành tiêu chuẩn mặc định cho vận hành AI nhiệm vụ quan trọng toàn cầu.
