Lời biên tập: Khi AI agent bắt đầu có khả năng thực hiện nhiệm vụ, gọi API và tham gia vào hoạt động kinh tế, một vấn đề mới nảy sinh: Trong môi trường có kích thích thực tế, chúng sẽ hành xử như thế nào?
Bài viết này ghi lại một thí nghiệm của đội ngũ Circle. Họ đã tổ chức một cuộc thi hack USDC trên nền tảng mạng xã hội Moltbook - nơi chỉ cho phép agent AI đăng bài, để các agent Openclaw tự gửi dự án, thảo luận và bỏ phiếu. Kết quả vừa thú vị, vừa phức tạp: agent không chỉ có thể tạo ra các dự án thực tế, tham gia thảo luận kỹ thuật, mà còn hoạt động ở mép ranh giới của luật lệ. Ví dụ, hiểu sai chỉ dẫn, bỏ qua định dạng, bình chọn cho nhau, thậm chí xuất hiện hành vi nghi ngờ "thông đồng".
Thí nghiệm này cung cấp một cửa sổ quan sát hiếm có cho "nền kinh tế agent": khi AI vừa là người tham gia vừa là người ra quyết định, sự hợp tác, cạnh tranh và hành vi chiến lược thường xuất hiện đồng thời. Ở một mức độ nào đó, những hiện tượng này không khác biệt về bản chất so với cơ chế thị trường và bầu cử trong xã hội loài người.
Thí nghiệm này nhanh chóng thu hút sự thảo luận rộng rãi trong cộng đồng. Nhiều người cho rằng, đây là một xác minh thú vị về khả năng tự trị của nền kinh tế agent. Một số nhà bình luận chỉ ra rằng, hệ thống agent vẫn cần các rào chắn an toàn rõ ràng hơn để tránh xuất hiện sai lệch "tự hợp lý hóa"; cũng có người cho rằng, khi agent dần dần bước vào hoạt động kinh tế thực tế, điểm nghẽn thực sự trong tương lai có thể nằm ở hệ thống thanh toán và giải ngân tuân thủ. Như một bình luận đã nói: "Nền kinh tế agent rất mạnh mẽ, nhưng cũng cần những rào chắn rõ ràng."
Dưới đây là nguyên văn:
Đón nhận Claw
Tại Circle, chúng tôi luôn thích tổ chức các cuộc thi hack. Dù là tại hiện trường các hội nghị lớn, hay khi sản phẩm mới ra mắt lần đầu, chúng tôi đều hy vọng trao những công cụ tốt nhất vào tay các nhà phát triển — hoặc trong lần này, vào tay Claw.
Sau khi chứng kiến sự tăng trưởng bùng nổ của framework AI dạng agent Openclaw, chúng tôi quyết định tổ chức một cuộc thi hack chỉ cho phép agent AI tham gia.
Phần mềm nổi tiếng nhanh chóng này có thể để agent tự gửi email, gọi API, thậm chí điều khiển bộ điều nhiệt của bạn... nhưng liệu chúng có thể tự gửi dự án không? Circle muốn dùng một thí nghiệm thực tế để kiểm tra những "AI thực sự có thể làm việc" này.
Câu hỏi của chúng tôi rất đơn giản: Nếu giải thưởng là 30.000 đô la, agent Openclaw sẽ hành động như thế nào? Câu trả lời đáng ngạc nhiên là "giống con người".
Chúng tôi đã tổ chức một cuộc thi hack USDC trên cộng đồng con m/usdc của Moltbook. Moltbook là một nền tảng truyền thông xã hội chỉ cho phép agent AI đăng bài. Mục tiêu của chúng tôi là để agent tự hoàn thành toàn bộ quy trình: gửi dự án, bỏ phiếu và cuối cùng chọn ra người chiến thắng. Mặc dù nhiều agent tuân thủ luật lệ, nhưng thí nghiệm cũng phát hiện, một số agent bỏ qua quy định cuộc thi, tham gia bình chọn cho nhau, thậm chí thử gửi token cho agent cuộc thi hack.
Thiết kế luật lệ cho "hack agent"
Các agent có năm ngày để gửi dự án của mình. Để giúp chúng hoàn thành nhiệm vụ, chúng tôi đã tạo ra một Kỹ năng USDC Hackathon, một tệp hướng dẫn viết bằng Markdown, dùng để dạy agent Openclaw cách gửi dự án theo quy tắc. Những quy tắc này cũng được đăng đồng thời trong bài thông báo gốc về cuộc thi hack:
Chọn một trong ba track: Agentic Commerce, Smart Contract hoặc Skill.
Bỏ phiếu cho năm dự án khác nhau, và việc bỏ phiếu phải được thực hiện ít nhất một ngày sau khi cuộc thi hack bắt đầu.
Việc gửi dự án và bỏ phiếu đều phải tuân theo định dạng quy định.
Việc thiết lập các quy tắc này chủ yếu xuất phát từ ba cân nhắc: Thứ nhất, đảm bảo agent sẽ thảo luận và đánh giá nhiều dự án hơn; thứ hai, quan sát xem agent có thể chính xác tuân theo chỉ dẫn khi cần thực hiện nhiệm vụ nhiều bước hay không; thứ ba, tránh bế tắc giữa việc gửi dự án và bỏ phiếu.
Một điểm chúng tôi đặc biệt muốn quan sát là: Liệu agent có kiểm tra lặp lại các dự án mới trên Moltbook để bỏ phiếu hay không, ví dụ thông qua kỹ năng tương tự như Moltbook Heartbeat để định kỳ làm mới.
Kết quả nửa vời. Các agent thảo luận xung quanh 204 dự án được gửi lên và bỏ tổng cộng 1851 phiếu, nhưng nhiều agent không tuân thủ hướng dẫn cuộc thi. Ngoài ra, một số agent còn thể hiện hành vi đối kháng tiềm ẩn, điều này cũng mang lại không ít phát hiện thú vị.
Gửi dự án kiểu "ảo giác" (Hallucination)
Mặc dù chúng tôi đã cung cấp quy tắc cuộc thi hack và kỹ năng gửi bài rõ ràng, hầu hết các bài đăng vẫn không hoàn toàn tuân theo định dạng yêu cầu. Nhiều dự án viết tiêu đề trong phần thân bài, nhưng lại không bao gồm các thẻ quy định "#USDCHackathon ProjectSubmission [TRACK]".
Thậm chí trong một trường hợp, một agent biết cần phải viết những thông tin này, nhưng lại không đặt nó vào tiêu đề.
Ngay cả khi về các mặt khác đã cơ bản đáp ứng yêu cầu, một số agent vẫn "ảo giác" tạo ra các track hackathon mới. Điều này xảy ra trong khi chúng được thông báo rõ ràng là chỉ được chọn một trong ba danh mục: Agentic Commerce, Smart Contract hoặc Skill.
Trong những trường hợp này, agent thường tự tạo ra một tên track trông "sát hơn" dựa trên nội dung dự án. Điều này có thể có nghĩa là agent đang cố gắng tìm một phân loại hợp lý hơn cho dự án của mình, hoặc cũng có thể chỉ đơn thuần là bỏ qua các quy tắc đã định. Dù nguyên nhân là gì, vấn đề nằm ở chỗ, bản thân những track này không hề tồn tại.
Khi cuộc thi tiến triển, so với các bài gửi hợp lệ, số lượng bài gửi không đúng quy định và bài đăng lạc đề dần tăng lên. Theo quy tắc cuộc thi, việc agent đăng những nội dung không hợp lệ này thực ra không có bất kỳ động lực rõ ràng nào. Do đó, khả năng cao hơn là một số agent gặp khó khăn trong việc hiểu hoặc thực thi chỉ dẫn.
Tuy nhiên, xét đến việc vẫn có một số lượng đáng kể agent thành công gửi dự án theo yêu cầu, chúng tôi cho rằng bản thân các quy tắc này thực ra đã tương đối rõ ràng.
"Bầu cử" của agent
Dù vậy, chúng tôi vẫn quan sát thấy 9712 bình luận, trong đó nhiều bình luận xoay quanh thảo luận về chức năng kỹ thuật của dự án, nhưng lại không tiến hành bỏ phiếu. Phần lớn những bình luận này thậm chí không tuân theo định dạng bình luận và tiêu chuẩn chấm điểm được đề xuất, mặc dù những quy tắc này không được ép buộc thực thi trong kỹ năng (skill). Điều này cũng cho thấy, agent tham gia thảo luận cuộc thi hack không chỉ để đáp ứng yêu cầu cuộc thi, mà ở một mức độ nào đó cũng đang tiến hành đánh giá và trao đổi kỹ thuật thực sự.
Đến khi kết thúc cuộc thi, chúng tôi thống kê được 1352 phiếu bầu duy nhất cho các dự án hợp lệ, và 499 phiếu bầu duy nhất cho các dự án không hợp lệ. Điều thú vị là, nhiều agent của các dự án xếp hạng cao khi gửi dự án đều tuân thủ quy tắc, nhưng lại không thực hiện yêu cầu bỏ phiếu cho năm dự án khác nhau.
Tình huống này thậm chí xảy ra ở một số agent vừa bỏ phiếu cho chính mình, vừa bỏ nhiều phiếu cho cùng một dự án. Điều này cho thấy chúng hoàn toàn có khả năng xem lại nội dung trên Moltbook để bỏ phiếu sau lần gửi đầu tiên — chỉ là chọn không tuân theo các quy tắc đã định.
Ngoài ra, một số agent còn bắt đầu quảng bá cho các dự án khác. Hành vi này xuất hiện cả trong phần bình luận của các dự án cạnh tranh, lẫn trong các bài đăng độc lập trên Moltbook. Đi xa hơn, một số agent thậm chí bắt đầu quảng bá cơ chế "bình chọn qua lại": nếu bạn bỏ phiếu cho dự án của tôi, tôi sẽ bỏ phiếu cho dự án của bạn.
Mặc dù quy tắc cuộc thi không cấm hành vi này, nhưng xét đến lượng tương tác lớn giữa các agent trong những bài đăng này, hiện tượng này vẫn đáng cảnh giác.
Khả năng can thiệp của con người
Bài đăng bình chọn qua lại này có thể ngụ ý khả năng có sự tham gia của con người hoặc thao túng từ bên ngoài. Chúng tôi đã thử tạo bình luận tương tự thông qua giao diện chatbot, kết quả phát hiện một số model (ví dụ Claude Sonnet 4.6) sẽ trực tiếp từ chối tạo nội dung như vậy; trong khi một số model khác thì khi tạo sẽ đính kèm cảnh báo, nhắc nhở rằng hành vi này có thể vi phạm quy định cuộc thi (ví dụ GPT-5.2 Thinking). Nếu có con người đứng sau thao tác một tài khoản "agent" nào đó, hoặc thông qua prompt, toolchain để dẫn dắt agent, thì có thể giải thích tại sao trong thời gian cuộc thi hack lại xuất hiện bài đăng như vậy.
Mặc dù Moltbook được thiết kế với mục đích ban đầu là chỉ dành cho agent AI (đăng ký cần xác minh thông qua tài khoản X), nhưng các nhà nghiên cứu khác phát hiện, việc mạo danh danh tính vẫn có thể xảy ra. Chúng tôi cũng quan sát thấy một số ví dụ nghi ngờ có hoạt động của con người, chẳng hạn như trong bài đăng thông báo cuộc thi hack ban đầu.
Một trường hợp điển hình là: bình luận có số lượt thích cao nhất, lại là phần mở đầu kịch bản phim Bee Movie (2007). Đoạn văn bản này là một copypasta (đoạn văn bản cố định được sao chép và lan truyền rộng rãi) phổ biến trên internet, và do nội dung hoàn toàn không liên quan đến thảo luận, rất có thể là do con người đăng. Nếu hành vi này phổ biến trong thời gian cuộc thi hack, thì một số hành vi đối kháng — ví dụ như bình chọn qua lại hoặc tự bỏ phiếu cho mình — cũng có thể được giải thích từ đây.
Tương lai tài chính agent
Mặc dù bản thân cuộc thi hack này chỉ là một thí nghiệm, nhưng chúng tôi cũng tin rằng, đây sẽ là lần đầu tiên trong số nhiều hoạt động phát triển hướng đến agent. Xét về kết quả, chúng tôi rút ra ba kết luận chính: Agent có thể tạo ra các dự án thực tế dưới kích thích tài chính
Trong cuộc thi hack lần này đã xuất hiện một số dự án thú vị, bạn có thể tìm hiểu thêm tại đây. Mặc dù cuộc thi không đưa vào đánh giá nhân tạo, nhưng chất lượng của một số bài gửi vẫn gây ấn tượng mạnh với chúng tôi. Điều này cho thấy, phát triển dạng agent trong một năm qua đã có tiến bộ đáng kể.
Agent sẽ "hợp lý hóa" chỉ dẫn, thay vì thực thi nghiêm ngặt
Agent liên tục gặp vấn đề khi tuân theo các quy tắc chúng tôi cung cấp. Nhiều agent chỉ thực thi một phần chỉ dẫn. Thậm chí một số dự án chất lượng cao, nếu hoàn toàn tuân thủ quy tắc, vốn có thể giành chiến thắng. Điều này cho thấy, chỉ cung cấp chỉ dẫn dạng agent là chưa đủ, quy tắc không chỉ cần rõ ràng, mà còn cần cơ chế kiểm tra và biện pháp khích lệ đi kèm để đảm bảo thực thi.
Agent vừa hợp tác, vừa cạnh tranh
Mặc dù sự can thiệp của con người có thể đã phát huy tác dụng trong một số tình huống, nhưng chúng tôi thực sự quan sát thấy agent chủ động thảo luận chiến lược thông đồng trong thời gian cuộc thi hack. Những người tổ chức trong tương lai có thể cấm rõ ràng việc thông đồng trong quy tắc, để quan sát xem liệu có thể giảm bớt hành vi như vậy hay không. Nếu agent vẫn không thể hoàn toàn tuân theo chỉ dẫn, người tổ chức có thể cần đưa vào nhiều rào chắn an toàn (guardrails) hơn.
Công nghệ agent rất thú vị, nhưng chúng ta cũng phải đảm bảo nó không đi từ sự khám phá (exploration) chúng ta kỳ vọng sang lợi dụng và thao túng (exploitation). Có người có thể cho rằng, những hành vi này chỉ là kết quả tự nhiên của việc agent mạnh hơn đánh bại agent yếu hơn — xét cho cùng, tài khoản X của Openclaw từng tuyên bố: "Claw là Luật (the Claw is the Law)."
Câu hỏi thực sự là: Chúng ta thực sự sẵn sàng chấp nhận triết lý này ở mức độ nào? Cần những hào rào (moat) như thế nào? Và làm thế nào để cân bằng giữa năng lực khổng lồ mà agent mang lại và sự không chắc chắn đi kèm theo nó?
Tại Circle, chúng tôi đang xây dựng hệ thống vì sự an toàn, và cũng hy vọng các bạn làm như vậy.














