Tác giả | Nam Chỉ (@Assassin_Malvo)
Sau khi hầu hết các lĩnh vực bị phủ nhận, thị trường dự đoán đã trở thành một trong số ít lĩnh vực vẫn đang tăng trưởng tích cực trong cộng đồng Crypto. Vào ngày 20 tháng 11, Nam Chỉ bắt đầu thử nghiệm ý tưởng tìm kiếm "smart money" (tiền thông minh) trên thị trường dự đoán theo cách tìm smart money cho Meme vào năm ngoái và đã đạt được kết quả khả quan trong giai đoạn đầu.
Đầu tháng 12, đúng thời điểm Gemini 3 Pro ra mắt, khi đang thử nghiệm các mô hình liên quan, đã nảy ra ý tưởng liệu có thể sử dụng AI để phân tích và dự đoán thị trường dự đoán hay không, và để con người đối đầu với AI xem bên nào dự đoán chính xác hơn.
Khi giới thiệu về thị trường dự đoán, thường tuyên bố rằng nó thúc đẩy thị trường tiến gần hơn đến "sự thật" thông qua việc "để những người có hiểu biết sâu sắc đặt cược bằng tiền thật". Nhưng cũng có người cho rằng Crypto + thị trường dự đoán cho phép "người trong cuộc" kiếm lợi nhuận một cách an toàn từ chênh lệch thông tin, từ đó thúc đẩy thị trường phát triển theo "kết quả nội bộ". Về bản chất, đây là sự đối đầu giữa hai quan điểm "trí tuệ đám đông" và "chân lý thuộc về số ít", trong khi dự đoán bằng AI thiên về "trí tuệ đám đông" hơn, do đó cần có một lượng lớn kiến thức và hiểu biết khả dụng.
Vì vậy, trong vấn đề lựa chọn mô hình AI, ban đầu đã chọn Gemini và Grok, vì cả hai dựa vào Google và nền tảng X, có thể trực tiếp thu thập lượng lớn kiến thức và hiểu biết. Gần đây, Nam Chỉ lại bổ sung thêm sự kết hợp "Douban + kiến thức Douyin", nhưng do số lượng đề tài dự đoán còn chưa nhiều nên trong bài viết này tạm thời chưa đề cập đến.
Quy tắc cơ bản
- Phiên bản AI: Gemini 2.5 pro (tích hợp sẵn Google Tìm kiếm), Grok 4 Fast (gọi thông qua OpenRouter, kích hoạt tính năng tìm kiếm gốc)
- Lựa chọn đề tài: Con người chọn đề tài để đặt cược, AI theo sau để dự đoán, nhưng loại trừ phân khúc Crypto
- Nội dung đầu vào: Tiêu đề chính thức (title), mô tả chính thức (Description), các đáp án tùy chọn (thực chất chỉ có Có và Không)
Chú thích: Các đề tài trên Polymarket được chia thành loại lớn Event và loại con Market. Loại lớn Event là những đề tài rộng như "Ai sẽ là Chủ tịch Fed tiếp theo", "Khi nào Strategy sẽ bán Bitcoin". Dưới mỗi Event lại bao gồm N thị trường con, ví dụ như "Liệu Hassett có trở thành Chủ tịch Fed tiếp theo không", "Liệu Strategy có bán Bitcoin trước ngày 31 tháng 3 năm 2026 không". Để đồng bộ với dự đoán của con người, ở đây chọn Market làm đề tài để AI đánh giá, không cung cấp các tùy chọn khác cho nó, ví dụ chỉ yêu cầu nó đánh giá "Liệu Hassett có trở thành Chủ tịch Fed tiếp theo không", thay vì để nó chọn người có khả năng nhất từ N ứng cử viên.
- Thiết kế lời nhắc (prompt):
- Yêu cầu AI tìm kiếm tin tức mới nhất, thông báo chính thức, báo cáo phân tích của chuyên gia
- Yêu cầu loại bỏ, cấm sử dụng dữ liệu thị trường dự đoán
- Đưa ra phán đoán dựa trên "bằng chứng" và vận dụng suy luận logic
- Chỉ được phép đầu ra là Có hoặc Không, và giải thích logic suy luận bằng một đoạn văn
Kết quả hiện tại
Trong số các đề tài dự đoán, đã quyết toán 21 đề, Grok có tỷ lệ thắng cao nhất là 75%, con người là 66.7%, và Gemini thấp nhất là 52.4%. Kết quả hiện tại có thể xem trên trang web liên quan.
AI đã mắc lỗi gì?
Gemini đôi khi nhầm lẫn thời gian hiện tại
Trong đề tài "Will Trump's approval rating hit 35% in 2025?" (Tỷ lệ ủng hộ của Trump có đạt 35% trong năm 2025?), Gemini cho biết hiện tại là nửa đầu năm 2025, nên mọi thứ đều có thể xảy ra, và đã đưa ra câu trả lời bừa bãi.
Nhưng khi tác giả sử dụng chương trình yêu cầu Gemini trực tiếp xuất thời gian hiện tại, Gemini có thể đưa ra câu trả lời đúng, hiện vẫn chưa rõ tại sao lại xảy ra nhận thức sai lệch về thời gian như vậy.
Độ sâu suy nghĩ của AI chưa đủ
Trong đề tài "Gemini 3.0 Flash released by December 16?" (Gemini 3.0 Flash có được phát hành trước ngày 16 tháng 12?), Grok dựa vào "gần đây bên chính thức chỉ đề cập đến Gemini 3 Pro và các phiên bản liên quan 2.5, rất ít đề cập đến 3 Flash, do đó bằng chứng không đủ để đưa ra phán đoán", chỉ xem xét thông tin tại thời điểm đó.
Trong khi Gemini chỉ ra "Gemini 1.0 được phát hành vào tháng 12 năm 2023, và phiên bản thử nghiệm Gemini 2.0 Flash ra mắt vào tháng 12 năm 2024. Theo mô hình này, việc ra mắt phiên bản 3.0 vào cuối năm 2025 là hợp lý", và đã phát hiện "một bản demo bị rò rỉ về 'Gemini 3.0 Flash' đang lan truyền trong cộng đồng mạng gần đây (ngày 14 tháng 12 năm 2025), càng làm tăng khả năng nó sắp được công bố rộng rãi".
Mặc dù xét về kết luận, câu trả lời của Gemini lại là sai, nhưng trong đề tài này có thể thấy rõ phạm vi tài liệu mà hai bên dựa vào có sự chênh lệch rõ rệt.
AI dựa vào kiến thức phổ thông thay vì dựa trên bằng chứng + logic để suy luận
Trong đề tài "Trump approval Up or Down this week?" (Tỷ lệ ủng hộ Trump tuần này tăng hay giảm?), Gemini cho biết "việc dự đoán tỷ lệ ủng hộ trong một tuần duy nhất sau hơn một năm là rất không chắc chắn", trước tiên lại xuất hiện tình trạng "nhầm lẫn thời gian". Sau đó Gemini nói "trong bất kỳ tuần bình thường nào, xác suất xảy ra sự kiện dẫn đến tỷ lệ ủng hộ giảm nhẹ có thể cao hơn một chút so với xác suất xảy ra sự kiện tích cực có thể nâng cao đáng kể tỷ lệ ủng hộ", vì vậy khả năng tỷ lệ ủng hộ giảm cao hơn, kết luận được đưa ra chỉ dựa trên giả định chủ quan theo kiến thức phổ thông.
Trong khi ở đề tài này, Grok dựa vào các báo cáo tin tức và dữ liệu thăm dò dư luận về "chính phủ đóng cửa, lo ngại về kinh tế, tranh cãi về chính sách nhập cư và tác động tiêu cực từ những bình luận về cái chết của Rob Reiner", phù hợp với thiết kế dự kiến.
Đánh giá sai điều kiện quyết toán
Trong đề tài "Will Trump release the Epstein files by December 20?" (Trump có công bố hồ sơ Epstein trước ngày 20 tháng 12?), cả Gemini và Grok đều đã biết "chính phủ sẽ công bố 'hàng trăm nghìn trang' tài liệu vào thứ Sáu (ngày 19 tháng 12)", trong khi điều kiện quyết toán nêu rõ "chính phủ công khai phát hành bất kỳ tài liệu nào liên quan đến hoạt động bất hợp pháp của Epstein và chưa được công bố trước ngày liệt kê, sẽ được đánh giá là Có".
Tuy nhiên, trong điều kiện này, Gemini cho biết "việc hoàn thành công bố 'tất cả' tài liệu trước ngày 20 tháng 12 là không thể", rõ ràng đã đánh giá sai điều kiện cần thiết để quyết toán, do đó đưa ra câu trả lời sai.
Tóm tắt
Tóm lại, tỷ lệ dự đoán chính xác của Grok đã vượt qua những smart money kiếm được hàng trăm nghìn, hàng triệu USD trên thị trường dự đoán này, nhưng đi sâu tìm hiểu logic dự đoán của nó, vẫn còn rất nhiều điểm có thể hướng dẫn và sửa chữa.








