Bài gốc | Odaily Planet Daily (@OdailyChina)
Tác giả | Nam Chỉ (@Assassin_Malvo)
Sau khi hầu hết các lĩnh vực bị chứng minh là không khả thi, thị trường dự đoán trở thành một trong số ít lĩnh vực vẫn đang tăng trưởng tích cực trong cộng đồng Crypto. Vào ngày 20 tháng 11, Nam Chỉ bắt đầu thử nghiệm ý tưởng tìm kiếm dòng tiền thông minh (smart money) trên thị trường dự đoán, dựa trên cách tiếp cận tìm kiếm smart money cho Meme từ năm ngoái, và đã đạt được kết quả khả quan trong giai đoạn đầu.
Đầu tháng 12, nhân dịp Gemini 3 Pro ra mắt, khi đang thử nghiệm các mô hình liên quan, chúng tôi nảy ra ý tưởng liệu có thể sử dụng AI để phân tích và dự đoán thị trường dự đoán hay không, và so sánh độ chính xác giữa dự đoán của con người và AI.
Khi giới thiệu về thị trường dự đoán, người ta thường tuyên bố rằng nó thúc đẩy thị trường tiến gần hơn đến "sự thật" thông qua việc "để những người có hiểu biết đặt cược bằng tiền thật". Tuy nhiên, cũng có ý kiến cho rằng Crypto + thị trường dự đoán cho phép "người trong cuộc" an toàn kiếm lợi nhuận từ chênh lệch thông tin, từ đó thúc đẩy thị trường phát triển theo "kết quả nội bộ". Về bản chất, đây là sự đối đầu giữa hai quan điểm "trí tuệ đám đông" và "chân lý thuộc về số ít", trong đó dự đoán bằng AI thiên về "trí tuệ đám đông" hơn, do đó cần có một lượng lớn kiến thức và hiểu biết khả dụng.
Vì vậy, trong vấn đề lựa chọn mô hình AI, ban đầu chúng tôi đã chọn Gemini và Grok, vì cả hai dựa vào nền tảng Google và X, có thể trực tiếp thu thập lượng lớn kiến thức và hiểu biết. Gần đây, Nam Chỉ lại bổ sung thêm tổ hợp "Doubao + kiến thức Douyin", nhưng do số lượng câu hỏi dự đoán còn ít nên trong bài viết này tạm thời chưa đề cập đến.
Quy tắc cơ bản
- Phiên bản AI: Gemini 2.5 pro (tích hợp tìm kiếm Google), Grok 4 Fast (được gọi thông qua OpenRouter, kích hoạt chức năng tìm kiếm gốc)
- Lựa chọn câu hỏi: Con người chọn câu hỏi để đặt cược, AI làm theo để dự đoán, nhưng loại trừ các chủ đề thuộc lĩnh vực Crypto
- Nội dung đầu vào: Tiêu đề chính thức (title), mô tả chính thức (Description), các câu trả lời khả dụng (thực chất chỉ có Có và Không)
Chú thích: Các câu hỏi trên Polymarket được chia thành loại lớn Event và loại con Market. Loại lớn Event là những câu hỏi phạm vi rộng như "Ai là Chủ tịch Fed tiếp theo?" hay "Khi nào Strategy sẽ bán Bitcoin?". Dưới mỗi Event lại bao gồm N thị trường con, chẳng hạn như "Liệu Hassett có trở thành Chủ tịch Fed tiếp theo không?" hay "Strategy sẽ bán Bitcoin trước ngày 31 tháng 3 năm 2026 không?". Để đồng bộ với dự đoán của con người, ở đây chúng tôi chọn Market làm câu hỏi để AI đánh giá, không cung cấp các tùy chọn khác cho nó. Ví dụ, chỉ yêu cầu nó đánh giá "Liệu Hassett có trở thành Chủ tịch Fed tiếp theo không?", thay vì yêu cầu nó chọn ra người có khả năng nhất từ N ứng viên.
- Thiết kế lời nhắc (Prompt):
- Yêu cầu AI tìm kiếm tin tức mới nhất, thông báo chính thức, báo cáo phân tích của chuyên gia
- Yêu cầu loại bỏ, cấm sử dụng dữ liệu từ thị trường dự đoán
- Đưa ra phán đoán dựa trên "bằng chứng" và sử dụng suy luận logic
- Chỉ được phép đầu ra là Có hoặc Không, và giải thích logic suy luận trong một đoạn văn
Kết quả hiện tại
Trong số các câu hỏi dự đoán, 21 câu đã được quyết toán. Grok có tỷ lệ thắng cao nhất là 75%, con người là 66.7%, và Gemini thấp nhất là 52.4%. Kết quả hiện tại có thể xem trên trang web liên quan.
AI đã mắc lỗi gì?
Gemini đôi khi nhầm lẫn thời gian hiện tại
Trong câu hỏi "Will Trump's approval rating hit 35% in 2025?" (Tỷ lệ ủng hộ của Trump có đạt 35% trong năm 2025?), Gemini cho biết hiện là nửa đầu năm 2025, nên mọi thứ đều có thể xảy ra, và đã đưa ra câu trả lời một cách tùy tiện.
Tuy nhiên, khi tác giả sử dụng chương trình yêu cầu Gemini trực tiếp xuất thời gian hiện tại, Gemini có thể đưa ra câu trả lời chính xác. Hiện vẫn chưa rõ tại sao lại xảy ra lỗi nhận thức thời gian như vậy.
Độ sâu suy nghĩ của AI chưa đủ
Trong câu hỏi "Gemini 3.0 Flash released by December 16?" (Gemini 3.0 Flash có được phát hành trước ngày 16 tháng 12?), Grok dựa trên thông tin "Gần đây, bên chính thức chỉ đề cập đến Gemini 3 Pro và các phiên bản liên quan 2.5, rất ít đề cập đến 3 Flash, do đó không đủ bằng chứng để đưa ra phán đoán", chỉ xem xét thông tin tại thời điểm đó.
Trong khi đó, Gemini chỉ ra rằng "Gemini 1.0 được phát hành vào tháng 12 năm 2023, và phiên bản thử nghiệm Gemini 2.0 Flash ra mắt vào tháng 12 năm 2024. Theo mô hình này, việc ra mắt phiên bản 3.0 vào cuối năm 2025 là hợp lý", và đã phát hiện ra "một bản demo bị rò rỉ về 'Gemini 3.0 Flash' đang được lan truyền trong cộng đồng mạng (vào ngày 14 tháng 12 năm 2025), làm tăng khả năng nó sắp được công bố rộng rãi".
Mặc dù xét về kết luận, câu trả lời của Gemini lại là sai, nhưng trong câu hỏi này có thể thấy rõ sự chênh lệch về phạm vi tài liệu mà hai bên dựa vào.
AI dựa trên kiến thức phổ thông thay vì dựa trên bằng chứng + logic để suy luận
Trong câu hỏi "Trump approval Up or Down this week?" (Tỷ lệ ủng hộ Trump tuần này tăng hay giảm?), Gemini cho biết "Việc dự đoán tỷ lệ ủng hộ trong một tuần duy nhất sau hơn một năm nữa là rất không chắc chắn", trước tiên lại xuất hiện tình trạng "nhầm lẫn thời gian". Sau đó, Gemini nói "Trong bất kỳ tuần bình thường nào, khả năng xảy ra sự kiện dẫn đến việc giảm nhẹ tỷ lệ ủng hộ có thể cao hơn một chút so với khả năng xảy ra sự kiện tích cực có thể nâng cao đáng kể tỷ lệ ủng hộ", vì vậy khả năng tỷ lệ ủng hộ giảm là lớn hơn. Kết luận được tạo ra chỉ dựa trên giả định chủ quan theo kiến thức phổ thông.
Trong khi đó, ở câu hỏi này, Grok dựa trên các báo cáo tin tức và dữ liệu thăm dò về "việc đóng cửa chính phủ, lo ngại về kinh tế, tranh cãi về chính sách nhập cư và tác động tiêu cực từ những bình luận về cái chết của Rob Reiner", phù hợp với thiết kế dự kiến.
Đánh giá sai điều kiện quyết toán
Trong câu hỏi "Will Trump release the Epstein files by December 20?" (Trump có công bố hồ sơ Epstein trước ngày 20 tháng 12?), cả Gemini và Grok đều đã biết "chính phủ sẽ công bố 'hàng trăm nghìn trang' tài liệu vào thứ Sáu (ngày 19 tháng 12)", trong khi điều kiện quyết toán nêu rõ "nếu chính phủ công khai phát hành bất kỳ tài liệu nào liên quan đến hoạt động bất hợp pháp của Epstein và chưa được công bố trước ngày liệt kê, thì sẽ được đánh giá là Có".
Tuy nhiên, trong điều kiện này, Gemini lại cho rằng "việc hoàn thành công bố 'tất cả' tài liệu trước ngày 20 tháng 12 là không thể", rõ ràng đã đánh giá sai điều kiện cần thiết để quyết toán, do đó đưa ra câu trả lời sai.
Tóm tắt
Tóm lại, tỷ lệ dự đoán chính xác của Grok đã vượt qua những dòng tiền thông minh (smart money) đang kiếm được hàng trăm nghìn, hàng triệu USD trên thị trường dự đoán này. Tuy nhiên, khi đi sâu tìm hiểu logic dự đoán của nó, vẫn còn rất nhiều điểm có thể hướng dẫn và sửa chữa.








