Tác giả: 0xSammy(Khala Research)
Biên dịch: AIdidiaoJP, Foresight News
Thị trường suy luận AI hiện tại không còn giống một thị trường dịch vụ điện toán đám mây đơn thuần, mà giống một bàn cờ "Risk". Mỗi nhà cung cấp đều đang tranh giành những vùng lãnh thổ khác nhau: các nhà cung cấp siêu đám mây lớn khống chế lục địa doanh nghiệp, các bộ định tuyến kiểm soát tuyến đường thương mại, còn các mạng phi tập trung đang cố gắng xâm chiếm biên giới mở.
Trọng tâm của chu kỳ AI trước là huấn luyện mô hình, nhưng ngày càng rõ ràng rằng, khâu suy luận mới chứa đựng giá trị kinh tế khổng lồ. Nhiều người có lẽ lần đầu nghe thấy từ "inference" (suy luận), vậy nó thực sự là gì?
Huấn luyện tạo ra mô hình AI, còn suy luận là quá trình mô hình tạo ra câu trả lời khi có người hỏi hoặc giao nhiệm vụ.
Tổng quan thị trường suy luận AI
Khâu huấn luyện chiếm nhiều tiêu đề vì nó hỗ trợ những đầu ra đáng kinh ngạc. Nhưng thực tế, suy luận hiện đang chiếm phần lớn lợi ích kinh tế — mỗi một lời nhắc, vòng lặp tác tử, tạo hình ảnh, thực thi giao dịch, gọi công cụ và chỉnh sửa mã, đều phải chạy ở đâu đó.
Bộ định tuyến là điểm nghẽn thực sự
Trong bàn cờ "Risk", lãnh thổ có giá trị nhất thường là những nút cổ chai hẹp, quyết định bước di chuyển tiếp theo của quân đội. Trong thị trường suy luận, các bộ định tuyến đóng vai trò hoàn toàn tương tự. Chúng nằm giữa nhu cầu và cung ứng, quyết định mỗi yêu cầu sẽ đi về đâu, nhà cung cấp nào được trả tiền.
Một ví dụ điển hình là OpenRouter, giao thức của họ tuần trước đã xử lý 4700 nghìn tỷ token.
Hoạt động kinh tế này hoàn toàn không có dấu hiệu chậm lại, đặc biệt khi hàng nghìn tỷ tác tử sắp đi vào hoạt động.

Vậy, một thị trường suy luận hoàn chỉnh cần những gì? Yếu tố cốt lõi bao gồm:
- token đang trở thành đơn vị kế toán
- OpenRouter đang nhanh chóng trở thành lớp trao đổi cốt lõi, với lượng token được sử dụng qua thị trường LLM của họ chỉ trong tuần trước đã đạt 4700 nghìn tỷ.
- Bên cung chuyên nghiệp: Fireworks, Together, Replicate, Baseten, Groq và các nhà cung cấp siêu đám mây lớn.
- Mạng AI mã hóa: Các dự án như Chutes, Akash, io.net, Nosana, Targon, Venice, NuNet, đang xây dựng phiên bản gốc không cần cấp phép.
Đừng coi tất cả các nhà cung cấp này đang cạnh tranh trong cùng một thị trường — chúng hoàn toàn không phải vậy.
Các nhà cung cấp truyền thống bán độ tin cậy, trải nghiệm nhà phát triển và quy trình mua sắm cấp doanh nghiệp.
Mạng AI mã hóa chú trọng cung ứng rẻ hơn, truy cập mở, quyền riêng tư, khả năng xác minh và các vòng lặp khuyến khích mới.
Sự kiện gần đây khi Anthropic cấm người dùng ngoài Mỹ sử dụng mô hình Mythos (Fable 5) của họ, khiến nhiều người nhận thức lại rủi ro của việc phụ thuộc quá mức vào một mô hình độc quyền tiên phong duy nhất.
Thú vị là, hai thế giới bắt đầu chồng lấn: quyền riêng tư, tính toán bảo mật hoặc thanh toán gốc tác tử (Venice và Targon nổi bật ở khía cạnh này).
Cách nhìn nhận thị trường sức mạnh tính toán AI
Góc nhìn tốt hơn là chia thị trường thành hai phe chính: truyền thống và mã hóa:

Bên truyền thống bán độ tin cậy, trải nghiệm nhà phát triển và mua sắm doanh nghiệp.
Mạng mã hóa chủ yếu cạnh tranh về truy cập mở, nguồn cung chi phí thấp hơn, quyền riêng tư, khả năng xác minh và cơ chế khuyến khích mới, nhằm phối hợp vốn liền mạch toàn cầu.
Tại sao suy luận mới là thị trường AI thực sự
Tầng mô hình vẫn quan trọng, nhưng chất lượng mô hình đang bị nén với tốc độ vượt kỳ vọng. Các mô hình mã nguồn mở đã đạt 90-95% chất lượng của mô hình tiên phong, nhưng chỉ với 10% chi phí (ví dụ: GLM-5.2 của Z.ai).

Các mô hình mã nguồn mở tiếp tục lặp, các phòng lab Trung Quốc liên tục hạ giá. Mô hình tiên phong vẫn duy trì được giá cao hơn, nhưng bên dưới đó, cạnh tranh định giá token đã rất khốc liệt.

Đây chính là lý do tầng định tuyến trở nên quan trọng: cùng một mô hình mã nguồn mở có thể được cung cấp bởi năm nhà cung cấp khác nhau với năm mức giá khác nhau, nhà phát triển không muốn mã hóa cứng một điểm cuối mãi mãi, họ cần bộ định tuyến.

Bộ định tuyến có thể lựa chọn dựa trên giá, độ trễ, quyền riêng tư, độ tin cậy và nhiều yếu tố khác.

Nó nằm trên tất cả các nhà cung cấp, biến bức tranh hỗn loạn thành một giao diện thống nhất sạch sẽ.
Đây chính là điều OpenRouter làm đúng, và giải thích tại sao các quỹ đầu tư mạo hiểm đã rót 113 triệu USD vào vòng tài trợ B gần đây, để nắm bắt cơ hội định tuyến này.

OpenRouter đang nhanh chóng trở thành giao diện thị trường: một chìa khóa truy cập hàng trăm mô hình xuyên nhiều nhà cung cấp. Giá trị thực sự không nằm ở danh sách mô hình, mà ở việc một yêu cầu có thể được định tuyến đến nhà cung cấp phù hợp nhất cho nhiệm vụ đó.
Điều này bắt đầu giống thị trường năng lượng: người dùng không quan tâm nhà máy điện nào phát điện, họ chỉ quan tâm đèn có sáng không, giá có hợp lý không, hệ thống có ổn định không.

Người dùng AI cũng sẽ ngày càng suy nghĩ như vậy — họ không quan tâm cụm GPU nào phục vụ token này, chỉ quan tâm phản hồi có nhanh, rẻ, riêng tư và đáng tin cậy không.
Nhà cung cấp suy luận truyền thống

Bên truyền thống đang phân hóa thành bốn loại:
i) Các nhà cung cấp siêu đám mây lớn (Hyperscalers): AWS, Google, Microsoft
Họ kiểm soát "fortified continents" (các lục địa được củng cố). Họ chiến thắng không phải vì luôn rẻ nhất, mà vì đã kiểm soát quy trình mua sắm doanh nghiệp, tuân thủ, danh tính, bảo mật và hệ thống hóa đơn. Tấn công trực diện vào vị trí này có chi phí cực cao.
Họ thắng nhờ sự tin tưởng của doanh nghiệp. Công ty lớn mua không chỉ token, mà còn là sự tuân thủ, bảo mật, thuận tiện mua sắm và có người chịu trách nhiệm khi có vấn đề.
ii) Thị trường định tuyến: OpenRouter và các cổng AI khác
Bộ định tuyến nằm trên các nhà cung cấp mô hình, gửi mỗi yêu cầu đến tùy chọn tốt nhất. Khi vị thế dẫn đầu mô hình thay đổi hàng tuần, việc mã hóa cứng một mô hình duy nhất ngày càng mong manh. AI cần bộ tổng hợp, giống như trong lĩnh vực mã hóa.
iii) Dịch vụ tối ưu hóa mô hình mã nguồn mở: Together, Fireworks, Baseten, Groq
Họ không chỉ là API rẻ, mà là các công ty hạ tầng hiệu năng tập trung vào tốc độ, xử lý hàng loạt, mở rộng, tinh chỉnh, điểm cuối tùy chỉnh và hỗ trợ sản xuất.
iv) Thị trường mô hình: Replicate và các nền tảng tương tự như Hugging Face
Suy luận không chỉ là trò chuyện. Hình ảnh, video, giọng nói, nhúng, mô hình robot, mô phỏng và tác tử đa phương thức đều cần mô hình chạy. Thị trường giúp nhu cầu mô hình dài hạn dễ tiếp cận hơn.
Nhà cung cấp suy luận AI mã hóa
Mạng phi tập trung là "lãnh thổ du kích"
Các mạng suy luận mã hóa không cố gắng chi tiêu nhiều hơn trên chiến trường chính của AWS. Họ mở ra mặt trận mới: mô hình không kiểm duyệt, cung cấp GPU rẻ hơn, suy luận riêng tư, thanh toán gốc tác tử, và khối lượng công việc không cần độ tin cậy cấp nhà cung cấp siêu đám mây.
Bên mã hóa thường bị gộp chung là "sức mạnh tính toán phi tập trung", cách nói này quá mơ hồ, có ít nhất năm hướng khác nhau:
- Mạng suy luận không máy chủ
- Thị trường GPU phi tập trung
- Mạng tính toán bảo mật
- Ứng dụng và cổng AI riêng tư
- Tầng điều phối
Chúng không nên được phân tích ngang bằng.
i) Chutes: Suy luận gốc mã hóa
@chutes_ai được hiểu tốt nhất là nền tảng suy luận phi tập trung, chứ không chỉ đơn thuần là thị trường GPU.
Cốt lõi là: Nhà phát triển không muốn thuê GPU hay quản lý hạ tầng, họ muốn một điểm cuối hoạt động. Chutes phục vụ mô hình mã nguồn mở qua API quen thuộc, sử dụng nguồn cung GPU phi tập trung ở lớp dưới.
Câu hỏi then chốt là liệu có thể chuyển đổi lượng sử dụng hàng đầu thành nhu cầu trả phí, lặp lại (recurring) hay không. Token rẻ có ích, nhưng với điều kiện nhà phát triển tin tưởng vào thời gian hoạt động, độ trễ và độ tin cậy của nó.
Doanh thu trên mỗi nghìn tỷ token của họ tiếp tục tăng, cho thấy tiềm năng lợi nhuận / khả thi bền vững.

ii) Akash: Tầng đấu giá GPU
@akashnet là thị trường điện toán đám mây phi tập trung.
Người dùng định nghĩa sức mạnh tính toán cần thiết, nhà cung cấp đấu thầu cung ứng, khối lượng công việc chạy qua hợp đồng thuê. Nó giống thị trường sức mạnh tính toán hơn là bộ định tuyến suy luận trực tiếp.
Nó phù hợp nhất với khối lượng công việc nhạy cảm về giá, có thể chịu được biến động hạ tầng và không cần tích hợp sâu với AWS/Azure/Google Cloud. Phí có tương quan nhất định với giá token và đang có xu hướng tăng.
iii) io.net: Điện toán đám mây GPU phi tập trung
@ionet gần giống nhà cung cấp điện toán đám mây GPU phi tập trung hơn.
Điểm bán cốt lõi là truy cập vào nguồn cung GPU phân tán với chi phí thấp hơn và tốc độ cấu hình nhanh hơn, phù hợp cho các nhóm AI cần sức mạnh tính toán nhưng không muốn ký hợp đồng đám mây dài hạn hay chấp nhận định giá của nhà cung cấp siêu đám mây.
Thách thức nằm ở thực thi: xác minh phần cứng, độ tin cậy, lập lịch, hỗ trợ và hiệu suất nhất quán. Truy cập GPU thô có giá trị, nhưng tầng lợi nhuận cao hơn vẫn là định tuyến, quản lý suy luận và điều phối.
io.net nổi bật trong 30 ngày qua, với doanh thu hàng năm đạt 12,3 triệu USD.

iv) Targon: Tính toán bảo mật
@TargonCompute (được xây dựng bởi @manifoldlabs) tập trung vào tính toán bảo mật cho khối lượng công việc AI.
Vấn đề nó giải quyết rõ ràng: Nhiều người dùng không muốn chạy lời nhắc nhạy cảm, mô hình hoặc dữ liệu trên cơ sở hạ tầng được vận hành bởi bên thứ ba không xác định.
Targon cung cấp thực thi được bảo vệ thông qua môi trường thực thi đáng tin cậy, máy ảo mã hóa, chứng nhận từ xa và cơ sở hạ tầng GPU bảo mật. Nói đơn giản, nó chứng minh khối lượng công việc chạy trong môi trường an toàn và giảm thiểu những gì nhà điều hành có thể thấy.
Điều này đặc biệt liên quan đến suy luận riêng tư trong các lĩnh vực như tài chính, chăm sóc sức khỏe và AI doanh nghiệp. Tính toán bảo mật không phải phép màu, nó chuyển sự tin tưởng sang phần cứng, phần sụn và hệ thống chứng nhận.
Năm ngoái, giao thức này báo cáo doanh thu hàng năm 10,4 triệu USD và đồng tác giả một bài nghiên cứu với Intel về "sức mạnh tính toán phi tập trung trên phần cứng không đáng tin".

v) Darkbloom: Suy luận riêng tư trên Mac nhàn rỗi
Darkbloom (được xây dựng bởi @eigenlabs) đi theo một hướng khác.
Nó không phân mảnh mô hình lớn sang GPU ngẫu nhiên, mà biến các máy Mac Apple Silicon nhàn rỗi thành mạng suy luận riêng tư. Mac chạy mô hình cục bộ, yêu cầu được mã hóa và định tuyến đến nhà cung cấp đã được xác minh.
Điểm bán là quyền riêng tư và chi phí, không phải tối đa hóa hiệu suất mô hình tiên phong.
Điều này hữu ích vì "không có nút nào giữ toàn bộ mô hình" không tự động có nghĩa lời nhắc là riêng tư. Darkbloom nhắm mục tiêu rõ ràng hơn vào vấn đề quyền riêng tư, nhưng vẫn cần chứng minh quy mô cung cấp, hiệu suất và sự tin tưởng của nhà phát triển.
Hiện tại mạng đã có 300 máy, phục vụ 20 tỷ token và 1 triệu yêu cầu.

vi) Venice: Suy luận riêng tư hướng người tiêu dùng
@AskVenice ở vị trí khác với các mạng như Akash hay io.net. Nó giống ứng dụng AI riêng tư và cổng suy luận hơn, chứ không chủ yếu là thị trường GPU.
Thông lượng cổng của nó đã đạt 85 tỷ token mỗi ngày (số liệu từ @ErikVoorhees).

</p
Hầu hết người dùng muốn một sản phẩm AI tôn trọng quyền riêng tư, có thể truy cập các mô hình mạnh mẽ và không thu thập nhiều dữ liệu.
Venice đóng gói ý tưởng cơ sở hạ tầng thành trải nghiệm hướng người tiêu dùng, xoay quanh lời nhắc riêng tư, mô hình mã nguồn mở, truy cập không kiểm duyệt, chức năng API và sức mạnh tính toán được token hóa thông qua VVV và DIEM.
Thành phần DIEM đặc biệt thú vị, nó hướng đến ý tưởng rộng hơn về kinh tế tác tử: cung cấp quyền truy cập sức mạnh tính toán 1 USD mỗi ngày. Thị trường gần đây đã định giá khá tốt cho khái niệm này.
Nếu tác tử cần truy cập suy luận liên tục, thì tín dụng sức mạnh tính toán bắt đầu giống tài sản gốc tác tử, toàn bộ thị trường thứ cấp có thể xây dựng xung quanh nó.
Một tác tử có thể trực tiếp nắm giữ và sử dụng quyền sức mạnh tính toán sẽ thiết thực hơn một tác tử phụ thuộc vào con người định kỳ quẹt thẻ tín dụng.
Điều này nêu bật luận điểm AI mã hóa sâu hơn: Tác tử cuối cùng cần truy cập vốn, danh tính, bộ nhớ và sức mạnh tính toán, và hệ thống mã hóa cung cấp khuôn khổ để lập trình hóa các tài nguyên này.
Venice không cạnh tranh trực tiếp với OpenRouter về bề rộng mô hình, mà cạnh tranh về quyền riêng tư, truy cập và sức mạnh tính toán được token hóa. Đây là một phân khúc hợp lý (legitimate), nhưng câu hỏi then chốt là nhu cầu sản phẩm AI riêng tư có đủ lớn để hỗ trợ mô hình token vượt qua chu kỳ tường thuật hiện tại hay không. Đánh giá của tôi là, khi AI phổ biến, tường thuật về quyền riêng tư sẽ chỉ ngày càng mạnh mẽ.
vii) NuNet: Điều phối sức mạnh tính toán phân tán
@nunet_global thường được xếp vào các dự án sức mạnh tính toán phi tập trung, nhưng khuôn khổ hữu ích hơn là "điều phối".
Điều phối liên quan đến việc ghép nối khối lượng công việc với tài nguyên sức mạnh tính toán phù hợp nhất, và phối hợp thực thi giữa các máy, môi trường và vị trí khác nhau.

Điều này ngày càng quan trọng khi AI vượt ra ngoài cơ sở hạ tầng đám mây tập trung.
Hệ thống AI trong tương lai rất có thể sẽ chạy xuyên qua GPU đám mây, thiết bị biên, máy chủ cục bộ, robot, điện thoại, cảm biến và mạng nhà cung cấp phi tập trung.
Robot kho hàng có thể không thể chờ phản hồi API xuyên khu vực; máy bay không người lái không thể giả định luôn có kết nối hoàn hảo; robot thực địa cần thực hiện suy luận cục bộ khi mạng không đáng tin cậy.
Do đó, điều phối đang trở thành một danh mục độc lập và có ý nghĩa.
Thách thức của NuNet là liệu có thể chuyển đổi vấn đề phối hợp này thành một mạng kinh tế hoạt động (functioning) với đủ nguồn cung, nhu cầu và sự chấp nhận của nhà phát triển hay không.
viii) OpenServ: Điều phối tác tử, không chỉ là suy luận thuần túy
@openservai được hiểu tốt nhất là nền tảng hạ tầng và điều phối tác tử, chứ không phải mạng suy luận phi tập trung.
Điều này quan trọng vì tác tử là một trong những nguồn nhu cầu suy luận rõ ràng nhất trong tương lai. Chatbot thông thường có thể chỉ gọi mô hình một lần, trong khi tác tử sẽ gọi mô hình liên tục: suy luận, sử dụng công cụ, kiểm tra đầu ra, gọi mô hình khác, hành động, và sau đó lặp lại.
Điều này tạo ra nhu cầu suy luận nặng nề, đã được chú ý trong cộng đồng mã hóa.
Do đó, OpenServ liên quan đến thị trường suy luận từ phía nhu cầu chứ không phải phía cung. Nếu nền tảng này có thể trở thành nơi hữu ích để nhà phát triển xây dựng, triển khai và điều phối tác tử, nó tự nhiên sẽ trở thành tầng định tuyến suy luận cơ bản đến các nhà cung cấp khác nhau.
Câu hỏi then chốt là OpenServ có thể trở thành tầng thực thi tác tử thực sự hay chỉ là một thị trường tác tử khác đi kèm token.
Sau nhiều lần trao đổi với nhóm, tôi tin rằng khả năng của họ không dừng lại ở điều sau, khung suy luận của họ có một số hiệu suất đáng chú ý (notable) trên các điểm chuẩn, và lộ trình còn có mô hình độc quyền riêng.
Nếu OpenServ có thể kiểm soát quy trình công việc vận hành hóa tác tử, thì suy luận trở thành đầu vào của nền tảng chứ không phải sản phẩm chính.
Trong thế giới hóa tác tử, tầng có giá trị nhất sẽ là nơi tác tử dành nhiều thời gian và tài nguyên liên tục.
ix) Dolphin AI: Suy luận phi tập trung được sản phẩm dẫn dắt
@dphnAI thú vị ở chỗ nó bắt đầu từ nhu cầu mô hình chứ không phải từ thị trường GPU.
Gia đình mô hình Dolphin đã có danh tiếng về các mô hình mã nguồn mở không kiểm duyệt, điều này mang lại cho mạng lưới lý do tồn tại rõ ràng hơn.
Điều này quan trọng vì nhiều dự án suy luận phi tập trung đều theo hướng cung trước: "Chúng tôi có GPU, bây giờ ai mua?"
Dolphin thì ngược lại: bắt đầu từ tập hợp mô hình mà mọi người đã muốn dùng, sau đó xây dựng mạng suy luận phi tập trung xung quanh nhu cầu đó.
Kiến trúc của nó thường được gọi là peer-to-pool: Chủ sở hữu GPU đóng góp dung lượng vào một nhóm mô hình cụ thể, thay vì mỗi người mua thuê trực tiếp một nút cụ thể. Yêu cầu được định tuyến đến nhóm, nút khả dụng xử lý.
Đây là thiết kế tốt hơn cho nguồn cung người tiêu dùng không đáng tin cậy. Nếu ai đó đóng góp GPU chơi game nhàn rỗi, họ có thể không luôn trực tuyến, mô hình nhóm có thể hấp thụ biến động này một cách tự nhiên hơn so với thị trường cho thuê một-một.
Thú vị hơn là xác minh. Dolphin đang thúc đẩy live-weight proofs (bằng chứng trọng số thời gian thực). Nói đơn giản, nó kiểm tra xem trọng số mô hình thực tế được tải trong quá trình phục vụ có khớp với mô hình mà nút tuyên bố đang chạy hay không.
Điều này quan trọng vì gian lận là một trong những vấn đề khó nhất trong suy luận phi tập trung. Một nút có thể tuyên bố chạy mô hình đắt tiền, nhưng lại lén lút phục vụ phiên bản mô hình nhỏ hơn, rẻ hơn hoặc đã được lượng tử hóa. Nếu mạng không thể phát hiện, toàn bộ thị trường sẽ mất uy tín.
x) c0mpute: Suy luận phân tán hướng tác tử
@c0mputeAI đáng chú ý vì nó cố gắng giải quyết một trong những vấn đề khó nhất trong suy luận phi tập trung: chạy mô hình lớn trên nhiều GPU phân tán trên internet mở.
Shard engine của nó chia nhỏ mô hình trên nhiều máy, thay vì yêu cầu một máy chủ khổng lồ chứa toàn bộ mô hình. Điều này đặc biệt liên quan đến các mô hình mã nguồn mở quy mô tiên phong có thể quá lớn hoặc bị hạn chế để chạy qua đường lưu trữ thông thường.
Liên kết với @virtuals_io là góc độ phía nhu cầu then chốt. Virtuals đang xây dựng nền kinh tế tác tử, và tác tử là người dùng suy luận nặng: chúng lập kế hoạch, gọi công cụ, giao dịch, kiểm tra kết quả và lặp lại. Điều này tạo ra nhu cầu suy luận rẻ, mở và chống kiểm duyệt.
Điểm cần lưu ý (caveat) là điều này vẫn ở giai đoạn đầu. c0mpute cần chứng minh hiệu suất dưới tải thực, độ tin cậy của nút, xác minh và quyền riêng tư của lời nhắc.
Nhưng hướng đi quan trọng: Thị trường GPU bán quyền truy cập sức mạnh tính toán; c0mpute đang cố gắng phân phối chính mô hình.
Suy luận truyền thống vs mã hóa
Cả hai sẽ cùng tồn tại, mỗi bên có lợi thế riêng biệt rõ ràng và đáng hiểu.

Cần theo dõi những gì
Lượng token trả phí
Thị trường nên giảm sự chú ý đến thống kê xử lý token thô, trừ khi những token đó tạo ra doanh thu. Hoạt động ở cấp độ miễn phí và sử dụng được trợ cấp có thể tạo ra những con số đẹp, nhưng không thể chứng minh sự phù hợp thị trường sản phẩm thực sự.
Nhu cầu suy luận trả phí mới là chỉ số then chốt — nó bền vững hơn, có thể hỗ trợ tính khả thi lâu dài.
ii) Doanh thu trên mỗi GPU
Mạng sức mạnh tính toán phi tập trung chỉ bền vững khi giá trị mà GPU kiếm được trong mạng cao hơn bên ngoài. Nếu phát hành là lý do chính để nhà cung cấp tham gia, một khi khuyến khích giảm, nguồn cung sẽ biến mất. Nhà cung cấp GPU sẽ tính toán chi phí cơ hội.
iii) Tích hợp bộ định tuyến: Phân phối
Phân phối thường quan trọng hơn chính cơ sở hạ tầng.
Tích hợp OpenRouter, mã hóa tác tử, ví, điểm cuối thanh toán, công cụ nhà phát triển và ứng dụng người tiêu dùng, đều là nguồn nhu cầu tiềm năng.
Điểm cuối thanh toán là kênh mà phần mềm có thể trả tiền trực tiếp cho dịch vụ thông qua API.
iv) Xác minh
Gian lận GPU, dung lượng giả và nhà cung cấp không đáng tin cậy vẫn là rủi ro thực tế.
Mạng cần xác minh phần cứng mạnh mẽ (robust), lưu lượng mã hóa, hệ thống danh tiếng và hình phạt có ý nghĩa (meaningful) đối với hành vi xấu.
v) Đảm bảo quyền riêng tư
Suy luận riêng tư vẫn là một trong những cơ hội AI mã hóa mạnh nhất, nhưng đảm bảo phải thực sự. Tiếp thị quyền riêng tư thì dễ; thực thi an toàn, kiến trúc ưu tiên cục bộ, tối thiểu hóa dữ liệu và cơ sở hạ tầng có thể kiểm tra thì khó hơn nhiều.
vi) Nắm bắt giá trị token
Mô hình token mạnh nhất sẽ liên kết trực tiếp nhu cầu với việc sử dụng suy luận thực tế. Điều này có thể liên quan đến mua lại, hủy, yêu cầu đặt cược, quyền sức mạnh tính toán hoặc cơ chế liên kết với doanh thu.
Chỉ dựa vào tường thuật AI chung chung về lâu dài là không đủ.
Kết luận cốt lõi
Trò chơi cuối cùng là kiểm soát nhu cầu
Trong bàn cờ "Risk", chỉ sở hữu những vùng lãnh thổ rời rạc là không đủ. Bạn cần các khu vực kết nối, tuyến đường tăng viện và đường tiếp tế bền vững.
Trong thị trường suy luận cũng vậy. Người chiến thắng sẽ kiểm soát nhu cầu, định tuyến, xác minh và thanh toán; chỉ sở hữu GPU là không đủ.
Thị trường suy luận khiến AI bắt đầu giống (resemble) hệ thống tài chính:
- Mỗi token được tạo ra đều mang theo chi phí,
- Mỗi điểm cuối đều mang theo lợi nhuận,
- Mỗi vòng lặp tác tử đều tạo ra nhu cầu,
- Mỗi bộ định tuyến đều giống như nhà tạo lập thị trường,
- Mỗi mạng GPU đều trở thành nguồn cung...
Các nhà cung cấp truyền thống hiện đang thống trị tầng trải nghiệm nhà phát triển và sự tin tưởng của doanh nghiệp.
Các mạng AI mã hóa đang khám phá một biên giới khác: cung ứng không cần cấp phép, suy luận riêng tư, sức mạnh tính toán có thể xác minh, quyền truy cập được token hóa và thanh toán gốc tác tử (không giới hạn KYC).
Trong ngắn hạn, người chiến thắng khó có thể là mạng phi tập trung nhất, mà có khả năng là mạng làm cho suy luận phi tập trung cảm giác bình thường và đáng tin cậy — thông qua điểm cuối nhanh, tài liệu mạnh mẽ, thời gian hoạt động đáng tin cậy, định giá minh bạch, nguồn cung được xác minh và nhu cầu trả phí chân thực (genuine).
Chutes vẫn là một trong những dự án đáng theo dõi chặt chẽ, vì nó gần nhất với việc chuyển đổi sức mạnh tính toán được hỗ trợ bởi Bittensor thành một thị trường suy luận hoạt động (functioning), chứ không chỉ là tường thuật GPU đơn thuần. "Darkbloom" của Eigen Labs cũng vậy.
Akash và io.net đại diện cho những kẻ thách thức phía cung, Targon đại diện cho luận điểm tính toán bảo mật, Venice đại diện cho tầng nhu cầu AI riêng tư, NuNet đại diện cho sự điều phối tương lai sức mạnh tính toán phân tán hơn.
Luận điểm rộng hơn:
"Mô hình AI có thể ngày càng trở thành hàng hóa, nhưng thị trường suy luận khó có thể tuân theo cùng một con đường."
Giá trị lớn nhất sẽ thuộc về những thực thể định tuyến công việc, xác minh công việc, thanh toán công việc và nắm bắt nhu cầu.
Đây chính là nơi cơ hội AI mã hóa tiếp theo có thể xuất hiện... ít nhất là cho đến khi AI vật lý có thể đảm đương trong xã hội.





