Tác giả: Triệu Dĩnh
Nguồn: Wall Street Insights
Việc thương mại hóa ứng dụng AI đang phát triển từ việc bán phần mềm, bán thành viên, sang cả việc bán khả năng gọi Token. Token ở đây là đơn vị thông tin nhỏ nhất mà mô hình lớn xử lý, đồng thời cũng là cơ sở để tính phí, thanh toán và tiêu thụ API của mô hình. Khi lượng gọi tăng lên, bản thân Token bắt đầu được mua sắm, định tuyến, chia nhỏ, bán lại như một loại "hàng tồn kho".
Chuyên viên phân tích Trần Lương Đống của Công ty Chứng khoán Hoa Nguyên trong báo cáo chuyên đề ngành truyền thông gần đây đã tóm tắt sự thay đổi cốt lõi là: "Hoạt động kinh doanh Token đang hình thành một thị trường tầng trung gian mới, tức là khám phá mô hình phân phối Token, kết nối nhà sản xuất mô hình lớn thượng nguồn với nhà phát triển, doanh nghiệp và cá nhân hạ nguồn, bản chất là cơ sở hạ tầng thanh khoản của mạng lưới bán buôn đến bán lẻ Token toàn cầu."
Bối cảnh xuất hiện của ngành kinh doanh này không phức tạp: một mặt là lượng gọi Token tại Trung Quốc tăng nhanh, từ 100 tỷ lần gọi mỗi ngày vào đầu năm 2024 lên 100 nghìn tỷ vào cuối năm 2025, và vượt qua 140 nghìn tỷ vào tháng 3 năm 2026; mặt khác, mô hình lớn nội địa đã nâng cấp khả năng, ở một số bảng xếp hạng và lượng gọi đã bước vào nhóm dẫn đầu toàn cầu. Nhu cầu lớn hơn, mô hình nhiều hơn, khâu thực sự cản trở giao dịch trở thành thanh toán, mạng, giao diện, tuân thủ, kênh và triển khai thực tế.
Nhưng phân phối Token không thể đơn giản hiểu là "bán lại hạn mức API". Lợi nhuận mỏng nhất đến từ chênh lệch bán lại, phần dày hơn đến từ tăng tốc suy luận, giao diện thống nhất, công nghệ Prompt cho doanh nghiệp, sắp xếp Agent, lựa chọn mô hình và tích hợp hệ thống nghiệp vụ. Cũng chính vì rào cản gia nhập không cao, rủi ro của thị trường này cũng trực tiếp: cạnh tranh gia tăng, tài trợ ứng trước và nợ xấu, thay đổi chính sách của nhà sản xuất mô hình thượng nguồn đều sẽ làm giảm lợi nhuận của tầng trung gian.
Token bắt đầu có "nhà bán buôn" và "nhà bán lẻ"
Chuỗi cơ bản của phân phối Token bao gồm ba loại vai trò.
Thượng nguồn là bên mô hình, bao gồm series Seedance của ByteDance, series Qwen của Alibaba, series GLM của ZhiPu, series Kimi của MoonShot, series DeepSeek, v.v., họ là nguồn cung cấp Token chính.
Trung gian là nền tảng đại lý, chịu trách nhiệm tiếp nhận tài nguyên mô hình từ thượng nguồn, sau đó phân phối lại cho người dùng cuối. Công việc của họ không chỉ là bán lại hạn mức, mà còn phải chuyển đổi giao thức giao diện của các mô hình khác nhau sang định dạng API thống nhất, cho phép hạ nguồn gọi nhiều mô hình chỉ bằng một API Key.
Hạ nguồn là những người thực sự tiêu thụ Token, bao gồm người dùng cá nhân, nhà phát triển, khách hàng doanh nghiệp, và cũng có thể bao gồm các nhà phân phối cấp dưới.
Giá trị của tầng trung gian này tập trung vào một số điểm: kết nối trực tiếp trong nước giảm rào cản mạng; một bộ mã thích ứng với nhiều mô hình; hỗ trợ thanh toán cá nhân, thanh toán doanh nghiệp; mua số lượng lớn có thể có chi phí thấp hơn; một nền tảng tổng hợp các mô hình khác nhau như GPT, Claude, DeepSeek, Kimi, giảm chi phí tiếp cận lặp lại của nhà phát triển.
Vì vậy, phân phối Token trông có vẻ tài sản nhẹ, không cần tự đào tạo mô hình lớn, cũng không cần cụm máy chủ quy mô lớn. Tài sản cốt lõi trở thành hệ thống điều phối chuyển tiếp API, tài nguyên mô hình thượng nguồn, kênh khách hàng và năng lực dịch vụ.
Lượng gọi tăng vọt, là nhiên liệu trực tiếp nhất cho ngành kinh doanh này
Mô hình hoạt động Token thành lập, trước hết phải có đủ lượng tiêu thụ.
Lượng gọi Token trung bình hàng ngày của Trung Quốc trong hai năm đã tăng từ 100 tỷ lên hơn 140 nghìn tỷ, tăng hơn nghìn lần. Sự mở rộng lượng gọi đến từ việc triển khai các Agent dọc khác nhau, cũng như từ việc doanh nghiệp nhúng AI tạo sinh vào nhiều quy trình nghiệp vụ hơn.
Dữ liệu từ IDC đưa ra con đường kích thích hơn: Số lượng tác nhân thông minh hoạt động của doanh nghiệp Trung Quốc dự kiến sẽ vượt qua 350 triệu vào năm 2031, tốc độ tăng trưởng kép hàng năm (CAGR) vượt quá 135%; khi mật độ và độ phức tạp nhiệm vụ của tác nhân thông minh tăng, mức tiêu thụ Token của tác nhân thông minh dự kiến tăng trung bình hàng năm hơn 30 lần.
Tác nhân thông minh thực thi đã có thể thấy sự thay đổi này. Lượng tiêu thụ Token hàng tuần của OpenClaw trên nền tảng OpenRouter, từ ngày 2 tháng 2 đến 16 tháng 3 năm 2026, đã tăng từ 0.81T lên 4.97T, tỷ lệ từ 8.31% tăng lên 24.36%.
Một khi Token trở thành mặt hàng tiêu thụ quy mô lớn, việc mua sắm, định giá, định tuyến và thanh toán xung quanh nó sẽ tự nhiên phân tầng. Bên mô hình chưa chắc trực tiếp phục vụ từng khách hàng, khách hàng cuối cũng chưa chắc muốn tiếp cận từng mô hình, do đó tầng trung gian có không gian.
Tỷ lệ giá trị trên chi phí của mô hình nội địa, mở ra lối vào cho Token ra thị trường quốc tế
Nâng cao năng lực của mô hình lớn nội địa là biến số then chốt để phân phối Token đi từ trong nước ra xuyên biên giới.
Dữ liệu từ SuperCLUE cho thấy, điểm tổng hợp của các mô hình nội địa như Doubao của Byte, series DeepSeek đã vượt qua 70 điểm, khoảng cách với các mô hình đầu ngành nước ngoài như GPT-5.4, Gemini thu hẹp; các mô hình như Tongyi Qianwen, Kimi, GLM của ZhiPu cũng hình thành đội hình tương đối rõ ràng.
Trong dữ liệu của OpenRouter, tính đến tuần ngày 10 tháng 5 năm 2026, Hy3 preview(free) của Tencent đứng đầu về lượng gọi; trong top 5, top 10, top 20, mô hình lớn nội địa lần lượt có 2, 6, 9 mô hình.
Sự thay đổi mang tính biểu tượng hơn xảy ra vào quý I năm 2026. Từ ngày 9 đến 15 tháng 2, lượng gọi của mô hình Trung Quốc trên OpenRouter đạt 4.12 nghìn tỷ Token, lần đầu tiên vượt qua 2.94 nghìn tỷ Token của mô hình Mỹ cùng kỳ. Từ ngày 16 đến 22 tháng 2, lượng gọi hàng tuần của mô hình Trung Quốc tiếp tục tăng lên 5.16 nghìn tỷ Token; trong số 5 mô hình có lượng gọi hàng đầu nền tảng, có bốn mô hình đến từ nhà sản xuất Trung Quốc, lần lượt là MiniMax M2.5, Kimi K2.5, ZhiPu GLM-5 và DeepSeek V3.2, tổng cộng đóng góp 85.7% tổng lượng gọi Top5.
Ưu thế giá cả cũng rất nổi bật. Giá đầu vào của MiniMax M2.5 và GLM 5 đều là 0.3 USD cho mỗi triệu Token, Claude Opus 4.6 là 5 USD; về giá đầu ra, MiniMax M2.5 là 1.1 USD, GLM 5 là 2.55 USD, Claude Opus 4.6 là 25 USD. Sự khác biệt về tỷ lệ giá trị trên chi phí của mô hình nội địa trong các tình huống tiêu thụ Token cao như AI Agent, phát triển mã sẽ tiếp tục được khuếch đại.
Nguồn lực AI toàn cầu không cân bằng, nền tảng định tuyến trở thành "trạm trung chuyển"
Phân phối Token không chỉ giải quyết vấn đề giá cả, mà còn giải quyết sự sai lệch nguồn lực.
Các mô hình lớn đầu ngành nước ngoài chịu ảnh hưởng của hạn chế truy cập theo khu vực, quy tắc tuân thủ và rào cản thanh toán, không thể tiếp cận trực tiếp một số người dùng, bao gồm các nhà phát triển ở Trung Quốc đại lục. Các mô hình lớn chất lượng nội địa đi ra nước ngoài cũng sẽ gặp khó khăn về thích ứng địa phương, triển khai kênh và thu hút người dùng.
Sự không cân bằng này thúc đẩy nhu cầu lưu chuyển xuyên biên giới, tổng hợp định tuyến và phân phối phân tầng.
OpenRouter đã là một mẫu điển hình. Quy mô Token mà nền tảng xử lý tăng từ 5-7 nghìn tỷ mỗi tuần vào năm 2025 lên hơn 20 nghìn tỷ mỗi tuần vào tháng 4 năm 2026; doanh thu hàng năm năm 2026 vượt quá 50 triệu USD, tăng khoảng 5 lần so với mức doanh thu hàng năm hơn 10 triệu USD được tiết lộ vào tháng 10 năm 2025.
Trong nước cũng có nền tảng tương tự. Silicon Flow là nền tảng dịch vụ đám mây mô hình lớn toàn diện, dựa trên động cơ suy luận tự nghiên cứu để tăng tốc suy luận hiệu quả, đồng thời cung cấp dịch vụ mô hình lớn cấp doanh nghiệp. Tính đến tháng 12 năm 2025, nền tảng có hơn 9 triệu người dùng đăng ký, hơn 10,000 người dùng doanh nghiệp, và đã triển khai hơn 150 mô hình.
Thậm chí, vốn liên quan đến chính trị Mỹ cũng bước vào lĩnh vực này. Ngày 5 tháng 5 năm 2026, công ty tiền điện tử WLFI có mối quan hệ mật thiết với Trump và gia đình ông, cùng với WorldClaw ra mắt WorldRouter, tích hợp hơn 300 mô hình như Claude, GPT, Gemini, thanh toán bằng USD, định giá thấp hơn khoảng 30% so với mức phí công khai chính thức.
Lợi nhuận thực sự, không nhất thiết nằm ở "chênh lệch bán lại"
Phân phối Token có ba cách kiếm lợi nhuận.
Loại thứ nhất là chênh lệch bán lại. Nền tảng mua số lượng lớn hạn mức API từ nhà sản xuất mô hình thượng nguồn, sau đó bán lại với giá cao hơn cho khách hàng hạ nguồn. OpenRouter thu thêm khoảng 5.5% phí bảo hiểm trên chi phí nhà cung cấp, là đại diện cho mô hình này.
Loại thứ hai là phí bảo hiểm công nghệ. Nền tảng thông qua động cơ tăng tốc suy luận tự nghiên cứu để giảm chi phí chạy mỗi Token, khi giá bán gần bằng hoặc thậm chí thấp hơn giá chính thức, dựa vào chênh lệch hiệu suất tính toán để thu lợi nhuận gộp. Công nghệ SiliconLLM và OneDiff của Silicon Flow đã tăng tốc độ suy luận mô hình ngôn ngữ lên 10 lần, hiệu quả tạo ảnh từ văn bản tăng 3 lần, giảm chi phí gọi API mô hình lớn xuống chỉ còn 1/10 so với ngành.
Loại thứ ba là dịch vụ giá trị gia tăng doanh nghiệp. Chi phí triển khai AI của doanh nghiệp không chỉ nằm ở đơn giá Token, mà còn bao gồm công nghệ Prompt, lựa chọn đa mô hình, tích hợp hệ thống nghiệp vụ, sắp xếp quy trình làm việc, điều phối vận hành và xây dựng năng lực AI nhân viên. Khi giá Token cơ bản giảm, những chi phí ẩn này lại dễ trở thành điểm trả phí hơn.
Nền tảng MaaS cấp doanh nghiệp của Silicon Flow chính là hướng này: cung cấp cho người dùng doanh nghiệp ba lớp năng lực: đào tạo tinh chỉnh mô hình, triển khai suy luận, hỗ trợ phát triển ứng dụng, bao phủ xử lý dữ liệu, tinh chỉnh mô hình, công nghệ Prompt và RAG, cuối cùng giao cho các ngành như năng lượng, tài chính, chính phủ dưới dạng API tiêu chuẩn hóa.
Tiếp thị, phim ngắn, game, thương mại điện tử, là những tình huống dễ tiêu thụ Token hơn
Phân phối Token để kiếm tiền, cuối cùng phải dựa vào tình huống thực tế.
Ứng dụng AI tạo sinh đang thâm nhập vào các ngành như y tế sức khỏe, giao thông vận tải tổng hợp, sản xuất công nghiệp, cũng bắt đầu tham gia vào hỗ trợ ra quyết định doanh nghiệp, quản lý chiến lược và các quy trình cốt lõi khác. Tuy nhiên, nền tảng chuyển đổi thông minh của nhiều doanh nghiệp yếu, tích lũy tài sản dữ liệu không đủ, đầu tư năng lực tính toán hạn chế, trực tiếp triển khai năng lực AI không dễ dàng.
Trong khi đó, công ty tiếp thị quảng cáo đã có sẵn khách hàng và tình huống, liên quan đến các lĩnh vực như phim ngắn, phim hoạt hình, game, thương mại điện tử, nhu cầu tiêu thụ Token trực tiếp hơn và cũng bền vững hơn. Đối với loại công ty này, cơ hội không chỉ là bán lại năng lực mô hình, mà là nhúng Token vào quy trình tạo nội dung, đặt quảng cáo, sản xuất tài liệu, video hóa của khách hàng.
Manh mối đầu tư cũng triển khai dọc theo hai tuyến chính:
Một loại là công ty có năng lực mô hình chất lượng, bao gồm Alibaba, Tencent Holdings, Kuaishou, Kunlun Wanwei, ZhiPu, MiniMax, v.v.
Loại khác là công ty có tình huống Token mạnh và nguồn khách hàng chất lượng, đặc biệt là những công ty có nguồn khách hàng nước ngoài và tình huống tiếp thị, sẵn sàng bố trí tích cực theo hướng tiếp thị AI và video hóa AI, bao gồm Yeahmobi, BlueFocus, v.v.
Rủi ro cũng rất cứng: rào cản thấp, cần tài trợ ứng trước, thượng nguồn quyết định
Mô hình kinh doanh phân phối Token nhẹ, nhưng hào bảo vệ không tự nhiên sâu.
Cạnh tranh trong ngành là rủi ro tầng thứ nhất. Rào cản kỹ thuật của nghiệp vụ phân phối tương đối thấp, đại lý hàng đầu một khi dựa vào ưu thế vốn, khách hàng và kênh tham gia, có thể sao chép nhanh mô hình, nén không gian lợi nhuận.
Tài trợ ứng trước và nợ xấu là rủi ro tầng thứ hai. Nhà phân phối thường sử dụng thanh toán hàng tháng hoặc hàng quý với khách hàng hạ nguồn, nhưng khi mua hạn mức API từ thượng nguồn cần tài trợ ứng trước. Quy mô tiêu thụ Token càng lớn, áp lực tài trợ ứng trước càng lớn; một khi khách hàng chậm thanh toán, rủi ro nợ xấu sẽ khuếch đại đồng thời.
Thay đổi chính sách của nhà sản xuất mô hình thượng nguồn là rủi ro tầng thứ ba. Nhà sản xuất mô hình lớn nắm giữ giá API và quy tắc tiếp cận, có thể điều chỉnh giá, cũng có thể siết chặt chính sách tiếp cận của bên thứ ba. Đối với tầng trung gian, đây là khâu khó kiểm soát nhất.









