Cuối năm 2025, báo cáo sử dụng hàng năm của nền tảng tổng hợp mô hình AI lớn nhất toàn cầu OpenRouter cho thấy, trong cơ cấu người dùng, 47% đến từ Mỹ, nhà phát triển Trung Quốc chiếm 6%. Ngoài ra, trong nội dung được gọi, tiếng Anh chiếm 83%, tiếng Trung dưới 5%.
Nhưng tính đến tuần ngày 3 tháng 4 năm 2026, trong số 10 mô hình được gọi nhiều nhất trên nền tảng này, có 6 mô hình đến từ Trung Quốc. Theo thứ tự khối lượng gọi từ cao đến thấp lần lượt là: Xiaomi MiMo-V2-Pro, Step星辰 Step 3.5 Flash, MiniMax M2.7, DeepSeek V3.2, Zhipu GLM 5 Turbo và MiniMax M2.5. Trong đó, Xiaomi MiMo-V2-Pro đứng đầu toàn nền tảng với 4,82 nghìn tỷ Token.
Trên thực tế, kể từ tuần từ ngày 9 đến 15 tháng 2 năm 2026, khi khối lượng gọi mô hình Trung Quốc lần đầu tiên vượt Mỹ, sự dẫn đầu của các mô hình Trung Quốc đã duy trì gần hai tháng.
Nền tảng OpenRouter tập hợp hơn 400 mô hình AI, bao phủ hơn 60 nhà cung cấp, dữ liệu khối lượng gọi của nó được coi là một trong những cửa sổ quan sát xu hướng lựa chọn mô hình của các nhà phát triển toàn cầu. Nhà phát triển có thể chuyển đổi giữa các mô hình khác nhau bất cứ lúc nào thông qua cùng một API Key (một loại khóa dùng để xác thực danh tính và gọi dịch vụ).
Đồng sáng lập kiêm COO của OpenRouter, Chris Clark, đã công khai phát biểu vào tháng 2 năm 2026 rằng các mô hình nguồn mở Trung Quốc chiếm tỷ lệ "cao không tương xứng" trong quy trình công việc Agent (tác nhân thông minh) được vận hành bởi các doanh nghiệp Mỹ. Đồng thời, các thảo luận trong cộng đồng nhà phát triển xung quanh việc phân phối nhiệm vụ giữa các mô hình và tối ưu hóa chi phí cũng ngày càng nhiều.
Có quan điểm so sánh hiện tượng này với ngành sản xuất Trung Quốc 30 năm trước: khi đó Trung Quốc dựa vào lợi thế chi phí để thâm nhập vào khâu lắp ráp của chuỗi cung ứng điện tử toàn cầu, tạo ra các công ty gia công như Foxconn, Luxshare Precision; ngày nay, các mô hình lớn Trung Quốc cũng đang dùng lợi thế giá cả để thâm nhập vào khâu thực thi của chuỗi công nghiệp AI toàn cầu. Cũng có quan điểm coi các mô hình lớn Trung Quốc là "Foxconn của thời đại AI".
Vai trò của các mô hình lớn Trung Quốc trong chuỗi công nghiệp AI là gì? Hàm lượng công nghệ của vai trò đó rốt cuộc cao đến mức nào?
Lợi thế giá cả
Phóng viên Economic Observer tổng hợp giá API chính thức của các nhà sản xuất tính đến cuối tháng 3 năm 2026 phát hiện ra rằng có sự chênh lệch lớn về giá giữa các mô hình lớn chủ lưu của Trung Quốc và Mỹ.
Lấy giá đầu vào làm ví dụ, trong các mô hình Trung Quốc, DeepSeek V3.2 là 0,28 USD cho mỗi triệu Token, MiniMax M2.5 là 0,3 USD, MoonDark Kimi K2.5 là 0,42 USD. Trong các mô hình Mỹ, Anthropic Claude Opus 4.6 là 5 USD, OpenAI GPT-5.4 là 2,50 USD. Giá đầu vào của các mô hình chủ lưu Mỹ cao gấp khoảng 10 đến 20 lần so với các mô hình chủ lưu Trung Quốc.
Chênh lệch giá đầu ra còn rõ rệt hơn. Về phía mô hình Trung Quốc, DeepSeek V3.2 là 0,42 USD cho mỗi triệu Token, MiniMax M2.5 là 1,1 USD, MoonDark Kimi K2.5 là 2,2 USD. Về phía mô hình Mỹ, OpenAI GPT-5.4 là 15 USD, Claude Opus 4.6 là 25 USD. Chênh lệch giá đầu ra giữa các mô hình chủ lưu Trung-Mỹ vào khoảng 7 đến 60 lần.
Chênh lệch giá trên vốn luôn tồn tại, trước đây không gây ra sự di chuyển người dùng quy mô lớn, lý do rất đơn giản, hầu hết mọi người sử dụng AI chủ yếu cho các tình huống trò chuyện, lượng tiêu thụ Token thấp, chênh lệch giá ảnh hưởng không đáng kể.
Nhưng đầu năm 2026, sự xuất hiện của một "con tôm hùm" đã thay đổi tất cả. Công cụ nguồn mở OpenClaw (cộng đồng nhà phát triển gọi là "tôm hùm") đã trở nên nổi tiếng nhanh chóng vào khoảng tháng 2 năm 2026, sau khi ra mắt đã nhanh chóng đứng đầu bảng xếp hạng ứng dụng OpenRouter, tiêu thụ hơn 6000 tỷ Token trong một tuần. "Tôm hùm" thuộc loại ứng dụng tác nhân thông minh, khác với chế độ trò chuyện "hỏi đáp" trước đây, nó có thể để AI tự chủ thực hiện các nhiệm vụ như lập trình, kiểm thử, quản lý tệp trên máy tính mà không cần can thiệp thủ công từng bước.
Trong chế độ làm việc này, lượng tiêu thụ Token không cùng một cấp độ với các tình huống trò chuyện.
Ví dụ, một nhiệm vụ lập trình có thể cần trải qua hàng chục vòng lặp "viết mã - chạy - báo lỗi - sửa đổi - chạy lại", mỗi vòng là một lần gọi mô hình hoàn chỉnh. Để tác nhân thông minh ghi nhớ các thao tác trước đó, mỗi lần gọi còn cần gọi lịch sử hội thoại.
Có nhà phát triển trên nền tảng mạng xã hội cho biết, một phiên OpenClaw hoạt động mạnh rất dễ làm phình to ngữ cảnh lên đến hơn 230.000 Token. Nếu sử dụng Claude API toàn bộ, chi phí hàng tháng có thể trong khoảng 800 đến 1500 USD. Cũng có người dùng nói rằng một nhiệm vụ tự động được cấu hình không đúng đã đốt hết 200 USD trong một ngày.
Các ứng dụng tác nhân thông minh đại diện là OpenClaw đã đẩy cao tổng lượng tiêu thụ Token của toàn nền tảng. Ví dụ, trong tuần từ ngày 3 đến 9 tháng 3 năm 2025, tổng khối lượng gọi hàng tuần của 10 mô hình hàng đầu OpenRouter là 1,24 nghìn tỷ Token. Đến tuần từ ngày 16 đến 22 tháng 2 năm 2026, chỉ riêng khối lượng gọi hàng tuần của 10 mô hình hàng đầu đã vượt quá 8,7 nghìn tỷ Token, tăng gần 7 lần. Tỷ trọng của các nhiệm vụ lập trình trong tổng tiêu thụ Token của nền tảng cũng tăng từ 11% đầu năm 2025 lên hơn 50% vào cuối năm 2025.
Khi mức tiêu thụ Token cho mỗi nhiệm vụ tăng từ vài nghìn lên vài chục nghìn, chênh lệch giá giữa các mô hình Trung-Mỹ đã chuyển từ một chi phí có thể bỏ qua thành một sự khác biệt đáng kể hàng trăm thậm chí hàng nghìn USD mỗi tháng.
Vào khoảng ngày 19 tháng 2 năm 2026, công ty mô hình lớn Mỹ Anthropic đã cập nhật điều khoản dịch vụ, cấm người dùng kết nối thông tin đăng nhập tài khoản đăng ký Claude với các công cụ bên thứ ba như OpenClaw, yêu cầu tính phí theo lượng sử dụng thông qua API. Sau đó Google cũng đưa ra các hạn chế tương tự. Đối với các ứng dụng tác nhân thông minh cần gọi API thường xuyên mỗi ngày, yếu tố giá cả trong lựa chọn mô hình trở thành vấn đề không thể bỏ qua, các nhà phát triển bị đẩy lên đường đua tính phí theo lượng dùng.
Trong lĩnh vực lập trình cốt lõi của tác nhân thông minh, năng lực của các mô hình Trung-Mỹ đã khá gần nhau.
SWE-Bench Verified là một đánh giá công khai về năng lực lập trình được duy trì bởi nhóm nghiên cứu Đại học Princeton, cách làm là để mô hình AI sửa các vấn đề mã thực tế trên GitHub (nền tảng lưu trữ mã nguồn mở lớn nhất toàn cầu). Theo dữ liệu từ bảng xếp hạng công khai của đánh giá này, mô hình Trung Quốc MiniMax M2.5 phát hành ngày 13 tháng 2 năm 2026 đạt 80,2%, mô hình Mỹ Claude Opus 4.6 phát hành ngày 5 tháng 2 là 80,8%, chênh lệch giữa hai bên chỉ 0,6 điểm phần trăm.
Trong tình hình năng lực gần nhau mà giá cả chênh lệch lớn, sự lựa chọn của các nhà phát triển nhanh chóng phản ánh trên dữ liệu.
Trong tuần từ ngày 9 đến 15 tháng 2 năm 2026, khối lượng gọi Token của các mô hình Trung Quốc đạt 4,12 nghìn tỷ, lần đầu tiên vượt qua khối lượng 2,94 nghìn tỷ của các mô hình Mỹ. Tuần tiếp theo, khối lượng gọi mô hình Trung Quốc tăng lên 5,16 nghìn tỷ, tăng 127% trong ba tuần. Cùng kỳ, khối lượng gọi mô hình Mỹ giảm xuống 2,7 nghìn tỷ.
Tại sao mô hình lớn Trung Quốc có thể rẻ hơn nhiều so với mô hình lớn Mỹ như vậy?
Ông Pan Helin, Ủy viên Ủy ban Chuyên gia Kinh tế Viễn thông Bộ Công nghiệp và Công nghệ Thông tin, nói với Economic Observer rằng nguyên nhân chủ yếu có hai điểm: một là quy mô cơ sở hạ tầng tính toán của Trung Quốc lớn, tỷ lệ tái sử dụng cao, báo giá thấp; hai là trong cụm tính toán Trung Quốc tồn tại một lượng lớn tính toán tự xây dựng, chi phí thu nhập thấp hơn so với nước ngoài.
Ngoài ra, tuyến công nghệ cũng ảnh hưởng đến chi phí. Có nhân sự trong ngành nói với phóng viên, hiện tại các mô hình lớn chủ lưu Trung Quốc phổ biến áp dụng kiến trúc MoE, còn gọi là "mô hình chuyên gia hỗn hợp". Nói một cách dễ hiểu, một mô hình MoE mặc dù tổng số tham số rất lớn, nhưng mỗi lần chạy chỉ kích hoạt một phần nhỏ tham số để xử lý nhiệm vụ, chứ không phải toàn bộ tham số, điều này làm giảm đáng kể lượng tính toán cần thiết cho mỗi lần suy luận.
Con đường khác nhau
Đối tác của cơ quan đầu tư mạo hiểm Silicon Valley a16z, Martin Casado, đã nói vào cuối năm 2025 rằng trong số các công ty khởi nghiệp AI sử dụng công nghệ nguồn mở, khoảng 80% công ty sử dụng mô hình Trung Quốc. Sau đó ông đã bổ sung giải thích trên nền tảng mạng xã hội rằng, đây không phải chỉ 80% công ty khởi nghiệp AI Mỹ đang sử dụng mô hình Trung Quốc, mà là trong số những công ty chọn con đường công nghệ nguồn mở (chiếm khoảng 20% đến 30% tổng số công ty khởi nghiệp AI Mỹ), có khoảng 80% sử dụng mô hình Trung Quốc.
Phóng viên nhận thấy, trên GitHub đã xuất hiện nhiều công cụ nguồn mở giúp nhà phát triển tối ưu hóa chi phí giữa các mô hình khác nhau. Ý tưởng chủ yếu là phân cấp nhiệm vụ theo độ khó, giao nhiệm vụ đơn giản cho các mô hình Trung Quốc miễn phí hoặc giá rẻ xử lý, nhiệm vụ phức tạp mới gọi đến mô hình Mỹ giá cao.
Một trong những dự án tên là ClawRouter đã đưa ra dữ liệu so sánh trong tài liệu, cho thấy sau khi áp dụng cách kết hợp này, chi phí trung bình đã giảm từ 25 USD cho mỗi triệu Token xuống còn khoảng 2 USD. Sản phẩm ClaudeCode của Anthropic, trong tài liệu chính thức cũng sử dụng thiết kế phân tầng tương tự, mặc định sử dụng mô hình rẻ nhất để xử lý các nhiệm vụ hàng ngày.
Điều kiện tiên quyết để mô hình này có thể thành lập là năng lực của các mô hình Trung Quốc trong các nhiệm vụ thực thi là đủ. Về mặt lập trình, dữ liệu SWE-Bench được đề cập trước đó đã nói lên điều này. Ngoài lập trình ra, khoảng cách năng lực tổng thể giữa các mô hình lớn Trung-Mỹ lớn đến mức nào?
LMSYS Chatbot Arena hiện là một trong những nền tảng đánh giá mô hình AI được công nhận cao nhất toàn cầu, cách làm là để người dùng thực đồng thời dùng thử hai mô hình trong tình trạng không biết tên mô hình, sau đó bình chọn ra mô hình tốt hơn, tương đương với một cuộc kiểm tra mù giữa các AI.
Trong bảng xếp hạng tổng hợp tính đến ngày 25 tháng 3 năm 2026 của nó, top 5 đều là mô hình của công ty Mỹ, mô hình Trung Quốc xếp hạng cao nhất là DeepSeek V3.2 Speciale đứng thứ sáu. Trong danh mục Hard Prompts (gợi ý từ khó, chuyên dùng để kiểm tra khả năng xử lý các nhiệm vụ suy luận phức tạp và logic nhiều bước của mô hình) kiểm tra riêng năng lực suy luận phức tạp, khoảng cách giữa các mô hình Trung-Mỹ còn rõ rệt hơn, đội hình đầu vẫn chủ yếu là các mô hình Mỹ.
Năng lực lập trình gần nhau, suy luận phức tạp vẫn còn khoảng cách, đây là thể hiện năng lực khác biệt giữa các mô hình lớn Trung-Mỹ hiện tại, cũng là cơ sở để thiết lập cách làm "gọi phân tầng" này.
Tuy nhiên, khác với việc bị khóa trong các nhà sản xuất gia công tỷ suất lợi nhuận thấp 30 năm trước, các nhà sản xuất mô hình lớn Trung Quốc không phải lúc nào cũng đi xuống về giá cả.
Trên thực tế, từ năm 2024, ngành mô hình lớn Trung Quốc đã từng xảy ra một cuộc chiến giá: tháng 5 năm 2024, mô hình lớn Doubao của Volcano Engine thuộc ByteDance đã gây ra "cuộc chiến giá" với giá 0,0008 nhân dân tệ / nghìn Token, Alibaba Cloud, Baidu Intelligent Cloud lần lượt theo sau. Gần một năm sau đó, ngành trải qua giai đoạn giá Token giảm hơn 90%, tỷ suất lợi nhuận tính toán suy luận của một số nhà sản xuất từng âm.
Chiến lược của các nhà sản xuất lúc đó là lỗ để đổi lấy quy mô, bồi dưỡng thói quen gọi của người dùng. Tuy nhiên, sau khi OpenClaw nổi tiếng vào tháng 2 năm 2026, tốc độ tăng trưởng lượng tiêu thụ Token vượt xa dự kiến, nguồn cung tính toán trở nên thắt chặt.
Zhipu phản ứng đầu tiên, ngày 12 tháng 2 năm 2026 phát hành mô hình mới GLM-5 và điều chỉnh tăng giá API, ngày 16 tháng 3 phát hành GLM-5-Turbo lại tăng giá, hai đợt tăng tổng cộng 83%.
CEO Zhipu Zhang Peng tại buổi giải trình kết quả hoạt động năm 2025 cho biết, quý 1 năm 2026 giá gọi API tăng 83%, khối lượng gọi tăng 400%. Theo báo cáo năm, doanh thu cả năm 2025 của Zhipu là 724,3 triệu nhân dân tệ, tăng 132% so với cùng kỳ, doanh thu thường niên hàng năm của nền tảng MaaS (Mô hình như một Dịch vụ) là khoảng 1,7 tỷ nhân dân tệ, tăng 60 lần trong 12 tháng.
Lựa chọn tăng giá không chỉ có mỗi Zhipu. Ngày 13 tháng 3 năm 2026, Tencent Cloud điều chỉnh giá của loạt mô hình lớn Hunyuan, một số mô hình tăng hơn 460%. Ngày 18 tháng 3, Alibaba Cloud và Baidu Intelligent Cloud cùng ngày công bố thông báo điều chỉnh giá, sản phẩm liên quan đến tính toán AI tăng từ 5% đến 34%, giá mới có hiệu lực từ ngày 18 tháng 4.
Phó chủ tịch cấp cao của Sugon Li Bin trong cuộc phỏng vấn với Economic Observer cho biết, các chỉ số đánh giá hệ thống tính toán đang thay đổi, tiêu chuẩn đánh giá một hệ thống trước đây là xem nó có bao nhiêu sức tính toán, bây giờ thì xem nó có thể sản xuất Token một cách kinh tế đến mức nào.
Từ giảm giá tập thể đến tăng giá tập thể, sự thay đổi chỉ diễn ra chưa đầy hai năm.
Tháng 3 năm 2026, Cục trưởng Cục Dữ liệu Quốc gia Liu Liehong tại Diễn đàn Phát triển Trung Quốc đã công bố một con số: lượng gọi Token hàng ngày của Trung Quốc đã vượt 140 nghìn tỷ, tăng hơn 1000 lần so với hai năm trước.
Tại hội nghị GTC cùng tháng, người sáng lập NVIDIA Huang Renxun nói rằng Token sẽ là mặt hàng đại chúng cốt lõi nhất của thế giới số trong tương lai.
Theo quan điểm của Pan Helin, sức cạnh tranh của các mô hình lớn Trung Quốc rất mạnh, không phải là bổ sung, mà là dẫn dắt, đặc biệt là ở phía ứng dụng AI. Nhưng đồng thời ông cũng cho biết, Trung Quốc vẫn còn không gian để nâng cao trong đổi mới sáng tạo gốc, các kiến trúc cốt lõi trong hệ thống AI hiện tại, từ mạng thần kinh nhân tạo đến cơ chế chú ý, đều do nước ngoài đề xuất đầu tiên, trong nước theo sau lặp lại. Bước tiếp theo của các mô hình lớn Trung Quốc cần tiếp tục phát huy ở phía ứng dụng đồng thời triển khai đổi mới sáng tạo gốc trong thuật toán cơ bản.
Ngành công nghiệp gia công điện tử tiêu dùng 30 năm trước có một đặc điểm, tỷ suất lợi nhuận của khâu lắp ráp bị các nhà sản xuất thương hiệu thượng nguồn áp chặt, nhiều nhà gia công hàng đầu phát triển đến nay tỷ suất lợi nhuận gộp vẫn không vượt quá 10%. Lợi thế chi phí mang lại đơn hàng, nhưng không mang lại quyền định giá.
Hiện tại, tình thế của các mô hình lớn Trung Quốc trông có vài phần giống với ngành công nghiệp gia công điện tử tiêu dùng ngày trước, nhưng về quyền định giá dường như lại khá khác biệt. Ví dụ, sau khi Zhipu tăng giá 83%, khối lượng gọi đã tăng 400%. Alibaba Cloud, Baidu Intelligent Cloud, Tencent Cloud cùng điều chỉnh tăng giá tính toán AI và dịch vụ mô hình vào tháng 3 năm 2026, nhu cầu không hề co lại, khối lượng gọi vẫn tiếp tục tăng.
Trên đánh giá lập trình SWE-Bench, khoảng cách giữa các mô hình Trung Quốc hàng đầu và mô hình Mỹ hàng đầu đã thu hẹp xuống dưới 1 điểm phần trăm. Khoảng cách trong suy luận phức tạp giữa hai bên vẫn còn, nhưng khoảng cách này cũng đang thu hẹp nhanh chóng.
Lần này, con đường phát triển của các nhà sản xuất mô hình lớn Trung Quốc dường như có chút khác biệt.
Bài viết này từ tài khoản WeChat công cộng "Economic Observer", tác giả: Zheng Chenye








