TL;DR
Một sơ đồ ước tính chia nhỏ khoản phí hàng tháng của Claude Pro tại Mỹ khoảng 20 đô la Mỹ cho công ty mô hình, điện toán đám mây, khấu hao GPU, điện lực và chuỗi cung ứng, đang khiến nhà đầu tư thảo luận lại cách định giá doanh thu ứng dụng AI một cách phù hợp.
Biểu đồ này không phải là dữ liệu phân chia chính thức từ Anthropic, Amazon Web Services hoặc NVIDIA, và cũng không thể được xem như báo cáo tài chính thực tế của bất kỳ công ty nào. Giá trị của nó nằm ở việc đặt ra một câu hỏi cơ bản hơn: bao nhiêu phần trong khoản phí đăng ký người dùng trả cho ứng dụng AI có thể được cô đọng thành lợi nhuận gộp phần mềm giống như SaaS truyền thống?
Hình dung về định giá SaaS truyền thống khá rõ ràng. Sau khi phần mềm được viết xong, bán thêm một tài khoản, chi phí gia tăng thường không cao, lợi nhuận gộp của các công ty phần mềm thuần túy trưởng thành thường trên 70% hoặc thậm chí 80%. Nhà đầu tư sẵn sàng trả mức bội số cao vì quy mô doanh thu mở rộng có cơ hội tiếp tục nâng cao tỷ suất lợi nhuận.
Vấn đề của ứng dụng AI nằm ở chỗ: mỗi lần người dùng đặt câu hỏi, viết mã, phân tích tệp hoặc gọi agent, đều cần tiêu tốn thời gian GPU, điện năng, băng thông bộ nhớ và tài nguyên đám mây. Bề ngoài là phí cố định hàng tháng, nhưng bên dưới lại là một chuỗi chi phí biến đổi theo khối lượng sử dụng. Người dùng nhẹ có thể mang lại lợi nhuận gộp cao, nhưng người dùng nặng chạy liên tục các tác vụ trong hạn mức khả dụng hoặc các gói công cụ liên quan, chi phí có thể tăng nhanh chóng.
Vì vậy, bức tranh chia nhỏ 20 đô la không nhằm thách thức việc một công ty cụ thể lấy đi bao nhiêu đô la, mà là liệu "doanh thu ứng dụng AI có tự nhiên bằng doanh thu SaaS hay không". Công ty AI muốn chứng minh mình xứng đáng với mức bội số cao, không chỉ cần chứng minh người dùng sẵn sàng trả tiền, mà còn phải chứng minh lợi nhuận gộp tính theo trọng số khối lượng sử dụng có thể được cải thiện liên tục.
Đằng sau phí đăng ký là một chuỗi chi phí suy luận
Điểm khác biệt lớn nhất giữa đăng ký AI và đăng ký phần mềm thông thường, là chi phí biên "sử dụng một lần" không còn gần bằng không.
Trong SaaS truyền thống, khi một đội mở thêm một tài khoản, nhà cung cấp dịch vụ cũng có chi phí máy chủ, hỗ trợ khách hàng và băng thông, nhưng những chi phí này thường không tăng tuyến tính theo mỗi lần nhấp chuột. Thứ thực sự đắt đỏ là nghiên cứu phát triển, bán hàng và thu hút khách hàng ở giai đoạn đầu. Sau khi sản phẩm được mở rộng quy mô, một phần đáng kể trong doanh thu gia tăng có thể được giữ lại.
Sản phẩm mô hình lớn thì khác. Người dùng nhập câu hỏi, mô hình tạo ra câu trả lời, quá trình này gọi là suy luận, tức là tính toán thực tế khi mô hình được người dùng gọi. Token là đơn vị đo lường cơ bản khi mô hình đọc/ghi văn bản. Người dùng hỏi càng nhiều, ngữ cảnh càng dài, nội dung tạo ra càng phức tạp, thì tiêu thụ token và sức mạnh tính toán càng nhiều.
Điều này tạo ra mâu thuẫn giữa đăng ký cố định và chi phí biến đổi. Khoản phí hàng tháng của Claude Pro ở Mỹ khoảng 20 đô la, giá có thể bị ảnh hưởng bởi khu vực, thuế và điều chỉnh của Anthropic. Người dùng thấy giá cố định, nhưng công ty mô hình phải đối mặt với hành vi sử dụng rất khác biệt. Có người chỉ viết email và tra cứu tài liệu, có người lại xử lý tài liệu dài, chạy tác vụ mã nguồn hoặc gọi các quy trình tự động hóa phức tạp hơn.
Biểu đồ chia nhỏ được lưu truyền trên thị trường cố gắng hình tượng hóa điều này: trong 20 đô la, một phần để lại cho công ty mô hình, một phần trả cho nhà cung cấp đám mây và sức mạnh tính toán. Chi phí sức mạnh tính toán bao gồm điện năng, vận hành bảo trì, khấu hao GPU. Việc mua GPU sau đó chuyển lên cho NVIDIA, TSMC, các nhà cung cấp HBM (bộ nhớ băng thông cao), module quang, ODM và các doanh nghiệp liên quan đến điện lực.
"Khấu hao GPU" ở đây có thể hiểu là, GPU đắt tiền không tính chi phí một lần, mà được phân bổ dần vào dịch vụ AI theo năm sử dụng, cường độ sử dụng hoặc cách thức kế toán. Việc phân bổ thực tế sẽ bị ảnh hưởng bởi hạn mức gói dịch vụ, tỷ lệ người dùng nhẹ/nặng, giá thanh toán nội bộ của nhà cung cấp đám mây, chiết khấu cho sức mạnh tính toán đặt trước, tỷ lệ sử dụng GPU và thời gian khấu hao. Chi phí trung bình cũng không bằng chi phí biên.
Điều nhà đầu tư thực sự cần theo dõi là xu hướng: Công ty ứng dụng AI không chỉ cần công bố tăng trưởng doanh thu, mà còn phải trả lời liệu chi phí sức mạnh tính toán đằng sau sự tăng trưởng doanh thu đó có tăng trưởng đồng thời hay không. Nếu khối lượng sử dụng mở rộng nhanh hơn hiệu quả cải thiện của mô hình, doanh thu đăng ký càng cao, áp lực lợi nhuận gộp có thể càng rõ ràng. Chỉ khi hiệu quả cải thiện đủ nhanh, công ty mô hình mới có cơ hội tiến gần trở lại cấu trúc lợi nhuận của công ty phần mềm.
Cơ sở hạ tầng nhận được doanh thu chắc chắn hơn trước
Ở giai đoạn hiện tại, sự tăng trưởng về khối lượng sử dụng AI chảy trực tiếp hơn về phía cơ sở hạ tầng, chứ không phải tất cả đều tích tụ ở tầng ứng dụng.
Bất kể người dùng sử dụng mô hình trong Claude, ChatGPT, Gemini, hay agent nội bộ doanh nghiệp, việc suy luận cuối cùng đều phải dựa vào sức mạnh tính toán, điện năng, bộ nhớ và mạng lưới. Ở tầng ứng dụng có thể xảy ra sự thay thế sản phẩm, nhưng việc tiêu thụ tài nguyên cốt lõi thì cứng nhắc hơn. Chỉ cần khối lượng sử dụng AI tiếp tục tăng, chi tiêu vốn của đám mây, mua sắm GPU, nhu cầu HBM và tiêu thụ điện của trung tâm dữ liệu sẽ được kích thích.
Đây cũng là lý do chuỗi cơ sở hạ tầng như NVIDIA, TSMC, SK Hynix tiếp tục được thị trường định giá lại. Tỷ suất lợi nhuận gộp tổng thể của NVIDIA trong những năm gần đây ở mức cao, tỷ suất lợi nhuận gộp GAAP và Non-GAAP cho năm tài chính 2026 lần lượt là khoảng 71.1% và 71.3%, hướng dẫn cho các quý tiếp theo cũng duy trì ở mức cao. Cần lưu ý, từng quý cụ thể có thể bị ảnh hưởng bởi các khoản chi phí đặc thù, báo cáo tài chính công khai cũng không phải lúc nào cũng trực tiếp tách được cấu trúc lợi nhuận gộp thực tế của trung tâm dữ liệu AI, nhưng cơ sở hạ tầng khan hiếm có quyền định giá đã được phản ánh trong kết quả kinh doanh.
HBM là một mắt xích điển hình nhất trong chuỗi này. Nó không phải là bộ nhớ thông thường, mà là bộ phận then chốt trong bộ tăng tốc AI hỗ trợ tính toán thông lượng cao. Sau khi quy mô mô hình, độ dài ngữ cảnh và nhu cầu suy luận đồng thời tăng lên, chip AI càng phụ thuộc nhiều hơn vào bộ nhớ băng thông cao. Ước tính từ chuỗi cung ứng cho thấy, tỷ trọng của HBM trong chi phí chip AI thế hệ mới tăng lên, đây cũng là lý do quan trọng khiến SK Hynix, Samsung, Micron được định giá lại trong chu kỳ AI.
Điện lực và trung tâm dữ liệu cũng từ chi phí nền trở thành chủ đề đầu tư chính. Năng lượng tiêu thụ cho một lần truy vấn văn bản thông thường có thể không đáng kể, nhưng agent phức tạp, ngữ cảnh dài, tạo mã và tác vụ nhiều vòng sẽ khuếch đại khối lượng tính toán. Đối với nhà cung cấp đám mây và nhà vận hành trung tâm dữ liệu, điểm mấu chốt không phải là một lần truy vấn tiêu thụ bao nhiêu điện, mà là khi lượng yêu cầu suy luận khổng lồ xảy ra liên tục, tỷ lệ sử dụng cụm máy, giá điện, làm mát, công suất phòng máy và khả năng kết nối lưới điện đều sẽ trở thành chi phí và nút cổ chai.
Ưu thế của phía cơ sở hạ tầng nằm ở việc xác minh kết quả kinh doanh nhanh hơn. Chi tiêu vốn AI của nhà cung cấp đám mây đã xảy ra, doanh thu và lợi nhuận gộp của NVIDIA thể hiện trong báo cáo tài chính, đơn đặt hàng và giá cả của nhà sản xuất HBM cũng sẽ nhanh chóng đi vào báo cáo lãi lỗ. Tầng ứng dụng mô hình giao dịch nhiều hơn về kỳ vọng tương lai: chuyển đổi đăng ký, tỷ lệ thâm nhập doanh nghiệp, doanh thu API và việc giải phóng lợi nhuận sau khi đường cong chi phí tương lai giảm xuống.
Cải thiện hiệu quả vẫn là cơ sở cốt lõi của phe tăng giá
Nhà đầu tư phần mềm và phe tăng giá AI không phải không có phản bác. Quan điểm cốt lõi của phe hiệu quả là, chi phí suy luận cao ngày nay chỉ là hiện tượng ở giai đoạn đầu, tối ưu hóa mô hình, bộ nhớ đệm, mô hình nhỏ, chip tự nghiên cứu và tỷ lệ sử dụng cụm máy cao hơn sẽ liên tục giảm chi phí đơn vị. Chỉ cần chi phí giảm đủ nhanh, ứng dụng AI vẫn có thể quay trở lại logic phần mềm lợi nhuận gộp cao.
Phản bác này có cơ sở thực tế. Một số mô hình chủ lực trong điều kiện năng lực tương đương hoặc cao hơn, giá đơn vị đã giảm đáng kể. OpenAI từng tiết lộ, chi phí mỗi token của GPT-4o mini so với text-davinci-003 giai đoạn đầu đã giảm 99%. Nhịp độ của các công ty khác nhau không hoàn toàn đồng nhất, Anthropic gần đây thể hiện nhiều hơn ở việc nâng cấp cùng giá và phân tầng mô hình, nhưng hướng đi của ngành vẫn là cung cấp năng lực mạnh hơn với chi phí thấp hơn.
Công ty mô hình cũng có nhiều cách để cải thiện hiệu quả kinh tế đơn vị. Tác vụ đơn giản giao cho mô hình nhỏ, yêu cầu thông thường sử dụng lại thông qua bộ nhớ đệm, ngữ cảnh dài và tác vụ phức tạp giao cho mô hình mạnh hơn. Nhà cung cấp đám mây thì giảm chi phí sức mạnh tính toán đơn vị thông qua chip tự nghiên cứu và lập lịch cụm máy. Google có TPU, Microsoft ra mắt Maia dùng cho suy luận, Amazon cũng đang thúc đẩy Trainium và Inferentia.
Nếu chỉ nhìn vào tiến bộ công nghệ, tỷ suất lợi nhuận của ứng dụng AI thực sự có không gian cải thiện. Suy luận rẻ hơn, định tuyến mô hình tốt hơn, khả năng nén mạnh hơn, đều có thể khiến cùng khoản đăng ký 20 đô la chịu được nhiều khối lượng sử dụng hơn. Người dùng nhẹ, gói doanh nghiệp giá cao, định giá phân tầng API và hạn mức sử dụng nghiêm ngặt hơn, cũng có thể cải thiện hiệu quả kinh tế đơn vị tổng thể.
Khó khăn nằm ở chỗ, giảm chi phí không phải là biến số duy nhất. Ứng dụng AI đang chuyển từ trò chuyện đơn giản sang khối lượng công việc nặng hơn. Trước đây người dùng có thể chỉ hỏi đáp và viết lại văn bản, nhưng ngày càng có nhiều nhu cầu đến từ agent mã nguồn, xử lý tài liệu dài, video và tạo đa phương thức, quy trình tự động hóa doanh nghiệp. Những kịch bản này có giá trị cao hơn, tiêu thụ cũng cao hơn. Mô hình càng hữu ích, người dùng càng có thể giao cho nó những tác vụ phức tạp hơn, thời gian dài hơn.
Sự phân kỳ từ đó trở nên cụ thể hơn: tốc độ giảm chi phí suy luận có thể vượt qua tốc độ tăng trưởng của khối lượng sử dụng và độ phức tạp tác vụ hay không. Nếu chi phí đơn vị giảm nhanh, nhưng mức tiêu thụ trung bình của người dùng tăng nhanh hơn, tỷ suất lợi nhuận gộp tính theo trọng số của công ty mô hình vẫn sẽ chịu áp lực. Ngược lại, nếu định tuyến mô hình, bộ nhớ đệm, chip tự nghiên cứu và phân tầng giá cả đủ hiệu quả, đăng ký AI có thể dần thoát khỏi đặc điểm chi phí nặng như hiện nay.
Số lượng người dùng đăng ký không phải là tỷ suất lợi nhuận gộp
Biểu đồ chia nhỏ 20 đô la không nên được hiểu là kết cục cuối cùng. Nó giống như một lời nhắc nhở về định giá ở giai đoạn hiện tại hơn: khi thị trường vẫn chưa thấy đủ dữ liệu minh bạch về tỷ suất lợi nhuận gộp của công ty mô hình, nhà đầu tư cần chiết khấu cho giả định "ứng dụng AI tự nhiên bằng SaaS".
Đối với các công ty mô hình chưa niêm yết như OpenAI, Anthropic, nhà đầu tư bên ngoài khó có thể thấy sổ sách hoàn chỉnh. Tài liệu gọi vốn, tiết lộ từ đối tác, cấu trúc chi phí đám mây, giá gói doanh nghiệp, tỷ trọng doanh thu API và hạn chế sử dụng, đều sẽ trở thành manh mối để đánh giá. Dữ liệu thực sự có giá trị không phải là có bao nhiêu người dùng trả tiền, mà là người dùng nhẹ và người dùng nặng chiếm tỷ lệ bao nhiêu, khách hàng doanh nghiệp có sẵn sàng trả giá cao hơn cho việc sử dụng cường độ cao hay không, chi phí thanh toán đám mây có giảm hay không, và việc giảm chi phí suy luận đơn vị có đi vào tỷ suất lợi nhuận gộp của công ty hay không.
Việc xác minh chuỗi niêm yết sẽ xuất hiện nhanh hơn trong báo cáo tài chính. Tỷ suất lợi nhuận gộp tổng thể và tốc độ tăng trưởng doanh thu trung tâm dữ liệu của NVIDIA, nhu cầu quy trình tiên tiến và đóng gói của TSMC, giá cả và tỷ suất lợi nhuận của nhà sản xuất HBM, cường độ chi tiêu vốn của nhà cung cấp đám mây, sẽ tiếp tục phản ánh liệu khối lượng sử dụng AI có vẫn đang chuyển hướng sang phía cơ sở hạ tầng hay không. Nếu những chỉ số này duy trì mạnh mẽ, trong khi tầng ứng dụng mô hình thiếu bằng chứng cải thiện tỷ suất lợi nhuận gộp, thị trường sẽ tiếp tục trao mức bội số định giá chắc chắn hơn cho cơ sở hạ tầng.
Cuối cùng, để lấy lại mỏ neo định giá cao hơn, công ty mô hình cần chứng minh không chỉ là người dùng sẵn sàng trả 20 đô la, mà là sau khi sử dụng nặng, những khoản phí đăng ký này vẫn có thể để lại đủ lợi nhuận gộp. Sự phân kỳ về định giá trong vòng tiếp theo, rất có thể không nằm ở con số doanh thu hàng năm định kỳ (ARR) nổi bật, mà ở việc liệu chi phí suy luận, hạn chế gói dịch vụ và giá trả phí doanh nghiệp có thể cùng lúc chạy thông suốt hay không.










