Tác giả: Frank Fu, IOSG
Lỗ hổng mà David Cahn đề cập năm 2023, chưa bao giờ được lấp đầy ở phía huấn luyện. Nó đã được lấp đầy ở phía suy luận (inference), và thị trường chỉ mới bắt đầu định giá điều này trong vài tuần qua. Khi Nvidia tái cơ cấu báo cáo tài chính xoay quanh "service token", khi Cerebras IPO được định giá cao gấp 20 lần, cuộc chiến về điểm tắc nghẽn đã kết thúc. Câu hỏi thực sự bây giờ là: khi suy luận trở thành nguồn lực khan hiếm, giá trị sẽ lắng đọng ở tầng nào trong stack điện toán.
I. Đi theo GPU: Từ vấn đề 2000 tỷ USD đến vấn đề 6000 tỷ USD
Năm 2023, David Cahn của Sequoia đã đặt ra câu hỏi treo lơ lửng trên toàn bộ công cuộc xây dựng AI, tức "Vấn đề 2000 tỷ USD". Cứ mỗi đô la chi cho GPU, lại phải chi thêm khoảng 1 đô la để cấp điện cho nó trong trung tâm dữ liệu. Do đó, mỗi năm chi tiêu vốn (CapEx) cho GPU đều có nghĩa là những con chip này cuối cùng phải tạo ra doanh thu khoảng 2000 tỷ USD mới có thể hoàn vốn. Ngay cả với những giả định rất hào phóng về doanh thu AI, ông vẫn thấy một lỗ hổng hơn 1250 tỷ USD giữa "đầu tư" và "khoản thanh toán thực tế của khách hàng cuối". Mối lo ngại rất thẳng thắn: GPU đang được xây dựng quá mức, vượt xa nhu cầu thực tế.
Một năm sau, khoảng cách không những không thu hẹp mà còn mở rộng hơn. Trong bài viết tiếp theo năm 2024, khi các nhà cung cấp siêu lớn (hyperscaler) mở rộng CapEx, Cahn đã định nghĩa lại nó là "Vấn đề 6000 tỷ USD". Logic bi quan tập trung vào một hình mẫu quen thuộc: xây dựng quá mức dẫn đến dư thừa cung, và sự dư thừa sẽ thiêu rụi vốn.
Cả hai bài viết thực chất đều hỏi một điều: Ai sẽ lấp đầy lỗ hổng này? Câu trả lời chưa bao giờ xuất hiện trong sổ sách ở phía "huấn luyện". Nó xuất hiện ở phía suy luận (inference), và thị trường chỉ mới bắt đầu tính đến nó trong định giá trong vài tuần gần đây.
II. IPO của Cerebras và sức ép suy luận
Cerebras đã lên sàn vào thứ Năm. IPO này được định giá cao gấp 20 lần, với mức giá gần gấp đôi so với mức điều chỉnh cuối cùng vào thứ Tư. Nhu cầu không đến từ việc đặt cược vào "kẻ giết Nvidia tiếp theo", mà từ một điều đơn giản hơn: thị trường bắt đầu nhận ra rằng, điểm tắc nghẽn thực sự trong AI là suy luận, không phải huấn luyện.
Điểm mạnh của Cerebras là một kiến trúc chip giúp suy luận cực kỳ nhanh. Không phải huấn luyện, mà là suy luận. Đây chính xác là điểm khiến Phố Wall phấn khích. Thị trường suy luận là thường xuyên, nó mở rộng cùng với mức độ sử dụng. Mỗi lần Claude trả lời câu hỏi, mỗi lần tác nhân (agent) thực hiện nhiệm vụ, đều tiêu tốn điện toán. Huấn luyện chỉ xảy ra một lần, suy luận không bao giờ ngừng.
J.P. Morgan ước tính quy mô thị trường suy luận gấp 10 đến 50 lần huấn luyện. Khi máy móc bắt đầu thực hiện các nhiệm vụ do chính máy móc khác giao phó, tức sự mở rộng theo kiểu tác nhân (agentic), nhu cầu suy luận sẽ không còn mở rộng theo số người dùng nữa, mà mở rộng theo chính năng lực điện toán.
III. Nvidia vẽ lại bản đồ: Suy luận trở thành tiêu đề
Nếu Cerebras là sự thức tỉnh của thị trường, thì báo cáo tài chính mới nhất của Nvidia chính là sự xác nhận từ đỉnh chuỗi cung ứng. Trong cuộc gọi báo cáo tài chính mới nhất, Jensen Huang đã nói thẳng điều mà ai cũng ngầm hiểu: Nhu cầu AI đang tăng trưởng theo hình parabol. Lý do rất đơn giản: AI tác nhân (agentic AI) đã đến. AI chủ đạo đã chuyển từ suy luận một lần, sang suy luận logic, rồi tiến vào giai đoạn tác nhân có thể tự gọi công cụ, sắp xếp nhiệm vụ. Huang nói, "Giờ đây Tokens có lợi nhuận." Trong thời đại AI, điện toán chính là doanh thu và lợi nhuận.
Điều này định hình lại toàn bộ ngành. Huấn luyện là chi phí một lần để xây dựng một mô hình, suy luận là chi phí thường xuyên để vận hành nó, và hiện nay điểm tắc nghẽn nằm ở suy luận, không phải huấn luyện.
Nvidia đã ghi nhận nhận định này vào cách báo cáo tài chính của mình. Giờ đây họ báo cáo theo hai nền tảng, thay vì một: Trung tâm Dữ liệu (Data Center) và Điện toán Biên (Edge Computing). Trung tâm Dữ liệu (quý vừa rồi khoảng 75 tỷ USD, tăng +92% so với cùng kỳ) được chia nhỏ thành Hyperscale (khoảng 38 tỷ USD, tăng +12% so với quý trước) và ACIE, tức Đám mây, Công nghiệp & Doanh nghiệp AI (khoảng 37 tỷ USD, tăng +31% so với quý trước). Một dòng hoàn toàn mới là Điện toán Biên: 6.4 tỷ USD, tăng +29% so với cùng kỳ, bao phủ các điểm cuối nơi AI tác nhân và AI vật lý (physical AI) thực sự hoạt động, như PC, trạm làm việc, trạm gốc AI-RAN, robot và ô tô.
Hiện tại, biên vẫn chiếm chưa đến 8% tổng doanh thu, nhưng Nvidia đã nâng nó lên thành "nền tảng thứ hai" ngang hàng với trung tâm dữ liệu. Tín hiệu này là: suy luận đang tách thành hai mặt trận, suy luận trên đám mây (cloud inference) trong trung tâm dữ liệu, và suy luận tại điểm cuối (endpoint inference) ở phía biên, nơi AI phải nhìn thấy, di chuyển và hành động trong thế giới vật lý. Lộ trình tuân theo cùng logic: Vera Rubin bắt đầu xuất xưởng từ quý III, có thông lượng suy luận cao gấp tới 35 lần Blackwell; Huang cũng đưa ra một TAM hoàn toàn mới trị giá 2000 tỷ USD cho CPU Vera được chế tạo cho tải tác nhân. Mọi công ty mô hình tiên phong dự kiến sẽ chuyển sang nó ngay từ ngày đầu.
Khi công ty có giá trị vốn hóa cao nhất hành tinh tái cơ cấu báo cáo tài chính xoay quanh "service token", thì cuộc chiến về điểm tắc nghẽn đã ngã ngũ. Phần còn lại của bài viết này thảo luận về việc khi suy luận (chứ không phải huấn luyện) trở thành nguồn lực khan hiếm, thì giá trị sẽ được nắm bắt bởi ai.
Trước tiên, xác định phạm vi. Trong hai mặt trận này, bài viết thảo luận về suy luận trên đám mây (cloud inference), tức dịch vụ GPU cho thuê trong trung tâm dữ liệu cung cấp API token ra ngoài. Suy luận tại điểm cuối (endpoint inference) chạy trên chip cục bộ bên trong chính thiết bị (Jetson, RTX, Drive, AI-RAN của Nvidia), hoàn toàn không đi qua stack thuê và tổng hợp GPU bên dưới. Ở đây, hãy coi nó là cơn gió thuận giúp khuếch đại toàn bộ nền kinh tế suy luận, củng cố luận điểm về điểm tắc nghẽn, chứ không phải là thị trường mà Hyperbolic và Venice đang ở, hai công ty này hoàn toàn nằm trên mặt trận đám mây.
IV. Sức ép đã đến
Anthropic là chim hoàng yến trong mỏ than. Lượng sử dụng vượt xa công suất được cấu hình trước, những lời phàn nàn về việc Claude bị "cắt thùy não" tràn ngập khắp mạng, bao gồm phản hồi bị giới hạn, suy luận chậm lại, cửa sổ ngữ cảnh bị nén. Giải pháp chính là sức mạnh điện toán trần trụi: Tháng 5 năm 2026, Anthropic tiếp quản toàn bộ Trung tâm Dữ liệu Colossus 1 từ SpaceX, với hơn 220,000 GPU Nvidia, hơn 300 megawatt, và dành riêng cho suy luận, không phải huấn luyện.
Phần công suất này đã mở khóa một loạt thay đổi về giới hạn, mỗi lần là một tín hiệu. Ngày 6 tháng 5, Anthropic tăng gấp đôi giới hạn 5 giờ của Claude Code, hủy bỏ giới hạn lưu lượng trong giờ cao điểm, và tăng đáng kể giới hạn tốc độ API cho Opus. Ngày 13 tháng 5, lại tăng thêm 50% giới hạn hàng tuần của Claude Code (đến ngày 13 tháng 7). Sau đó, từ ngày 15 tháng 6, họ làm điều ngược lại với "hào phóng": tách việc sử dụng kiểu tác nhân và lập trình hóa (Agent SDK, chế độ không đầu claude -p, pipeline CI) ra khỏi gói đăng ký phẳng (flat subscription), đưa vào một pool tín dụng tính phí độc lập (20 đến 200 USD mỗi tháng, tính theo giá API). Bước cuối cùng này cô đọng toàn bộ luận điểm trong một hành động: tác nhân tiêu thụ suy luận với tốc độ vượt xa khả năng chịu đựng của thiết kế gói đăng ký phẳng, do đó phải được định giá theo đúng "chi phí thường xuyên" vốn có của nó.
Huấn luyện là chi phí vốn một lần. Suy luận là một chi phí vận hành thường xuyên, tích lũy theo lãi kép với mỗi người dùng mới, mỗi tác nhân mới.
V. Stack này: Sáu tầng, một điểm tắc nghẽn
Mỗi ứng dụng AI đều nằm trên một chuỗi cung ứng bắt đầu từ nhà máy wafer TSMC và kết thúc ở điểm cuối API:
Hầu hết các công ty chỉ sở hữu một tầng trong đó. Nvidia sở hữu silicon, CoreWeave sở hữu bare metal, Together AI sở hữu tối ưu hóa suy luận, OpenRouter sở hữu định tuyến API mô hình.
Chỉ có một ngoại lệ.
VI. Hyperbolic: Công ty duy nhất trải dài ba tầng
Hyperbolic ra mắt thị trường GPU theo yêu cầu của mình vào tháng 6 năm 2025. Trong vài tháng đầu tiên, số lượng nhà phát triển đã vượt 200,000+, người dùng bao gồm các phòng thí nghiệm AI tiên phong, công cụ tìm kiếm và các nền tảng tiêu dùng lớn.
Điều thú vị là kiến trúc của nó.
Hyperbolic không sở hữu bất kỳ GPU nào. Mỗi card đều đến từ neocloud và các trung tâm dữ liệu, bao gồm CoreWeave, Lambda Labs, Nebius, và các nhà điều hành nhỏ hơn có năng lực nhàn rỗi. Nghe có vẻ giống điểm yếu, nhưng thực chất lại là hào rào phòng thủ.
Bằng cách đứng giữa bên cung cấp GPU và bên tiêu thụ, Hyperbolic có thể nhìn thấy dữ liệu thời gian thực mà người khác không thấy. Họ biết ai đang mua GPU gì, với giá nào, vào thời điểm nào. Họ thấy tình trạng dư cung trước khi nó trở nên công khai, thấy nhu cầu tăng vọt trước khi nó tấn công thị trường.
Hiện nay, chính hào rào phòng thủ là sự tổng hợp đa đám mây (multi-cloud aggregation) này. Hyperbolic kết hợp năng lực phân mảnh từ hàng chục đám mây và trung tâm dữ liệu độc lập thành một hồ thống nhất, tiêu chuẩn hóa, cho phép nhà phát triển thuê GPU rẻ nhất có sẵn ở bất cứ đâu mà không cần đàm phán với từng nhà điều hành hoặc quản lý một loạt tài khoản. Họ càng kết nối nhiều đám mây, thanh khoản càng sâu, dữ liệu định giá càng phong phú. Về sau, đội ngũ đang khám phá cách sử dụng những dữ liệu này để mô hình hóa đường cong giá GPU, và cuối cùng đầu tư vốn tự có để san bằng cung cầu, đóng vai trò nhà tạo lập thị trường cho điện toán vật lý; nhưng mục tiêu này vẫn còn sớm, thứ thực sự tạo lợi tức kép ở hiện tại là tầng tổng hợp.
Đây chính là bánh đà (flywheel):
-
Kết nối nhiều đám mây hơn → Nhiều nguồn cung được tổng hợp hơn
-
Nhiều nguồn cung hơn → Thị trường sâu hơn và dữ liệu định giá thời gian thực
-
Dữ liệu tốt hơn → Định tuyến thông minh hơn ở hiện tại, và về lâu dài là mô hình định giá
-
Thanh khoản và giá cả tốt hơn → Nhiều nhà phát triển hơn → Nhiều đám mây muốn kết nối hơn
Không có công ty nào khác đang thử làm điều này. Hyperbolic là công ty duy nhất trải dài đồng thời ba tầng: Tầng cho thuê GPU, Tầng triển khai và Tầng API mô hình.
VII. Tấm gương mang tên Venice
Venice là hiện thân rõ ràng nhất của nền kinh tế suy luận ở tầng ứng dụng, và cũng là một đối chiếu hữu ích với vị trí của Hyperbolic. Nó là một ứng dụng suy luận ưu tiên quyền riêng tư: một bộ API tương thích OpenAI, cộng với gói đăng ký hướng đến người tiêu dùng (Free / Pro / Pro+ / Max), định tuyến yêu cầu đến khoảng 75 mô hình, trong đó khoảng hai phần ba là mô hình mã nguồn mở hoặc tự lưu trữ (Llama, Mistral, Qwen, DeepSeek), phần còn lại là truyền tải ẩn danh đến các mô hình tiên phong đóng. Điểm mấu chốt là, Venice không sở hữu năng lực điện toán đáng kể nào. Họ thuê từ các đối tác GPU không công khai và nhà cung cấp điện toán bí mật (NEAR AI Cloud, Phala), và trả phí cho các phòng thí nghiệm tiên phong để truyền tải, vì vậy chi phí doanh thu (cost of revenue) thực sự của họ là điện toán suy luận, chứ không phải lưu trữ SaaS.
Thứ Venice thực sự bán là quyền riêng tư. "Riêng tư hóa" ở đây không phải biến điện toán công cộng thành tài sản riêng, mà là bọc một lớp đảm bảo cho suy luận hàng hóa: không lưu giữ dữ liệu, không sử dụng để huấn luyện, yêu cầu được ẩn danh hóa, một phần tải còn chạy trong TEE để ngay cả nhà điều hành cũng không nhìn thấy văn bản rõ ràng. Điện toán cơ sở là hàng hóa, phần giá trị tăng thêm để bán chính là lớp đóng gói quyền riêng tư này. Và lớp đảm bảo này là phân tầng, không đồng nhất: đối với các mô hình mã nguồn mở chạy trên GPU do chính họ kiểm soát hoặc trong TEE, có thể đạt được điện toán bí mật gần như từ đầu đến cuối; nhưng đối với việc truyền tải ẩn danh đến các mô hình đóng như Claude, GPT, quyền riêng tư chỉ là tước bỏ danh tính, phía phòng thí nghiệm tiên phông vẫn xử lý prompt gốc của bạn. Vì vậy, quyền riêng tư mạnh nhất chỉ bao phủ phần mã nguồn mở, phần mô hình tiên phong là "ẩn danh" chứ không phải "bí mật thực sự". Lợi nhuận gộp của Venice = Giá đăng ký − Chi phí suy luận trả cho hạ nguồn, và phần giá trị tăng thêm mà họ có thể thu so với giá API trần chủ yếu dựa vào khoản phụ phí quyền riêng tư này, đây cũng là lý do tại sao họ có lợi nhuận mỏng và bị phụ thuộc vào định giá truyền tải từ các phòng thí nghiệm tiên phong.
Thiết kế token đã đóng gói phần nhu cầu suy luận này. Venice chạy trên hai token: VVV (staking và truy cập nền tảng) và DIEM, loại sau là một khoản tín dụng suy luận, mỗi DIEM tương đương với khoảng 1 USD điện toán mỗi ngày. Đăng ký trả phí sẽ kích hoạt mua lại và tiêu hủy VVV theo chương trình (Pro / Pro+ / Max lần lượt khoảng 2 / 5 / 10 USD), trong khi việc phát hành giảm theo một lịch trình cố định: từ 6M → 5M → 4M VVV mỗi tháng, và sẽ giảm xuống 3M vào ngày 1 tháng 7. Việc mua lại là có thật, nhưng mang tính tùy ý và vẫn không lớn: mỗi tháng 4 và 5 tiêu hủy khoảng 103,000 USD, tháng 6 đang từ từ tăng lên khoảng 110,000 USD, thấp hơn nhiều so với mốc 200,000 USD mỗi tháng.
Cơ bản lành mạnh hơn các tiêu đề. Con số "7000 triệu USD ARR" được lan truyền công khai hầu như chắc chắn là sản phẩm của việc nhầm lẫn giữa gia hạn đăng ký với khách hàng mới ròng; khoảng có thể biện minh hơn là gần 6 đến 15 triệu USD ARR. Dưới đó, lực kéo (traction) là có thật: khoảng 136,000 địa chỉ nắm giữ token, khoảng 9.9 triệu lượt truy cập trang web mỗi tháng (khoảng 330,000 lượt mỗi ngày), đăng ký Pro mới dao động quanh mức khoảng 1400 mỗi ngày. Đây là một doanh nghiệp thực sự, nhưng là một doanh nghiệp có lợi nhuận mỏng, tính kinh tế của nó bị phụ thuộc vào năng lực điện toán mà nó mua.
Đây chính xác là lý do Hyperbolic ở trên Venice một tầng. Nếu Venice là trạm xăng, Hyperbolic là nhà máy lọc dầu. Venice mua điện toán từ cùng nguồn cung hạn chế mà mọi người đều phụ thuộc; Hyperbolic tổng hợp và tiêu chuẩn hóa nguồn cung phân mảnh đó, rồi bán lại cho Venice và tất cả những người chơi giống như vậy. Khi nhu cầu suy luận tăng, giá trị không chỉ tích lũy về phía các ứng dụng tiêu thụ điện toán, mà còn về phía tầng tổng hợp và định tuyến điện toán, nắm bắt chi phí doanh thu mà các ứng dụng này phải trả.
VIII. Tại sao điều này quan trọng lúc này
Nvidia đã tái cơ cấu tài chính xoay quanh "service token". IPO của Cerebras chứng minh thị trường đã hiểu suy luận là điểm tắc nghẽn. Anthropic chạy đôn chạy đáo tìm công suất, chứng minh đây là một vấn đề thực sự. AI tác nhân và AI vật lý sẽ khuếch đại nhu cầu lên gấp nhiều lần, trải dài trên cả hai mặt trận đám mây và biên.
Và nó cũng đóng lại vòng lặp của "Vấn đề 6000 tỷ USD" từ phía bên kia. Logic bi quan của Cahn, tức xây dựng quá mức, rồi dư thừa, cuối cùng rất có thể sẽ được xác minh. Nhưng dư thừa chính là tình thế tối ưu cho bên tổng hợp không nắm giữ tài sản: khi giá GPU giảm, nguồn cung phân mảnh trên hàng chục đám mây, người chơi không sở hữu bất kỳ phần cứng nào, định tuyến mỗi tải công việc đến card khả dụng rẻ nhất sẽ kiếm được chênh lệch giá, trong khi các nhà điều hành nắm giữ GPU liên tục khấu hao phải chịu lỗ. Hyperbolic là đặt cược vào sự dư thừa, chứ không phải chống lại nó.
Công ty cuối cùng chiến thắng, sẽ không phải là công ty sở hữu nhiều GPU nhất, mà là công ty có thể cho bạn biết GPU nào đang ở đâu, với giá nào, và định tuyến mỗi tải công việc đến nơi có thể chạy với chi phí thấp nhất.
Hyperbolic đang xây dựng một công ty như vậy. Không tự sở hữu GPU, thuần phần mềm, sâu ba tầng, nhưng đang xây dựng để trở thành tầng tổng hợp điện toán tối thượng cho suy luận.







