Khi suy luận trở thành nguồn lực khan hiếm, giá trị sẽ được nắm bắt bởi ai

链捕手Xuất bản vào 2026-06-08Cập nhật gần nhất vào 2026-06-08

Tóm tắt

Tác giả Frank Fu từ IOSG phân tích sự chuyển dịch then chốt trong ngành AI: từ tập trung vào huấn luyện (training) sang suy luận (inference) như là nguồn lực khan hiếm và động lực giá trị chính. Điểm mấu chốt: Vấn đề "lỗ hổng doanh thu" 2000 tỷ USD (nay là 6000 tỷ USD) được David Cahn của Sequoia đưa ra không được lấp đầy từ phía huấn luyện, mà từ phía suy luận. Inference trở thành chi phí thường xuyên, có tính chất phí dịch vụ (service token), và nhu cầu sẽ tăng theo cấp số nhân với sự phát triển của AI dạng tác nhân (agentic AI) và AI vật lý (physical AI). Các bằng chứng: * **Cerebras IPO:** Được định giá cao với mức认购 vượt 20 lần nhờ kiến trúc chip tối ưu cho inference. * **Định hướng lại của NVIDIA:** Tái cấu trúc báo cáo tài chính xoay quanh "dịch vụ token", thành lập mảng Edge Computing song song với Data Center, và công bố chip Vera Rubin tập trung vào inference. * **Tình huống thực tế - Anthropic:** Phải tiếp quản toàn bộ một trung tâm dữ liệu để giải quyết tắc nghẽn inference, và chuyển đổi mô hình định giá cho các tác nhân AI sang tính phí theo mức sử dụng. **Kiến trúc ngăn xếp (stack) và nơi đọng giá trị:** Bài viết mô tả một ngăn xếp 6 tầng từ nhà máy bán dẫn đến API. Khi inference trở thành nút thắt cổ chai, giá trị sẽ chảy mạnh vào các tầng trung gian có khả năng **tổng hợp và định tuyến hiệu quả** nguồn cung điện toán phân mảnh. * **Venice** được nêu như một ví dụ ở tầng ứng dụng - một "trạm xăng" mua sức mạnh inference để bán lại với giá trị gia tăn...

Tác giả: Frank Fu, IOSG

Lỗ hổng mà David Cahn đề cập năm 2023, chưa bao giờ được lấp đầy ở phía huấn luyện. Nó đã được lấp đầy ở phía suy luận (inference), và thị trường chỉ mới bắt đầu định giá điều này trong vài tuần qua. Khi Nvidia tái cơ cấu báo cáo tài chính xoay quanh "service token", khi Cerebras IPO được định giá cao gấp 20 lần, cuộc chiến về điểm tắc nghẽn đã kết thúc. Câu hỏi thực sự bây giờ là: khi suy luận trở thành nguồn lực khan hiếm, giá trị sẽ lắng đọng ở tầng nào trong stack điện toán.

I. Đi theo GPU: Từ vấn đề 2000 tỷ USD đến vấn đề 6000 tỷ USD

Năm 2023, David Cahn của Sequoia đã đặt ra câu hỏi treo lơ lửng trên toàn bộ công cuộc xây dựng AI, tức "Vấn đề 2000 tỷ USD". Cứ mỗi đô la chi cho GPU, lại phải chi thêm khoảng 1 đô la để cấp điện cho nó trong trung tâm dữ liệu. Do đó, mỗi năm chi tiêu vốn (CapEx) cho GPU đều có nghĩa là những con chip này cuối cùng phải tạo ra doanh thu khoảng 2000 tỷ USD mới có thể hoàn vốn. Ngay cả với những giả định rất hào phóng về doanh thu AI, ông vẫn thấy một lỗ hổng hơn 1250 tỷ USD giữa "đầu tư" và "khoản thanh toán thực tế của khách hàng cuối". Mối lo ngại rất thẳng thắn: GPU đang được xây dựng quá mức, vượt xa nhu cầu thực tế.

Một năm sau, khoảng cách không những không thu hẹp mà còn mở rộng hơn. Trong bài viết tiếp theo năm 2024, khi các nhà cung cấp siêu lớn (hyperscaler) mở rộng CapEx, Cahn đã định nghĩa lại nó là "Vấn đề 6000 tỷ USD". Logic bi quan tập trung vào một hình mẫu quen thuộc: xây dựng quá mức dẫn đến dư thừa cung, và sự dư thừa sẽ thiêu rụi vốn.

Cả hai bài viết thực chất đều hỏi một điều: Ai sẽ lấp đầy lỗ hổng này? Câu trả lời chưa bao giờ xuất hiện trong sổ sách ở phía "huấn luyện". Nó xuất hiện ở phía suy luận (inference), và thị trường chỉ mới bắt đầu tính đến nó trong định giá trong vài tuần gần đây.

II. IPO của Cerebras và sức ép suy luận

Cerebras đã lên sàn vào thứ Năm. IPO này được định giá cao gấp 20 lần, với mức giá gần gấp đôi so với mức điều chỉnh cuối cùng vào thứ Tư. Nhu cầu không đến từ việc đặt cược vào "kẻ giết Nvidia tiếp theo", mà từ một điều đơn giản hơn: thị trường bắt đầu nhận ra rằng, điểm tắc nghẽn thực sự trong AI là suy luận, không phải huấn luyện.

Điểm mạnh của Cerebras là một kiến trúc chip giúp suy luận cực kỳ nhanh. Không phải huấn luyện, mà là suy luận. Đây chính xác là điểm khiến Phố Wall phấn khích. Thị trường suy luận là thường xuyên, nó mở rộng cùng với mức độ sử dụng. Mỗi lần Claude trả lời câu hỏi, mỗi lần tác nhân (agent) thực hiện nhiệm vụ, đều tiêu tốn điện toán. Huấn luyện chỉ xảy ra một lần, suy luận không bao giờ ngừng.

J.P. Morgan ước tính quy mô thị trường suy luận gấp 10 đến 50 lần huấn luyện. Khi máy móc bắt đầu thực hiện các nhiệm vụ do chính máy móc khác giao phó, tức sự mở rộng theo kiểu tác nhân (agentic), nhu cầu suy luận sẽ không còn mở rộng theo số người dùng nữa, mà mở rộng theo chính năng lực điện toán.

III. Nvidia vẽ lại bản đồ: Suy luận trở thành tiêu đề

Nếu Cerebras là sự thức tỉnh của thị trường, thì báo cáo tài chính mới nhất của Nvidia chính là sự xác nhận từ đỉnh chuỗi cung ứng. Trong cuộc gọi báo cáo tài chính mới nhất, Jensen Huang đã nói thẳng điều mà ai cũng ngầm hiểu: Nhu cầu AI đang tăng trưởng theo hình parabol. Lý do rất đơn giản: AI tác nhân (agentic AI) đã đến. AI chủ đạo đã chuyển từ suy luận một lần, sang suy luận logic, rồi tiến vào giai đoạn tác nhân có thể tự gọi công cụ, sắp xếp nhiệm vụ. Huang nói, "Giờ đây Tokens có lợi nhuận." Trong thời đại AI, điện toán chính là doanh thu và lợi nhuận.

Điều này định hình lại toàn bộ ngành. Huấn luyện là chi phí một lần để xây dựng một mô hình, suy luận là chi phí thường xuyên để vận hành nó, và hiện nay điểm tắc nghẽn nằm ở suy luận, không phải huấn luyện.

Nvidia đã ghi nhận nhận định này vào cách báo cáo tài chính của mình. Giờ đây họ báo cáo theo hai nền tảng, thay vì một: Trung tâm Dữ liệu (Data Center) và Điện toán Biên (Edge Computing). Trung tâm Dữ liệu (quý vừa rồi khoảng 75 tỷ USD, tăng +92% so với cùng kỳ) được chia nhỏ thành Hyperscale (khoảng 38 tỷ USD, tăng +12% so với quý trước) và ACIE, tức Đám mây, Công nghiệp & Doanh nghiệp AI (khoảng 37 tỷ USD, tăng +31% so với quý trước). Một dòng hoàn toàn mới là Điện toán Biên: 6.4 tỷ USD, tăng +29% so với cùng kỳ, bao phủ các điểm cuối nơi AI tác nhân và AI vật lý (physical AI) thực sự hoạt động, như PC, trạm làm việc, trạm gốc AI-RAN, robot và ô tô.

Hiện tại, biên vẫn chiếm chưa đến 8% tổng doanh thu, nhưng Nvidia đã nâng nó lên thành "nền tảng thứ hai" ngang hàng với trung tâm dữ liệu. Tín hiệu này là: suy luận đang tách thành hai mặt trận, suy luận trên đám mây (cloud inference) trong trung tâm dữ liệu, và suy luận tại điểm cuối (endpoint inference) ở phía biên, nơi AI phải nhìn thấy, di chuyển và hành động trong thế giới vật lý. Lộ trình tuân theo cùng logic: Vera Rubin bắt đầu xuất xưởng từ quý III, có thông lượng suy luận cao gấp tới 35 lần Blackwell; Huang cũng đưa ra một TAM hoàn toàn mới trị giá 2000 tỷ USD cho CPU Vera được chế tạo cho tải tác nhân. Mọi công ty mô hình tiên phong dự kiến sẽ chuyển sang nó ngay từ ngày đầu.

Khi công ty có giá trị vốn hóa cao nhất hành tinh tái cơ cấu báo cáo tài chính xoay quanh "service token", thì cuộc chiến về điểm tắc nghẽn đã ngã ngũ. Phần còn lại của bài viết này thảo luận về việc khi suy luận (chứ không phải huấn luyện) trở thành nguồn lực khan hiếm, thì giá trị sẽ được nắm bắt bởi ai.

Trước tiên, xác định phạm vi. Trong hai mặt trận này, bài viết thảo luận về suy luận trên đám mây (cloud inference), tức dịch vụ GPU cho thuê trong trung tâm dữ liệu cung cấp API token ra ngoài. Suy luận tại điểm cuối (endpoint inference) chạy trên chip cục bộ bên trong chính thiết bị (Jetson, RTX, Drive, AI-RAN của Nvidia), hoàn toàn không đi qua stack thuê và tổng hợp GPU bên dưới. Ở đây, hãy coi nó là cơn gió thuận giúp khuếch đại toàn bộ nền kinh tế suy luận, củng cố luận điểm về điểm tắc nghẽn, chứ không phải là thị trường mà Hyperbolic và Venice đang ở, hai công ty này hoàn toàn nằm trên mặt trận đám mây.

IV. Sức ép đã đến

Anthropic là chim hoàng yến trong mỏ than. Lượng sử dụng vượt xa công suất được cấu hình trước, những lời phàn nàn về việc Claude bị "cắt thùy não" tràn ngập khắp mạng, bao gồm phản hồi bị giới hạn, suy luận chậm lại, cửa sổ ngữ cảnh bị nén. Giải pháp chính là sức mạnh điện toán trần trụi: Tháng 5 năm 2026, Anthropic tiếp quản toàn bộ Trung tâm Dữ liệu Colossus 1 từ SpaceX, với hơn 220,000 GPU Nvidia, hơn 300 megawatt, và dành riêng cho suy luận, không phải huấn luyện.

Phần công suất này đã mở khóa một loạt thay đổi về giới hạn, mỗi lần là một tín hiệu. Ngày 6 tháng 5, Anthropic tăng gấp đôi giới hạn 5 giờ của Claude Code, hủy bỏ giới hạn lưu lượng trong giờ cao điểm, và tăng đáng kể giới hạn tốc độ API cho Opus. Ngày 13 tháng 5, lại tăng thêm 50% giới hạn hàng tuần của Claude Code (đến ngày 13 tháng 7). Sau đó, từ ngày 15 tháng 6, họ làm điều ngược lại với "hào phóng": tách việc sử dụng kiểu tác nhân và lập trình hóa (Agent SDK, chế độ không đầu claude -p, pipeline CI) ra khỏi gói đăng ký phẳng (flat subscription), đưa vào một pool tín dụng tính phí độc lập (20 đến 200 USD mỗi tháng, tính theo giá API). Bước cuối cùng này cô đọng toàn bộ luận điểm trong một hành động: tác nhân tiêu thụ suy luận với tốc độ vượt xa khả năng chịu đựng của thiết kế gói đăng ký phẳng, do đó phải được định giá theo đúng "chi phí thường xuyên" vốn có của nó.

Huấn luyện là chi phí vốn một lần. Suy luận là một chi phí vận hành thường xuyên, tích lũy theo lãi kép với mỗi người dùng mới, mỗi tác nhân mới.

V. Stack này: Sáu tầng, một điểm tắc nghẽn

Mỗi ứng dụng AI đều nằm trên một chuỗi cung ứng bắt đầu từ nhà máy wafer TSMC và kết thúc ở điểm cuối API:

Hầu hết các công ty chỉ sở hữu một tầng trong đó. Nvidia sở hữu silicon, CoreWeave sở hữu bare metal, Together AI sở hữu tối ưu hóa suy luận, OpenRouter sở hữu định tuyến API mô hình.

Chỉ có một ngoại lệ.

VI. Hyperbolic: Công ty duy nhất trải dài ba tầng

Hyperbolic ra mắt thị trường GPU theo yêu cầu của mình vào tháng 6 năm 2025. Trong vài tháng đầu tiên, số lượng nhà phát triển đã vượt 200,000+, người dùng bao gồm các phòng thí nghiệm AI tiên phong, công cụ tìm kiếm và các nền tảng tiêu dùng lớn.

Điều thú vị là kiến trúc của nó.

Hyperbolic không sở hữu bất kỳ GPU nào. Mỗi card đều đến từ neocloud và các trung tâm dữ liệu, bao gồm CoreWeave, Lambda Labs, Nebius, và các nhà điều hành nhỏ hơn có năng lực nhàn rỗi. Nghe có vẻ giống điểm yếu, nhưng thực chất lại là hào rào phòng thủ.

Bằng cách đứng giữa bên cung cấp GPU và bên tiêu thụ, Hyperbolic có thể nhìn thấy dữ liệu thời gian thực mà người khác không thấy. Họ biết ai đang mua GPU gì, với giá nào, vào thời điểm nào. Họ thấy tình trạng dư cung trước khi nó trở nên công khai, thấy nhu cầu tăng vọt trước khi nó tấn công thị trường.

Hiện nay, chính hào rào phòng thủ là sự tổng hợp đa đám mây (multi-cloud aggregation) này. Hyperbolic kết hợp năng lực phân mảnh từ hàng chục đám mây và trung tâm dữ liệu độc lập thành một hồ thống nhất, tiêu chuẩn hóa, cho phép nhà phát triển thuê GPU rẻ nhất có sẵn ở bất cứ đâu mà không cần đàm phán với từng nhà điều hành hoặc quản lý một loạt tài khoản. Họ càng kết nối nhiều đám mây, thanh khoản càng sâu, dữ liệu định giá càng phong phú. Về sau, đội ngũ đang khám phá cách sử dụng những dữ liệu này để mô hình hóa đường cong giá GPU, và cuối cùng đầu tư vốn tự có để san bằng cung cầu, đóng vai trò nhà tạo lập thị trường cho điện toán vật lý; nhưng mục tiêu này vẫn còn sớm, thứ thực sự tạo lợi tức kép ở hiện tại là tầng tổng hợp.

Đây chính là bánh đà (flywheel):

Kết nối nhiều đám mây hơn → Nhiều nguồn cung được tổng hợp hơn
Nhiều nguồn cung hơn → Thị trường sâu hơn và dữ liệu định giá thời gian thực
Dữ liệu tốt hơn → Định tuyến thông minh hơn ở hiện tại, và về lâu dài là mô hình định giá
Thanh khoản và giá cả tốt hơn → Nhiều nhà phát triển hơn → Nhiều đám mây muốn kết nối hơn

Không có công ty nào khác đang thử làm điều này. Hyperbolic là công ty duy nhất trải dài đồng thời ba tầng: Tầng cho thuê GPU, Tầng triển khai và Tầng API mô hình.

VII. Tấm gương mang tên Venice

Venice là hiện thân rõ ràng nhất của nền kinh tế suy luận ở tầng ứng dụng, và cũng là một đối chiếu hữu ích với vị trí của Hyperbolic. Nó là một ứng dụng suy luận ưu tiên quyền riêng tư: một bộ API tương thích OpenAI, cộng với gói đăng ký hướng đến người tiêu dùng (Free / Pro / Pro+ / Max), định tuyến yêu cầu đến khoảng 75 mô hình, trong đó khoảng hai phần ba là mô hình mã nguồn mở hoặc tự lưu trữ (Llama, Mistral, Qwen, DeepSeek), phần còn lại là truyền tải ẩn danh đến các mô hình tiên phong đóng. Điểm mấu chốt là, Venice không sở hữu năng lực điện toán đáng kể nào. Họ thuê từ các đối tác GPU không công khai và nhà cung cấp điện toán bí mật (NEAR AI Cloud, Phala), và trả phí cho các phòng thí nghiệm tiên phong để truyền tải, vì vậy chi phí doanh thu (cost of revenue) thực sự của họ là điện toán suy luận, chứ không phải lưu trữ SaaS.

Thứ Venice thực sự bán là quyền riêng tư. "Riêng tư hóa" ở đây không phải biến điện toán công cộng thành tài sản riêng, mà là bọc một lớp đảm bảo cho suy luận hàng hóa: không lưu giữ dữ liệu, không sử dụng để huấn luyện, yêu cầu được ẩn danh hóa, một phần tải còn chạy trong TEE để ngay cả nhà điều hành cũng không nhìn thấy văn bản rõ ràng. Điện toán cơ sở là hàng hóa, phần giá trị tăng thêm để bán chính là lớp đóng gói quyền riêng tư này. Và lớp đảm bảo này là phân tầng, không đồng nhất: đối với các mô hình mã nguồn mở chạy trên GPU do chính họ kiểm soát hoặc trong TEE, có thể đạt được điện toán bí mật gần như từ đầu đến cuối; nhưng đối với việc truyền tải ẩn danh đến các mô hình đóng như Claude, GPT, quyền riêng tư chỉ là tước bỏ danh tính, phía phòng thí nghiệm tiên phông vẫn xử lý prompt gốc của bạn. Vì vậy, quyền riêng tư mạnh nhất chỉ bao phủ phần mã nguồn mở, phần mô hình tiên phong là "ẩn danh" chứ không phải "bí mật thực sự". Lợi nhuận gộp của Venice = Giá đăng ký − Chi phí suy luận trả cho hạ nguồn, và phần giá trị tăng thêm mà họ có thể thu so với giá API trần chủ yếu dựa vào khoản phụ phí quyền riêng tư này, đây cũng là lý do tại sao họ có lợi nhuận mỏng và bị phụ thuộc vào định giá truyền tải từ các phòng thí nghiệm tiên phong.

Thiết kế token đã đóng gói phần nhu cầu suy luận này. Venice chạy trên hai token: VVV (staking và truy cập nền tảng) và DIEM, loại sau là một khoản tín dụng suy luận, mỗi DIEM tương đương với khoảng 1 USD điện toán mỗi ngày. Đăng ký trả phí sẽ kích hoạt mua lại và tiêu hủy VVV theo chương trình (Pro / Pro+ / Max lần lượt khoảng 2 / 5 / 10 USD), trong khi việc phát hành giảm theo một lịch trình cố định: từ 6M → 5M → 4M VVV mỗi tháng, và sẽ giảm xuống 3M vào ngày 1 tháng 7. Việc mua lại là có thật, nhưng mang tính tùy ý và vẫn không lớn: mỗi tháng 4 và 5 tiêu hủy khoảng 103,000 USD, tháng 6 đang từ từ tăng lên khoảng 110,000 USD, thấp hơn nhiều so với mốc 200,000 USD mỗi tháng.

Cơ bản lành mạnh hơn các tiêu đề. Con số "7000 triệu USD ARR" được lan truyền công khai hầu như chắc chắn là sản phẩm của việc nhầm lẫn giữa gia hạn đăng ký với khách hàng mới ròng; khoảng có thể biện minh hơn là gần 6 đến 15 triệu USD ARR. Dưới đó, lực kéo (traction) là có thật: khoảng 136,000 địa chỉ nắm giữ token, khoảng 9.9 triệu lượt truy cập trang web mỗi tháng (khoảng 330,000 lượt mỗi ngày), đăng ký Pro mới dao động quanh mức khoảng 1400 mỗi ngày. Đây là một doanh nghiệp thực sự, nhưng là một doanh nghiệp có lợi nhuận mỏng, tính kinh tế của nó bị phụ thuộc vào năng lực điện toán mà nó mua.

Đây chính xác là lý do Hyperbolic ở trên Venice một tầng. Nếu Venice là trạm xăng, Hyperbolic là nhà máy lọc dầu. Venice mua điện toán từ cùng nguồn cung hạn chế mà mọi người đều phụ thuộc; Hyperbolic tổng hợp và tiêu chuẩn hóa nguồn cung phân mảnh đó, rồi bán lại cho Venice và tất cả những người chơi giống như vậy. Khi nhu cầu suy luận tăng, giá trị không chỉ tích lũy về phía các ứng dụng tiêu thụ điện toán, mà còn về phía tầng tổng hợp và định tuyến điện toán, nắm bắt chi phí doanh thu mà các ứng dụng này phải trả.

VIII. Tại sao điều này quan trọng lúc này

Nvidia đã tái cơ cấu tài chính xoay quanh "service token". IPO của Cerebras chứng minh thị trường đã hiểu suy luận là điểm tắc nghẽn. Anthropic chạy đôn chạy đáo tìm công suất, chứng minh đây là một vấn đề thực sự. AI tác nhân và AI vật lý sẽ khuếch đại nhu cầu lên gấp nhiều lần, trải dài trên cả hai mặt trận đám mây và biên.

Và nó cũng đóng lại vòng lặp của "Vấn đề 6000 tỷ USD" từ phía bên kia. Logic bi quan của Cahn, tức xây dựng quá mức, rồi dư thừa, cuối cùng rất có thể sẽ được xác minh. Nhưng dư thừa chính là tình thế tối ưu cho bên tổng hợp không nắm giữ tài sản: khi giá GPU giảm, nguồn cung phân mảnh trên hàng chục đám mây, người chơi không sở hữu bất kỳ phần cứng nào, định tuyến mỗi tải công việc đến card khả dụng rẻ nhất sẽ kiếm được chênh lệch giá, trong khi các nhà điều hành nắm giữ GPU liên tục khấu hao phải chịu lỗ. Hyperbolic là đặt cược vào sự dư thừa, chứ không phải chống lại nó.

Công ty cuối cùng chiến thắng, sẽ không phải là công ty sở hữu nhiều GPU nhất, mà là công ty có thể cho bạn biết GPU nào đang ở đâu, với giá nào, và định tuyến mỗi tải công việc đến nơi có thể chạy với chi phí thấp nhất.

Hyperbolic đang xây dựng một công ty như vậy. Không tự sở hữu GPU, thuần phần mềm, sâu ba tầng, nhưng đang xây dựng để trở thành tầng tổng hợp điện toán tối thượng cho suy luận.

Câu hỏi Liên quan

QBài viết đề cập "vấn đề 2000 tỷ USD" và "vấn đề 6000 tỷ USD" của David Cahn là gì?

A"Vấn đề 2000 tỷ USD" do David Cahn (Sequoia) đưa ra năm 2023. Theo đó, mỗi 1 USD chi cho GPU thì cần thêm 1 USD cho điện và hạ tầng. Tổng vốn hóa đầu tư GPU mỗi năm phải tạo ra khoản doanh thu khoảng 2000 tỷ USD mới có lãi. Tuy nhiên, ông thấy một "khoảng trống" hơn 1250 tỷ USD giữa đầu tư và doanh thu thực tế từ khách hàng, lo ngại về việc xây dựng GPU vượt quá nhu cầu thực. Năm 2024, với mức đầu tư vốn (CapEx) của các công ty quy mô siêu lớn tăng mạnh, ông nâng con số này lên thành "vấn đề 6000 tỷ USD", duy trì logic lo ngại về cung vượt cầu có thể đốt cháy vốn.

QTại sao bài viết lại khẳng định suy luận (inference), chứ không phải huấn luyện (training), mới là điểm nghẽn thực sự trong AI hiện nay?

ABài viết đưa ra ba bằng chứng chính. Thứ nhất, Cerebras - công ty có kiến trúc chip tối ưu cho inference - IPO thành công với mức định giá cao và được săn đón, cho thấy thị trường nhận ra giá trị của inference. Thứ hai, Nvidia đã cấu trúc lại báo cáo tài chính, tách riêng Doanh thu Trung tâm Dữ liệu và Điện toán Biên, và nhấn mạnh tầm quan trọng của AI dạng tác nhân (agentic) và token dịch vụ. Thứ ba, các công ty như Anthropic đang căng thẳng về năng lực inference, phải tìm kiếm và cấp phát riêng các trung tâm dữ liệu khổng lồ chỉ để chạy inference. Inference là chi phí vận hành thường xuyên, tăng theo cấp số nhân khi có thêm người dùng và tác nhân AI, trong khi training chỉ là chi phí vốn một lần.

QHyperbolic khác biệt như thế nào so với các công ty cung cấp GPU khác như CoreWeave?

AHyperbolic là một nền tảng tổng hợp (aggregation layer) đa đám mây dành cho GPU. Điểm khác biệt cốt lõi: Hyperbolic KHÔNG sở hữu bất kỳ GPU vật lý nào. Thay vào đó, họ kết nối và tổng hợp nguồn cung GPU phân mảnh từ hàng chục nhà cung cấp khác nhau (như CoreWeave, Lambda Labs, Nebius và các nhà khai thác nhỏ hơn) thành một thị trường GPU tiêu chuẩn hóa, thống nhất. Điều này cho phép họ có cái nhìn toàn cảnh về nguồn cung và giá cả thị trường theo thời gian thực, từ đó định tuyến công việc của khách hàng đến nơi có GPU rẻ nhất/khả dụng nhất. Trong khi đó, CoreWeave và các công ty tương tự là nhà khai thác hạ tầng, sở hữu và vận hành trực tiếp các trung tâm dữ liệu và GPU.

QVenice kiếm tiền như thế nào và tại sao bài viết gọi nó là 'trạm xăng' so với Hyperbolic - 'nhà máy lọc dầu'?

AVenice kiếm tiền chủ yếu thông qua hai dịch vụ: 1) API tương thích OpenAI (dành cho nhà phát triển), và 2) Đăng ký trả phí cho người dùng cuối (Free/Pro/Pro+/Max). Venice tự mình thuê năng lực tính toán (GPU) từ các đối tác bên nạp (NẾU không công khai) và các nhà cung cấp điện toán bảo mật, sau đó bán lại cho người dùng dưới dạng dịch vụ. Giá trị cốt lõi Venice cung cấp là bảo mật và quyền riêng tư (không lưu trữ dữ liệu, không dùng để huấn luyện, ẩn danh hóa). Lợi nhuận gộp của họ = Giá đăng ký - Chi phí thuê inference. Bài viết gọi Venice là "trạm xăng" vì họ tiêu thụ năng lực tính toán (inference) giống như một loại hàng hóa cơ bản. Hyperbolic là "nhà máy lọc dầu" vì họ đứng ở tầng trên, tổng hợp và tinh chế nguồn cung GPU phân mảnh từ nhiều nơi, tạo ra một thị trường thanh khoản cao và sau đó cung cấp nó cho các "trạm xăng" như Venice.

QTại sao bài viết cho rằng sự 'dư thừa' GPU lại là điều kiện tối ưu cho một công ty như Hyperbolic?

ABài viết lập luận rằng logic "dư thừa GPU dẫn đến cung vượt cầu và gây thiệt hại" trong "vấn đề 6000 tỷ USD" thực tế lại tạo cơ hội cho mô hình kinh doanh của Hyperbolic. Khi nguồn cung GPU dư thừa, giá sẽ giảm và trở nên phân mảnh trên nhiều nhà cung cấp đám mây khác nhau. Lúc này, công ty sở hữu GPU vật lý (như CoreWeave) phải chịu khấu hao tài sản và cạnh tranh giá gay gắt. Ngược lại, Hyperbolic - với tư cách là nền tảng tổng hợp không sở hữu tài sản - có thể tận dụng dữ liệu thị trường thời gian thực để định tuyến mọi tác vụ của khách hàng đến nơi có GPU rẻ nhất, thu lợi nhuận từ chênh lệch giá hoặc phí dịch vụ. Nói cách khác, Hyperbolic "đặt cược vào sự dư thừa" chứ không phải chống lại nó, vì dư thừa làm tăng thanh khoản và cơ hội kiếm lời từ việc định tuyến thông minh.

cryptonews.ru11 phút trước

Giao dịch

Giao ngay

Khi suy luận trở thành nguồn lực khan hiếm, giá trị sẽ được nắm bắt bởi ai

Tóm tắt

I. Đi theo GPU: Từ vấn đề 2000 tỷ USD đến vấn đề 6000 tỷ USD

II. IPO của Cerebras và sức ép suy luận

III. Nvidia vẽ lại bản đồ: Suy luận trở thành tiêu đề

IV. Sức ép đã đến

V. Stack này: Sáu tầng, một điểm tắc nghẽn

VI. Hyperbolic: Công ty duy nhất trải dài ba tầng

VII. Tấm gương mang tên Venice

VIII. Tại sao điều này quan trọng lúc này

Câu hỏi Liên quan

Nội dung Liên quan

U Today: Thứ Sáu — Ngày Tồi Tệ Nhất Đối Với Bitcoin

OpenAI giảm giá cổ phiếu Luna 80% do các mô hình mã nguồn mở của Trung Quốc giành thị phần xử lý token

Ngân hàng Nhật Bản ám chỉ việc tăng lãi suất bất chấp giữ nguyên ở mức 1%

Phát hiện cho thấy 92,7% dự trữ Bitcoin (BTC) của tổ chức đang nằm trong tay các công ty có trụ sở tại Mỹ

Reddit tăng gấp ba lợi nhuận lên 253 triệu USD, nhưng ghi nhận sự bất ổn trong lượt tìm kiếm

Giao dịch

Danh mục Phổ biến

Thẻ Nổi bật