Trí Phổ Dựa Vào Đâu Để Tăng Gần 30% Trong Một Ngày?

marsbitXuất bản vào 2026-05-23Cập nhật gần nhất vào 2026-05-23

Tóm tắt

Hôm nay, cổ phiếu của "cổ phiếu mô hình lớn toàn cầu đầu tiên" Zhipu AI (02513.HK) đã bùng nổ. Động lực chính đến từ một thông số kỹ thuật cụ thể: Tốc độ đầu ra API của phiên bản cao tốc GLM-5.1 (GLM-5.1-highspeed) đạt 400 token/giây, thiết lập kỷ lục mới về tốc độ API trong ngành công nghiệp mô hình lớn toàn cầu. Tốc độ 400 token/giây này quan trọng như thế nào? Khi AI chuyển từ ChatBot sang thời đại Agent, mỗi tác vụ thường yêu cầu hàng chục hoặc thậm chí hàng trăm lần gọi mô hình. Độ trễ thấp ở đây trở thành yếu tố then chốt, trực tiếp ảnh hưởng đến trải nghiệm người dùng và hiệu quả công việc. Tốc độ này nhanh gấp khoảng 3-5 lần so với các mô hình hàng đầu hiện tại như GPT-4o hay Claude Sonnet. Để đạt được bước đột phá này, Zhipu AI đã thực hiện những đổi mới đồng thời trên ba cấp độ: 1. **TileRT – Công cụ suy luận:** Biên dịch toàn bộ mô hình thành một động cơ chạy liên tục, loại bỏ chi phí khởi động và chờ đợi lặp đi lặp lại giữa các toán tử, cho phép GPU duy trì hoạt động ở tốc độ cao. 2. **Chiến lược song song:** Tối ưu hóa việc triển khai cơ chế chú ý MLA (Multi-head Latent Attention) của GLM-5.1 trên nhiều GPU. Họ áp dụng kiến trúc chạy không đồng nhất, trong đó GPU 0 chuyên xử lý chỉ mục thưa thớt và định tuyến, trong khi các GPU khác xử lý tính toán dày đặc, giảm thiểu đáng kể chi phí giao tiếp. 3. **Kiến trúc mạng ZCube:** Một thiết kế mạng mới thay thế cấu trúc ROFT (Fat-Tree) truyền thống. ZCube loại bỏ lớp Spine (xương sống), làm phẳng toàn bộ mạng và kết...

Văn bản | AIDeepDive

Hôm nay, cổ phiếu "mô hình lớn toàn cầu đầu tiên" Trí Phổ (02513.HK) một lần nữa tăng mạnh.

Mức tăng trong ngày một lúc vượt quá 30%. Giá đóng cửa là 1282 HKD, mức tăng cả ngày vượt quá 26%, vốn hóa thị trường đạt 5715,7 tỷ HKD, một lần nữa lập mức cao kỷ lục mới.

Yếu tố kích hoạt đợt tăng mạnh này là một chỉ số kỹ thuật cụ thể: 400 tokens/s.

Ngày 22 tháng 5, Trí Phổ chính thức mở API phiên bản tốc độ cao GLM-5.1 (GLM-5.1-highspeed) cho khách hàng doanh nghiệp, tham số cốt lõi quan trọng nhất chỉ có một: tốc độ đầu ra mô hình đạt 400 token mỗi giây, thiết lập giới hạn tốc độ API mới cho các nhà cung cấp mô hình lớn toàn cầu.

Ban đầu tôi nghĩ đây lại là một lần đóng gói PR của mô hình lớn Trung Quốc, nhưng sau khi xem kỹ chi tiết kỹ thuật, cuối cùng đã hiểu logic đằng sau thị trường vốn.

400 tokens/s là khái niệm gì?

Mô hình có thể tạo ra khoảng 200 chữ Hán mỗi giây, tương đương với sản lượng cao cường độ trong một phút của một nhà văn chuyên nghiệp, được nén vào trong một giây.

Khối lượng văn bản mà một người sáng tạo phải mất vài ngày liên tục ngồi viết mới xong, GLM-5.1 phiên bản tốc độ cao có thể hoàn thành trong vòng 1 phút; một nhiệm vụ tái cấu trúc hệ thống mà một kỹ sư phải cúi đầu làm trong 3 ngày, nó có thể chạy xong trong thời gian uống một tách cà phê.

01 Tốc độ, quan trọng hơn bạn nghĩ

Tốc độ, từ trước đến nay vẫn là chiều kích dễ bị bỏ qua nhất trong cuộc cạnh tranh mô hình AI.

Ba năm qua, cuộc chạy đua vũ trang mô hình lớn tập trung vào hai đường đua: quy mô tham số (mô hình lớn hơn, thông minh hơn) và cuộc chiến giá (Token rẻ hơn, phổ cập hơn). "Nhanh", chưa bao giờ là nhân vật chính.

Điều này là vì, "nhanh" trước đây thường được thực hiện bằng cách thu nhỏ tham số mô hình. Để tăng tốc, phải sử dụng mô hình nhỏ hơn và tinh gọn hơn, cái giá phải trả là khả năng bị thu hẹp.

Ý nghĩa của GLM-5.1 phiên bản tốc độ cao lần này là, trong khi giữ nguyên khả năng của kiến trúc cơ sở kích thước đầy đủ hàng đầu, nó đã đẩy tốc độ lên 400 tokens/s.

Cho dù là xét từ mô hình trong nước, hay xét từ phạm vi quốc tế, "khả năng hàng đầu" và "độ trễ cực thấp" lần đầu tiên đạt được mà không phải hy sinh.

Tại sao tốc độ lại quan trọng như vậy? Bởi vì chiến trường chính của AI đang xảy ra sự di chuyển cơ bản.

Khi AI từ ChatBot bước vào thời đại Agent, hỏi đáp không còn là cảnh chính của AI nữa, mà để Agent hoàn thành một nhiệm vụ, mô hình thường cần tự gọi hàng chục thậm chí hàng trăm lượt: viết mã, điều chỉnh giao diện, tìm kiếm thông tin, gọi công cụ…

Trong chế độ làm việc này, độ trễ giữa mỗi lượt gọi sẽ bị cộng dồn và phóng đại một cách tàn nhẫn. Một nhiệm vụ cần 50 lượt gọi, nếu mỗi lần tiết kiệm được 1 giây, toàn bộ nhiệm vụ sẽ nhanh hơn gần 1 phút. Đối với trợ lý lập trình AI, tương tác giọng nói, hệ thống ra quyết định kinh doanh, khoảng cách này có thể quyết định sống chết.

Từ góc độ sâu hơn, trong ngân sách thời gian cố định, suy luận nhanh hơn có nghĩa là mô hình có thể hoàn thành con đường suy luận sâu hơn, nhiều lượt tự xác minh hơn. Tốc độ, đang từ chỉ số hệ thống trở thành chính giới hạn thông minh.

02 Việc tốc độ, khó đến mức nào?

Vậy hiện tại trong ngành, trình độ về tốc độ khoảng nào?

Trong số các nhà sản xuất hàng đầu, GPT-4o của OpenAI khoảng 100–150 tokens/s, Claude Sonnet series của Anthropic khoảng 80–120 tokens/s, API mô hình hàng đầu chủ đạo trong nước phần lớn trong khoảng 50–100 tokens/s. 400 tokens/s là khoảng 3 đến 5 lần mức trung bình ngành.

Quan trọng hơn, khoảng cách này không phải chỉ cần đầu tư nhiều sức tính toán hơn là có thể bù đắp.

Một máy chủ được trang bị 8 card đồ họa H200, về lý thuyết mỗi giây có thể vận chuyển dữ liệu lên tới 38TB. Đối với GLM-5.1, mỗi lần tạo một token chỉ cần đọc khoảng 42GB tham số kích hoạt, suy đoán thuần lý thuyết, nên tiệm cận 1000 tokens/s.

Nhưng hệ thống thực tế thường chỉ chạy được vài chục tokens/s.

Đây là một hố sâu cách biệt một cấp số. GPU không phải không đủ nhanh, mà rất nhiều thời gian bị lãng phí vào việc chờ đợi, chạy không tải và điều phối vô hiệu.

Lần này Trí Phổ chính là sáng tạo đồng thời ở ba cấp độ: động cơ suy luận, chiến lược song song, kiến trúc mạng, đạt được bước đột phá về tốc độ cuối cùng.

03 Ba lớp kỹ thuật chồng lên, tiệm cận giới hạn vật lý phần cứng

Mô hình lớn ban đầu vận hành như thế này, mô hình lớn được phân giải thành từng toán tử độc lập, mỗi toán tử khởi động một lõi tính toán (kernel) riêng, tính toán xong thì dừng, đồng bộ chờ đợi, rồi khởi động tiếp theo.

Ở giai đoạn huấn luyện, mỗi lần tính toán động đến vài giây thậm chí vài phút, chi phí khởi động và chờ đợi này hoàn toàn có thể bỏ qua. Nhưng khi suy luận, mỗi lần tạo một token, một bước then chốt nào đó có thể chỉ cần vài chục micro giây, chi phí khởi động và chờ đợi trở nên tương đối không thể bỏ qua.

Ý tưởng cốt lõi của TileRT: Biên dịch toàn bộ mô hình thành một động cơ chạy liên tục, khởi động một lần, không bao giờ dừng.

TileRT ở giai đoạn biên dịch mã sớm mở rộng tĩnh tất cả logic tính toán của mô hình thành một dây chuyền liên tục, khi chạy GPU luôn duy trì vận hành tốc độ cao, tính toán, vận chuyển dữ liệu, truyền thông tiến hành song song, kết quả trung gian cố gắng lưu lại trong bộ nhớ đệm tốc độ cao bên trong GPU, không còn ghi lại bộ nhớ chậm rồi đọc lại nhiều lần.

Ở đây có một chi tiết thiết kế then chốt: Warp chuyên môn hóa.

Để hiểu Warp, cần hiểu cách làm việc của GPU. Điểm khác biệt lớn nhất giữa GPU và CPU là bên trong nó có hàng ngàn đơn vị tính toán tương đối đơn giản, những đơn vị này 32 cái thành một nhóm bó lại với nhau, nhóm này gọi là Warp.

32 đơn vị trong cùng một Warp phải luôn đồng bộ hành động, thực thi cùng một lệnh, giống như một tiểu đội trong quân đội, tiểu đội trưởng ra lệnh tất cả cùng làm một động tác.

Trong khung truyền thống, tất cả Warp thực thi cùng một chuỗi lệnh; TileRT để các nhóm Warp khác nhau đảm nhận trách nhiệm khác nhau: một phần chuyên trách vận chuyển dữ liệu tiếp theo vào trước, một phần chuyên trách tính toán toán học, một phần chuyên trách truyền thông với GPU khác. Ba nhóm người cùng làm việc, phối hợp dây chuyền, không chờ đợi nhau.

Giống như từ "một công nhân vận chuyển gạch, xây tường, nghiệm thu làm tuần tự", trở thành "nhóm vận chuyển gạch, nhóm xây tường, nhóm nghiệm thu cùng quay".

Hiệu suất bên trong một card giải quyết rồi, song song nhiều card lại có thách thức mới.

Cách làm thông dụng ngành là song song tensor (Tensor Parallel): Chia ma trận trọng số của mô hình thành một số phần, mỗi GPU phụ trách một phần, sau khi tính toán xong thì tổng hợp kết quả thông qua kết nối tốc độ cao (NVLink).

Giải pháp này đối với loại tính toán dày đặc quy tắc như nhân ma trận rất hiệu quả, hiện là giải pháp đa card tiêu chuẩn cho hầu hết khung suy luận mô hình lớn.

GLM-5.1 sử dụng **MLA (Multi-head Latent Attention, cơ chế chú ý tiềm ẩn đa đầu), đây là một cơ chế chú ý do DeepSeek đề xuất.

Cơ chế chú ý truyền thống cần lưu trữ đầy đủ một lượng lớn dữ liệu trung gian (KV Cache) của mỗi bước tính toán để dùng, rất hao bộ nhớ; cách làm của MLA là nén trước những dữ liệu trung gian này thành một "vectơ tiềm ẩn" nhỏ gọn để lưu, khi dùng thì mở ra khôi phục, nhu cầu bộ nhớ giảm mạnh, hiệu suất suy luận cao hơn.

Nhưng trong quy trình tính toán của MLA có một khâu đặc biệt: cần làm chỉ mục thưa thớt từ một lượng lớn thông tin lịch sử: tương tự như trong một thư viện khổng lồ trước tiên nhanh chóng tìm ra mấy quyển sách liên quan nhất, rồi đọc kỹ mấy quyển sách đó.

Bước "tìm sách" này phụ thuộc thông tin toàn cục, không phù hợp để chia đều nhiều card; "đọc kỹ" mới là tính toán dày đặc phù hợp song song nhiều card. Nếu cưỡng ép tất cả 8 GPU đều tham gia "tìm sách", nhiều thời gian sẽ bị lãng phí vào truyền thông đồng bộ giữa các GPU.

Giải pháp của TileRT là để GPU chạy dị thể: GPU 0 chuyên đảm nhận "nhân viên tra cứu thư viện", phụ trách chỉ mục thưa thớt và quyết định định tuyến; GPU 1–7 đảm nhận "nhân viên phân tích đọc kỹ", phụ trách tính toán chú ý dày đặc và tính toán ma trận. Hai loại người làm việc mỗi loại sử dụng chiến lược song song phù hợp nhất với mình để phối hợp hoàn thành toàn bộ lớp tính toán.

Tiếp theo, TileRT nhúng trực tiếp thao tác truyền thông giữa các GPU vào dây chuyền thực thi, không còn là bước độc lập. Nhìn từ bên ngoài, toàn bộ hệ thống 8 card hoàn thành một lớp tính toán chú ý chỉ cần một lần khởi động kernel, truyền thông và tính toán bên trong hoàn thành liền mạch trong dây chuyền liên tục bên trong.

Hai lớp trên giải quyết vấn đề trong phạm vi một máy. Khi cụm mở rộng đến hàng trăm thậm chí hàng ngàn GPU, bản thân việc truyền dữ liệu giữa các GPU trở thành trần mới.

Cách làm thông dụng ngành là ROFT (Rail-Optimized Fat-Tree), đây là giải pháp chính thức NVIDIA đề xuất, tiêu chuẩn tuyệt đối của ngành.

Cấu trúc của nó là một cái cây: máy chủ trước tiên kết nối bộ chuyển mạch Leaf cấp dưới (lớp truy nhập, trực tiếp hướng đến máy chủ), Leaf kết nối lên bộ chuyển mạch Spine (lớp xương sống, phụ trách kết nối giữa các Leaf khác nhau, như nút giao thông đường cao tốc). Dữ liệu truyền giữa hai GPU, phải "trước tiên lên Spine, rồi xuống Leaf mục tiêu", ít nhất qua 3 bước nhảy.

Để tránh lưu lượng tập trung vào một số ít đường liên kết, kiến trúc này phụ thuộc vào thuật toán ECMP để phân phối dữ liệu giữa nhiều đường dẫn, vận hành tốt trong điều kiện tiền đề lưu lượng Internet "phân bố đều thống kê".

Nhưng lưu lượng cảnh suy luận hoàn toàn không đều. Độ dài ngữ cảnh của các yêu cầu khác nhau có thể chênh lệch đến hàng chục lần, hướng truyền KV Cache giữa các GPU gần như ngẫu nhiên, mấy bộ chuyển mạch Leaf nào đó sẽ định kỳ trở thành điểm nóng, kích hoạt cơ chế phản áp, làm tắc nghẽn từ cục bộ lan rộng ra toàn đường liên kết. Sự tắc nghẽn này không phải điều chỉnh tham số giao thức là giải quyết được, là sản phẩm của chính cấu trúc tô pô.

Đột phá căn bản của ZCube: Từ cấp độ kiến trúc khiến loại tắc nghẽn này không thể xảy ra về mặt vật lý.

Thiết kế cốt lõi chia hai bước:

Bước một, hủy bỏ lớp xương sống Spine, làm phẳng toàn mạng. Chia tất cả bộ chuyển mạch Leaf thành hai nhóm theo số chẵn lẻ, hai nhóm kết nối hoàn toàn với nhau, bất kỳ bộ chuyển mạch số lẻ nào kết nối tất cả bộ chuyển mạch số chẵn, ngược lại. Bất kỳ hai GPU nào giữa chúng nhiều nhất qua hai bộ chuyển mạch là có thể đến nhau, số bước nhảy giảm từ 3 xuống 2.

Bước hai, cũng là chỗ tinh tế nhất: mỗi card mạng GPU dùng hai cách hoàn toàn khác nhau để lần lượt kết nối vào hai nhóm bộ chuyển mạch. Tô pô đặc biệt này mang lại một tính chất toán học then chốt: toàn mạng giữa hai GPU bất kỳ, có và chỉ có một đường dẫn tối ưu duy nhất.

"Đường dẫn duy nhất" trực tiếp loại bỏ căn nguyên tắc nghẽn. Kiến trúc truyền thống dễ xuất hiện điểm nóng, chính là vì có nhiều đường dẫn để chọn, thuật toán cân bằng tải chọn sai sẽ dẫn đến lưu lượng tập trung. ZCube trong thiết kế loại bỏ việc "lựa chọn" chính nó: không cần cân bằng, vì căn bản không có ngã rẽ.

04 Trong điều kiện phần cứng giống nhau, tính toán sổ sách thế nào?

Sau khi Trí Phổ nâng cấp cụm sản xuất GLM-5.1 từ ROFT truyền thống lên ZCube, nhận được ba con số:

Tóm lại, cùng mức đầu tư GPU, cụm có thể phục vụ nhiều người dùng hơn; cùng yêu cầu trải nghiệm người dùng, cụm có thể mua ít hơn một phần ba thiết bị mạng. Hiệu suất và chi phí cải thiện hai chiều.

Cụ thể, thông lượng tăng 15%, bằng miễn phí thêm 15% sức tính toán. Trong điều kiện số lượng GPU không đổi, thông lượng tăng 15%, tương đương với chi phí phần cứng bình quân mỗi token giảm khoảng 13%, hay nói cách khác cùng chi phí có thể phục vụ thêm 15% người dùng.

Nếu một cụm có 1000 GPU, lần nâng cấp này tương đương với việc nhiều ra năng lực của 150 card, theo giá thị trường card suy luận cao cấp hiện tại, đây là giá trị sức tính toán cấp số tỷ.

Độ trễ đuôi giảm 40.6%, giải quyết vấn đề ổn định chứ không phải tốc độ trung bình. Một nhiệm vụ Agent cần 50 lượt gọi, nếu độ trễ đuôi mỗi lần giảm 1 giây, thời gian hoàn thành tồi nhất của toàn bộ nhiệm vụ sẽ bị nén gần 1 phút.

Chi phí giảm một phần ba, là tiết kiệm trực tiếp ở cấp độ xây dựng. ZCube hủy bỏ lớp Spine, với quy mô cụm giống nhau, số lượng bộ chuyển mạch và module quang cần thiết trực tiếp giảm một phần ba. Theo tính toán của Trí Phổ, trong cụm quy mô vạn card, chỉ riêng mục này có thể tiết kiệm khoảng 2,1 đến 6,4 tỷ nhân dân tệ.

Về lâu dài, khi quy mô cụm tăng cấp số mũ, độ phức tạp truyền thông giữa các GPU tăng gấp bội, xác suất và ảnh hưởng tắc nghẽn cũng tăng đồng bộ. Điều này có nghĩa là giá trị của loại sáng tạo cấp kiến trúc như ZCube, sẽ xuất hiện tăng tốc khi cụm suy luận tiếp tục mở rộng. Lợi ích của cụm cấp vạn card ngày mai có thể không chỉ 15% hôm nay.

05 Viết ở cuối

Sau khi xem báo cáo kỹ thuật của Trí Phổ, tôi nghĩ, liệu điều này có giống như DeepSeek xuất hiện bất ngờ, mang đến một cơn bão cho ngành?

Suy nghĩ kỹ, ảnh hưởng của cả hai dường như ở các khía cạnh khác nhau. Khi DeepSeek ra mắt, nó chứng minh rằng, cùng trí thông minh, có thể thực hiện với ít sức tính toán hơn nhiều. Thị trường lo lắng "cần GPU ít hơn", nên vốn hóa thị trường của NVIDIA ngày hôm đó bay hơi gần 6000 tỷ USD.

Nhưng kỹ thuật của Trí Phổ hôm nay chứng minh: cùng sức tính toán, có thể sản xuất nhiều hơn. Nó đang tái cấu trúc "ngoài GPU, các cơ sở hạ tầng khác nên trông như thế nào".

Nhìn ngắn hạn, NVIDIA sẽ không bị ảnh hưởng, nhưng nhìn dài hạn, hào sức mạnh của GPU + kết nối NVLink + mạng InfiniBand + hệ sinh thái phần mềm CUDA đang bị "xới đất", đặc biệt là InfiniBand mà NVIDIA mua của Mellanox với 6,9 tỷ USD năm 2019, giá trị thặng dư phía mạng của NVIDIA sẽ bị xói mòn mạnh.

Ngoài ra, ZCube hủy bỏ lớp Spine, nhưng nó đối với yêu cầu mật độ cổng của bộ chuyển mạch Leaf ngược lại cao hơn. Hưởng lợi là các nhà sản xuất có thể làm bộ chuyển mạch Leaf mật độ cao, cổng lớn (Ruijie, Arista, chip chuyển mạch Broadcom), bị tổn thất là các nhà sản xuất chủ yếu phụ thuộc vào bộ chuyển mạch Spine cao cấp ăn giá trị thặng dư.

Năm 2025, Celestica và NVIDIA chiếm tổng cộng khoảng 50% thị phần bộ chuyển mạch mạng hậu cần AI, cục diện này sau khi mô hình ZCube lan rộng sẽ đối mặt với sắp xếp lại.

Module quang là hướng chuỗi công nghiệp thay đổi trực tiếp nhất trong lần này, logic rất rõ ràng. Đối với các nhà sản xuất module quang trong nước (Zhongji Innolight, T&W Communications, v.v.), đây là một lợi thế cấu trúc: không chỉ tổng lượng đang tăng, mà nhu cầu đối với module quang tốc độ cao (800G, 1.6T) dưới mô hình ZCube càng tập trung và cấp bách hơn kiến trúc truyền thống.

Cho dù là TileRT hay kiến trúc ZCube, đây là một bộ động cơ suy luận phần mềm thuần chạy trên GPU tiêu chuẩn, không phụ thuộc vào đặc tính phần cứng riêng của NVIDIA, về lý thuyết có thể chuyển sang chip nội địa như Ascend của Huawei. Hướng này một khi thông suốt, sẽ giảm mạnh ngưỡng cửa ngăn xếp phần mềm của chip AI nội địa trong cảnh suy luận.

Đây có lẽ mới là ý nghĩa lớn hơn đằng sau sự sáng tạo kỹ thuật này.

Câu hỏi Liên quan

QĐiều gì đã kích hoạt sự tăng giá gần 30% của cổ phiếu Zhipu AI?

ASự kiện kích hoạt là việc Zhipu AI chính thức mở cửa API phiên bản tốc độ cao GLM-5.1-highspeed cho khách hàng doanh nghiệp, với thông số cốt lõi là tốc độ đầu ra đạt 400 token/giây, phá vỡ giới hạn tốc độ API của các nhà cung cấp mô hình lớn toàn cầu.

QTốc độ 400 token/giây của GLM-5.1-highspeed có ý nghĩa gì so với các đối thủ?

ATốc độ 400 token/giây của GLM-5.1-highspeed nhanh gấp khoảng 3 đến 5 lần so với tốc độ trung bình ngành (50-150 token/giây từ các mô hình hàng đầu như GPT-4o hay Claude Sonnet). Điều quan trọng hơn, nó đạt được tốc độ này trong khi vẫn giữ nguyên khả năng của mô hình nền tảng cờ hiệu đầy đủ, điều chưa từng có trước đây.

QTại sao tốc độ suy luận (inference speed) lại trở nên quan trọng trong kỷ nguyên AI Agent?

ATrong kỷ nguyên AI Agent, mô hình không chỉ trả lời câu hỏi mà cần thực hiện hàng chục hoặc hàng trăm lượt gọi tự động (self-calls) để hoàn thành một nhiệm vụ (viết mã, giao tiếp, tìm kiếm...). Độ trễ (latency) trong mỗi lượt gọi sẽ tích lũy và khuếch đại. Tốc độ nhanh hơn cho phép Agent hoàn thành nhiệm vụ nhanh hơn, thực hiện các đường suy luận sâu hơn và nhiều vòng tự xác minh hơn trong cùng một ngân sách thời gian, biến tốc độ từ một chỉ số hệ thống thành chính giới hạn thông minh của mô hình.

QTileRT và ZCube giải quyết những thách thức kỹ thuật nào để đạt được tốc độ vượt trội?

ATileRT là một động cơ suy luận (inference engine) biên dịch toàn bộ mô hình thành một pipeline liên tục, loại bỏ chi phí khởi động và chờ đợi giữa các toán tử, đồng thời sử dụng chiến lược 'Warp chuyên biệt hóa' để tính toán, vận chuyển dữ liệu và giao tiếp song song. ZCube là một kiến trúc mạng mới thay thế thiết kế ROFT truyền thống, bằng cách làm phẳng mạng, loại bỏ lớp Spine và tạo ra một đường dẫn tối ưu duy nhất giữa mọi cặp GPU, từ đó triệt tiêu nguyên nhân gây tắc nghẽn mạng ở cấp độ vật lý.

QĐột phá của Zhipu AI có thể tác động đến ngành công nghiệp AI và chuỗi cung ứng như thế nào?

AĐột phá này cho thấy cùng một lượng tính toán (GPU) có thể tạo ra nhiều đầu ra hơn, thay vì cần ít GPU hơn. Về dài hạn, nó có thể làm suy yếu hào phòng của hệ sinh thái NVIDIA (GPU + NVLink + InfiniBand + CUDA), đặc biệt là phần giá trị từ mạng InfiniBand. Kiến trúc ZCube làm giảm nhu cầu với switch Spine cao cấp nhưng tăng nhu cầu với switch Leaf mật độ cổng cao, có lợi cho các nhà sản xuất switch như Ruijie, Arista và Broadcom chip. Nhu cầu về mô-đun quang tốc độ cao (800G, 1.6T) cũng tăng lên. Quan trọng hơn, công nghệ này là phần mềm thuần túy chạy trên GPU tiêu chuẩn, có khả năng chuyển sang chip AI nội địa như Huawei Ascend, giúp giảm rào cản phần mềm cho chip AI nội địa trong các tình huống suy luận.

Nội dung Liên quan

Với Ozak AI Đã Gọi Vốn Trên 7 Triệu Đô La, Các Chuyên Gia Cảnh Báo Phân Bổ Presale Còn Lại Có Thể Co Hẹp Nhanh Chóng Khi Những Người Mua Cuối Ùa Vào Để Chiếm Vị Thế.

Dự án tiền mã hóa Ozak AI đang thu hút sự chú ý lớn khi vượt mốc gây quỹ 7 triệu USD trong đợt bán trước (presale). Các nhà phân tích cảnh báo rằng lượng token còn lại có thể bán hết rất nhanh khi các nhà đầu tư đổ xô mua vào, lo ngại bỏ lỡ cơ hội. Hiện tại, Ozak AI đang ở giai đoạn bán trước thứ 7 với giá 0,014 USD/token. Đã có hơn 1,2 tỷ token OZ được bán ra. Dự án nổi bật nhờ công nghệ AI kết hợp blockchain, cung cấp các công cụ dự đoán thị trường theo thời gian thực và cho phép người dùng tạo tác nhân AI cá nhân hóa. Với mỗi giai đoạn presale mới, giá token đều tăng lên. Các nhà phân tích chỉ ra rằng những người mua sớm ở đợt đầu tiên đã có lợi nhuận lên tới 1300%. Họ dự báo token có thể được niêm yết trên các sàn lớn với mục tiêu 1 USD, mang lại lợi nhuận tiềm năng 71 lần cho những người tham gia presale hiện tại. Ngoài công nghệ, Ozak AI cũng đang củng cố hệ sinh thái thông qua các quan hệ đối tác chiến lược, như với Mira Network và Mind AI. Thách thức chính hiện nay không phải là nhu cầu mà là nguồn cung token presale có hạn. Các nhà đầu tư, đặc biệt là những người có vốn nhỏ, được khuyến nghị nên hành động sớm để đảm bảo vị thế của mình trước khi giai đoạn bán trước kết thúc.

TheNewsCrypto49 phút trước

Với Ozak AI Đã Gọi Vốn Trên 7 Triệu Đô La, Các Chuyên Gia Cảnh Báo Phân Bổ Presale Còn Lại Có Thể Co Hẹp Nhanh Chóng Khi Những Người Mua Cuối Ùa Vào Để Chiếm Vị Thế.

TheNewsCrypto49 phút trước

Tôi đã tạo ra một ứng dụng Android bằng Google Vibe Coding

Google AI Studio đã giới thiệu tính năng "prompt to phone", cho phép người dùng tạo ứng dụng Android trực tiếp từ mô tả ngôn ngữ tự nhiên. Tác giả đã thử nghiệm và tạo ra ba ứng dụng trong một buổi chiều: một game phiêu lưu chữ MOOD, một máy tính calorie và một game clone Mario tên là Super Peach Rescue. Quá trình tạo ứng dụng rất nhanh chóng. Chỉ với 148 từ mô tả, Gemini đã tự động viết code, thiết kế giao diện và cài đặt ứng dụng lên điện thoại Pixel thật trong 20 phút. Công cụ cũng có thể sửa lỗi thông qua hội thoại, như thêm nút bị thiếu trong game MOOD. Tuy nhiên, chất lượng ứng dụng còn nhiều hạn chế. Game MOOD có cốt truyền đơn giản, lối chơi nông và lỗi logic. Máy tính calorie đưa ra ước tính sai lệch nghiêm trọng (ví dụ: trà sữa trân châu chỉ 190 calo). Super Peach Rescue thường xuyên bị crash và có lối chơi không cân bằng. Trải nghiệm cho thấy AI có thể giảm đáng kể rào cản lập trình, biến ý tưởng thành ứng dụng chạy được chỉ trong vài phút. Điều này mở ra khả năng về một "cuộc cách mạng phần mềm cá nhân", nơi người dùng bình thường có thể tạo công cụ đáp ứng nhu cầu riêng biệt. Tuy vậy, khoảng cách từ "ứng dụng chạy được" đến "ứng dụng tốt" vẫn rất lớn. AI hiện thiếu khả năng đánh giá sản phẩm, độ tin cậy, tính chính xác và thẩm mỹ. Con người vẫn đóng vai trò thiết yếu trong việc đảm bảo chất lượng, sửa lỗi phức tạp và tối ưu hóa trải nghiệm.

marsbit2 giờ trước

Tôi đã tạo ra một ứng dụng Android bằng Google Vibe Coding

marsbit2 giờ trước

Warsh lên nắm quyền ngày đầu, thị trường tặng ngay 'cú cảnh cáo': Kỳ vọng tăng lãi suất trong năm nay

Tân Chủ tịch Cục Dự trữ Liên bang Mỹ (Fed) Warsh đã chính thức nhậm chức vào ngày 22/5 trong bối cảnh thị trường gia tăng kỳ vọng Fed sẽ tăng lãi suất trong năm nay. Ngay trong ngày đầu tiên, thị trường trái phiếu đã phản ứng mạnh khi dự đoán Fed có thể tăng lãi suất 25 điểm cơ bản, đẩy lợi suất trái phiếu Kho bạc kỳ hạn 2 năm lên mức cao nhất kể từ tháng 2. Nguyên nhân chính đến từ bài phát biểu có giọng điệu "diều hâu" mạnh mẽ của Thống đốc Fed Waller. Ông tuyên bố lạm phát đã trở thành "động lực" chính trong chính sách tiền tệ và khả năng tăng hoặc cắt giảm lãi suất hiện là "năm mươi-năm mươi". Ông thậm chí không loại trừ khả năng phải tăng lãi suất nếu lạm phát không sớm hạ nhiệt. Áp lực đang dồn lên Chủ tịch Warsh trước cuộc họp chính sách đầu tiên vào giữa tháng 6. Các chuyên gia cảnh báo rằng, trong bối cảnh lạm phát tăng cao và áp lực từ chi phí năng lượng do căng thẳng địa chính trị, việc không tăng lãi suất vào tháng 6 có thể bị thị trường diễn giải như một hành động nới lỏng chính sát. Thị trường dường như không có nhiều kiên nhẫn cho vị chủ tịch mới trong cuộc chiến chống lạm phát.

marsbit3 giờ trước

Warsh lên nắm quyền ngày đầu, thị trường tặng ngay 'cú cảnh cáo': Kỳ vọng tăng lãi suất trong năm nay

marsbit3 giờ trước

Microsoft đang lạc lối trong cuộc đua AI, liệu Copilot có thể đưa họ trở lại đúng hướng?

Bài viết phân tích tình thế của Microsoft trong cuộc đua AI. Dù từng dẫn đầu nhờ đầu tư sớm vào OpenAI, Microsoft hiện đối mặt với thách thức: đối thủ cạnh tranh như Anthropic, Claude Code/Claude Cowork đe dọa mô hình kinh doanh SaaS, tỷ lệ trả phí cho Copilot thấp và OpenAI trở thành đối thủ trực tiếp. Để phản ứng, Microsoft chuyển hướng chiến lược: không phụ thuộc vào một mô hình AI duy nhất mà xây dựng nền tảng AI doanh nghiệp "không phụ thuộc mô hình", tích hợp dữ liệu, bảo mật, quy trình làm việc và đám mây. CEO Satya Nadella trực tiếp tham gia phát triển sản phẩm, tổ chức lại nhóm và hợp nhất đội ngũ Copilot để tăng tốc đổi mới. Microsoft cũng tái cấu trúc quan hệ với OpenAI, đầu tư vào Anthropic và đẩy mạnh phát triển mô hình nội bộ thông qua nhóm "Superintelligence". Công ty đang đối mặt với cuộc cạnh tranh hệ thống đòi hỏi đầu tư hạ tầng khổng lồ (vốn hóa dự kiến ~1900 tỷ USD năm 2026) và sự nhanh nhạy của startup. Mục tiêu cuối cùng là trở thành lớp nền kết nối thiết yếu cho doanh nghiệp, bất chấp sự thay đổi của các mô hình AI cơ bản.

marsbit4 giờ trước

Microsoft đang lạc lối trong cuộc đua AI, liệu Copilot có thể đưa họ trở lại đúng hướng?

marsbit4 giờ trước

Tại sao stablecoin ngoại hối vẫn chưa cất cánh?

Tóm tắt: Tài sản ổn định ngoại hối (FX) chưa thể phát triển mạnh mẽ do phải đối mặt với thách thức về hiệu ứng mạng lưới và thanh khoản sâu mà USDT/USDC đã xây dựng trong hơn một thập kỷ, với quy mô hiện tại chỉ khoảng 6 tỷ USD so với 4000 tỷ USD của stablecoin USD. Các stablecoin FX hiện có thường thiếu tính ổn định, kênh pháp định hạn chế và cơ hội sinh lời, khiến chúng khó được các ngân hàng số và nền tảng fintech chấp nhận. Thay vì cạnh tranh phát hành stablecoin FX vật chất, giải pháp tối ưu được đề xuất là tiếp cận tổng hợp (synthetic FX) thông qua các hợp đồng kỳ hạn không giao ngay (NDF) có đánh giá theo thị trường. Cơ chế này cho phép người dùng tiếp tục nắm giữ USDT/USDC làm tài sản cơ sở, trong khi số dư tài khoản được định giá bằng loại tiền địa phương ưa thích của họ, dựa trên tỷ giá tham chiếu từ oracle. Cách tiếp cận này mang lại sự ổn định neo cao, duy trì được mạng lưới thanh khoản và cơ hội sinh lời từ stablecoin USD, đồng thời có thể mở rộng cho nhiều loại tiền tệ. Ứng dụng chính cho giải pháp FX tổng hợp trên chuỗi bao gồm: (1) Cung cấp tài khoản đa tiền tệ cho ngân hàng số, ví và nền tảng custodian, giúp tăng tiền gửi và giữ chân người dùng quốc tế; (2) Tạo cơ hội carry trade ngoại hối với quy mô và tính ổn định vượt trội so với các sản phẩm chênh lệch giá crypto; (3) Hỗ trợ thanh toán toàn cầu cho doanh nghiệp, cho phép thanh toán bằng stablecoin USD nhưng có tỷ giá cố định bằng tiền địa phương, tương tự mô hình mà Stripe đang áp dụng cho tiền pháp định. Cơ sở hạ tầng FX tổng hợp này được kỳ vọng sẽ mở khóa giai đoạn tăng trưởng tiếp theo cho tài chính trên chuỗi và việc áp dụng stablecoin trên toàn cầu, hướng tới mục tiêu phục vụ người dùng doanh nghiệp và bán lẻ hàng ngày, đưa quy mô thị trường vượt xa mức hiện tại.

链捕手4 giờ trước

Tại sao stablecoin ngoại hối vẫn chưa cất cánh?

链捕手4 giờ trước

Giao dịch

Giao ngay

Hợp đồng Tương lai

Bài viết Nổi bật

HTX Learn: Tìm hiểu Về Conflux để Chia sẻ 8000 USDT

Để giúp bạn nắm bắt bản chất của Conflux, HTX Learn đã ra mắt chiến dịch Tìm hiểu & Kiếm tiền này.

Tổng lượt xem 821Xuất bản vào 2024.12.23Cập nhật vào 2024.12.23

HTX Learn: Tìm hiểu Về Conflux để Chia sẻ 8000 USDT

AGENT S là gì

Agent S: Tương Lai của Tương Tác Tự Động trong Web3 Giới thiệu Trong bối cảnh không ngừng phát triển của Web3 và tiền điện tử, các đổi mới đang liên tục định nghĩa lại cách mà cá nhân tương tác với các nền tảng kỹ thuật số. Một dự án tiên phong như vậy, Agent S, hứa hẹn sẽ cách mạng hóa tương tác giữa con người và máy tính thông qua khung tác nhân mở của nó. Bằng cách mở đường cho các tương tác tự động, Agent S nhằm đơn giản hóa các nhiệm vụ phức tạp, cung cấp các ứng dụng chuyển đổi trong trí tuệ nhân tạo (AI). Cuộc khám phá chi tiết này sẽ đi sâu vào những phức tạp của dự án, các tính năng độc đáo của nó và những tác động đối với lĩnh vực tiền điện tử. Agent S là gì? Agent S đứng vững như một khung tác nhân mở đột phá, được thiết kế đặc biệt để giải quyết ba thách thức cơ bản trong việc tự động hóa các nhiệm vụ máy tính: Thu thập Kiến thức Cụ thể theo Miền: Khung này học một cách thông minh từ nhiều nguồn kiến thức bên ngoài và kinh nghiệm nội bộ. Cách tiếp cận kép này giúp nó xây dựng một kho lưu trữ phong phú về kiến thức cụ thể theo miền, nâng cao hiệu suất của nó trong việc thực hiện nhiệm vụ. Lập Kế Hoạch Qua Các Tầm Nhìn Nhiệm Vụ Dài Hạn: Agent S sử dụng lập kế hoạch phân cấp tăng cường kinh nghiệm, một cách tiếp cận chiến lược giúp phân chia và thực hiện các nhiệm vụ phức tạp một cách hiệu quả. Tính năng này nâng cao đáng kể khả năng quản lý nhiều nhiệm vụ con một cách hiệu quả và hiệu suất. Xử Lý Các Giao Diện Động, Không Đều: Dự án giới thiệu Giao Diện Tác Nhân-Máy Tính (ACI), một giải pháp đổi mới giúp nâng cao tương tác giữa các tác nhân và người dùng. Sử dụng các Mô Hình Ngôn Ngữ Lớn Đa Phương Thức (MLLMs), Agent S có thể điều hướng và thao tác các giao diện người dùng đồ họa đa dạng một cách liền mạch. Thông qua những tính năng tiên phong này, Agent S cung cấp một khung vững chắc giải quyết các phức tạp liên quan đến việc tự động hóa tương tác giữa con người với máy móc, mở ra nhiều ứng dụng trong AI và hơn thế nữa. Ai là Người Tạo ra Agent S? Mặc dù khái niệm về Agent S là hoàn toàn đổi mới, thông tin cụ thể về người sáng lập vẫn còn mơ hồ. Người sáng lập hiện vẫn chưa được biết đến, điều này làm nổi bật giai đoạn sơ khai của dự án hoặc sự lựa chọn chiến lược để giữ kín các thành viên sáng lập. Bất chấp sự ẩn danh, sự chú ý vẫn tập trung vào khả năng và tiềm năng của khung này. Ai là Các Nhà Đầu Tư của Agent S? Vì Agent S còn tương đối mới trong hệ sinh thái mã hóa, thông tin chi tiết về các nhà đầu tư và những người tài trợ tài chính của nó không được ghi chép rõ ràng. Sự thiếu vắng thông tin công khai về các nền tảng đầu tư hoặc tổ chức hỗ trợ dự án dấy lên câu hỏi về cấu trúc tài trợ và lộ trình phát triển của nó. Hiểu biết về sự hỗ trợ là rất quan trọng để đánh giá tính bền vững và tác động tiềm năng của dự án. Agent S Hoạt Động Như Thế Nào? Tại cốt lõi của Agent S là công nghệ tiên tiến cho phép nó hoạt động hiệu quả trong nhiều bối cảnh khác nhau. Mô hình hoạt động của nó được xây dựng xung quanh một số tính năng chính: Tương Tác Giống Như Con Người: Khung này cung cấp lập kế hoạch AI tiên tiến, cố gắng làm cho các tương tác với máy tính trở nên trực quan hơn. Bằng cách bắt chước hành vi của con người trong việc thực hiện nhiệm vụ, nó hứa hẹn nâng cao trải nghiệm người dùng. Ký Ức Tường Thuật: Được sử dụng để tận dụng các trải nghiệm cấp cao, Agent S sử dụng ký ức tường thuật để theo dõi lịch sử nhiệm vụ, từ đó nâng cao quy trình ra quyết định của nó. Ký Ức Tình Huống: Tính năng này cung cấp cho người dùng hướng dẫn từng bước, cho phép khung này cung cấp hỗ trợ theo ngữ cảnh khi các nhiệm vụ diễn ra. Hỗ Trợ OpenACI: Với khả năng chạy cục bộ, Agent S cho phép người dùng duy trì quyền kiểm soát đối với các tương tác và quy trình làm việc của họ, phù hợp với tinh thần phi tập trung của Web3. Tích Hợp Dễ Dàng với Các API Bên Ngoài: Tính linh hoạt và khả năng tương thích với nhiều nền tảng AI khác nhau đảm bảo rằng Agent S có thể hòa nhập liền mạch vào các hệ sinh thái công nghệ hiện có, làm cho nó trở thành lựa chọn hấp dẫn cho các nhà phát triển và tổ chức. Những chức năng này cùng nhau góp phần vào vị trí độc đáo của Agent S trong không gian tiền điện tử, khi nó tự động hóa các nhiệm vụ phức tạp, nhiều bước với sự can thiệp tối thiểu của con người. Khi dự án phát triển, các ứng dụng tiềm năng của nó trong Web3 có thể định nghĩa lại cách mà các tương tác kỹ thuật số diễn ra. Thời Gian Phát Triển của Agent S Sự phát triển và các cột mốc của Agent S có thể được tóm tắt trong một dòng thời gian nêu bật các sự kiện quan trọng của nó: 27 tháng 9, 2024: Khái niệm về Agent S được ra mắt trong một bài nghiên cứu toàn diện mang tên “Một Khung Tác Nhân Mở Sử Dụng Máy Tính Như Một Con Người,” trình bày nền tảng cho dự án. 10 tháng 10, 2024: Bài nghiên cứu được công bố công khai trên arXiv, cung cấp một cái nhìn sâu sắc về khung và đánh giá hiệu suất của nó dựa trên tiêu chuẩn OSWorld. 12 tháng 10, 2024: Một video trình bày được phát hành, cung cấp cái nhìn trực quan về khả năng và tính năng của Agent S, thu hút thêm sự quan tâm từ người dùng và nhà đầu tư tiềm năng. Những dấu mốc trong dòng thời gian không chỉ minh họa sự tiến bộ của Agent S mà còn chỉ ra cam kết của nó đối với sự minh bạch và sự tham gia của cộng đồng. Những Điểm Chính Về Agent S Khi khung Agent S tiếp tục phát triển, một số thuộc tính chính nổi bật, nhấn mạnh tính đổi mới và tiềm năng của nó: Khung Đổi Mới: Được thiết kế để cung cấp cách sử dụng máy tính trực quan giống như tương tác của con người, Agent S mang đến một cách tiếp cận mới cho việc tự động hóa nhiệm vụ. Tương Tác Tự Động: Khả năng tương tác tự động với máy tính thông qua GUI đánh dấu một bước tiến tới các giải pháp tính toán thông minh và hiệu quả hơn. Tự Động Hóa Nhiệm Vụ Phức Tạp: Với phương pháp mạnh mẽ của nó, nó có thể tự động hóa các nhiệm vụ phức tạp, nhiều bước, làm cho các quy trình nhanh hơn và ít sai sót hơn. Cải Tiến Liên Tục: Các cơ chế học tập cho phép Agent S cải thiện từ các trải nghiệm trước đó, liên tục nâng cao hiệu suất và hiệu quả của nó. Tính Linh Hoạt: Khả năng thích ứng của nó trên các môi trường hoạt động khác nhau như OSWorld và WindowsAgentArena đảm bảo rằng nó có thể phục vụ một loạt các ứng dụng rộng rãi. Khi Agent S định vị mình trong bối cảnh Web3 và tiền điện tử, tiềm năng của nó để nâng cao khả năng tương tác và tự động hóa quy trình đánh dấu một bước tiến quan trọng trong công nghệ AI. Thông qua khung đổi mới của mình, Agent S minh họa cho tương lai của các tương tác kỹ thuật số, hứa hẹn một trải nghiệm liền mạch và hiệu quả hơn cho người dùng trên nhiều ngành công nghiệp khác nhau. Kết luận Agent S đại diện cho một bước nhảy vọt táo bạo trong sự kết hợp giữa AI và Web3, với khả năng định nghĩa lại cách chúng ta tương tác với công nghệ. Mặc dù vẫn còn ở giai đoạn đầu, những khả năng cho ứng dụng của nó là rộng lớn và hấp dẫn. Thông qua khung toàn diện của mình giải quyết các thách thức quan trọng, Agent S nhằm đưa các tương tác tự động lên hàng đầu trong trải nghiệm kỹ thuật số. Khi chúng ta tiến sâu hơn vào các lĩnh vực tiền điện tử và phi tập trung, các dự án như Agent S chắc chắn sẽ đóng một vai trò quan trọng trong việc định hình tương lai của công nghệ và sự hợp tác giữa con người với máy tính.

Tổng lượt xem 805Xuất bản vào 2025.01.14Cập nhật vào 2025.01.14

Làm thế nào để Mua S

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Sonic (S) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Sonic (S) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Sonic (S) của BạnSau khi mua Sonic (S), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Sonic (S)Giao dịch Sonic (S) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 1.5kXuất bản vào 2025.01.15Cập nhật vào 2025.03.21

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến của người dùng về giá của S (S) được trình bày dưới đây.