Trí Phổ Dựa Vào Đâu Để Tăng Gần 30% Trong Một Ngày?

marsbitXuất bản vào 2026-05-23Cập nhật gần nhất vào 2026-05-23

Tóm tắt

Hôm nay, cổ phiếu của "cổ phiếu mô hình lớn toàn cầu đầu tiên" Zhipu AI (02513.HK) đã bùng nổ. Động lực chính đến từ một thông số kỹ thuật cụ thể: Tốc độ đầu ra API của phiên bản cao tốc GLM-5.1 (GLM-5.1-highspeed) đạt 400 token/giây, thiết lập kỷ lục mới về tốc độ API trong ngành công nghiệp mô hình lớn toàn cầu. Tốc độ 400 token/giây này quan trọng như thế nào? Khi AI chuyển từ ChatBot sang thời đại Agent, mỗi tác vụ thường yêu cầu hàng chục hoặc thậm chí hàng trăm lần gọi mô hình. Độ trễ thấp ở đây trở thành yếu tố then chốt, trực tiếp ảnh hưởng đến trải nghiệm người dùng và hiệu quả công việc. Tốc độ này nhanh gấp khoảng 3-5 lần so với các mô hình hàng đầu hiện tại như GPT-4o hay Claude Sonnet. Để đạt được bước đột phá này, Zhipu AI đã thực hiện những đổi mới đồng thời trên ba cấp độ: 1. **TileRT – Công cụ suy luận:** Biên dịch toàn bộ mô hình thành một động cơ chạy liên tục, loại bỏ chi phí khởi động và chờ đợi lặp đi lặp lại giữa các toán tử, cho phép GPU duy trì hoạt động ở tốc độ cao. 2. **Chiến lược song song:** Tối ưu hóa việc triển khai cơ chế chú ý MLA (Multi-head Latent Attention) của GLM-5.1 trên nhiều GPU. Họ áp dụng kiến trúc chạy không đồng nhất, trong đó GPU 0 chuyên xử lý chỉ mục thưa thớt và định tuyến, trong khi các GPU khác xử lý tính toán dày đặc, giảm thiểu đáng kể chi phí giao tiếp. 3. **Kiến trúc mạng ZCube:** Một thiết kế mạng mới thay thế cấu trúc ROFT (Fat-Tree) truyền thống. ZCube loại bỏ lớp Spine (xương sống), làm phẳng toàn bộ mạng và kết...

Văn bản | AIDeepDive

Hôm nay, cổ phiếu "mô hình lớn toàn cầu đầu tiên" Trí Phổ (02513.HK) một lần nữa tăng mạnh.

Mức tăng trong ngày một lúc vượt quá 30%. Giá đóng cửa là 1282 HKD, mức tăng cả ngày vượt quá 26%, vốn hóa thị trường đạt 5715,7 tỷ HKD, một lần nữa lập mức cao kỷ lục mới.

Yếu tố kích hoạt đợt tăng mạnh này là một chỉ số kỹ thuật cụ thể: 400 tokens/s.

Ngày 22 tháng 5, Trí Phổ chính thức mở API phiên bản tốc độ cao GLM-5.1 (GLM-5.1-highspeed) cho khách hàng doanh nghiệp, tham số cốt lõi quan trọng nhất chỉ có một: tốc độ đầu ra mô hình đạt 400 token mỗi giây, thiết lập giới hạn tốc độ API mới cho các nhà cung cấp mô hình lớn toàn cầu.

Ban đầu tôi nghĩ đây lại là một lần đóng gói PR của mô hình lớn Trung Quốc, nhưng sau khi xem kỹ chi tiết kỹ thuật, cuối cùng đã hiểu logic đằng sau thị trường vốn.

400 tokens/s là khái niệm gì?

Mô hình có thể tạo ra khoảng 200 chữ Hán mỗi giây, tương đương với sản lượng cao cường độ trong một phút của một nhà văn chuyên nghiệp, được nén vào trong một giây.

Khối lượng văn bản mà một người sáng tạo phải mất vài ngày liên tục ngồi viết mới xong, GLM-5.1 phiên bản tốc độ cao có thể hoàn thành trong vòng 1 phút; một nhiệm vụ tái cấu trúc hệ thống mà một kỹ sư phải cúi đầu làm trong 3 ngày, nó có thể chạy xong trong thời gian uống một tách cà phê.

01 Tốc độ, quan trọng hơn bạn nghĩ

Tốc độ, từ trước đến nay vẫn là chiều kích dễ bị bỏ qua nhất trong cuộc cạnh tranh mô hình AI.

Ba năm qua, cuộc chạy đua vũ trang mô hình lớn tập trung vào hai đường đua: quy mô tham số (mô hình lớn hơn, thông minh hơn) và cuộc chiến giá (Token rẻ hơn, phổ cập hơn). "Nhanh", chưa bao giờ là nhân vật chính.

Điều này là vì, "nhanh" trước đây thường được thực hiện bằng cách thu nhỏ tham số mô hình. Để tăng tốc, phải sử dụng mô hình nhỏ hơn và tinh gọn hơn, cái giá phải trả là khả năng bị thu hẹp.

Ý nghĩa của GLM-5.1 phiên bản tốc độ cao lần này là, trong khi giữ nguyên khả năng của kiến trúc cơ sở kích thước đầy đủ hàng đầu, nó đã đẩy tốc độ lên 400 tokens/s.

Cho dù là xét từ mô hình trong nước, hay xét từ phạm vi quốc tế, "khả năng hàng đầu" và "độ trễ cực thấp" lần đầu tiên đạt được mà không phải hy sinh.

Tại sao tốc độ lại quan trọng như vậy? Bởi vì chiến trường chính của AI đang xảy ra sự di chuyển cơ bản.

Khi AI từ ChatBot bước vào thời đại Agent, hỏi đáp không còn là cảnh chính của AI nữa, mà để Agent hoàn thành một nhiệm vụ, mô hình thường cần tự gọi hàng chục thậm chí hàng trăm lượt: viết mã, điều chỉnh giao diện, tìm kiếm thông tin, gọi công cụ…

Trong chế độ làm việc này, độ trễ giữa mỗi lượt gọi sẽ bị cộng dồn và phóng đại một cách tàn nhẫn. Một nhiệm vụ cần 50 lượt gọi, nếu mỗi lần tiết kiệm được 1 giây, toàn bộ nhiệm vụ sẽ nhanh hơn gần 1 phút. Đối với trợ lý lập trình AI, tương tác giọng nói, hệ thống ra quyết định kinh doanh, khoảng cách này có thể quyết định sống chết.

Từ góc độ sâu hơn, trong ngân sách thời gian cố định, suy luận nhanh hơn có nghĩa là mô hình có thể hoàn thành con đường suy luận sâu hơn, nhiều lượt tự xác minh hơn. Tốc độ, đang từ chỉ số hệ thống trở thành chính giới hạn thông minh.

02 Việc tốc độ, khó đến mức nào?

Vậy hiện tại trong ngành, trình độ về tốc độ khoảng nào?

Trong số các nhà sản xuất hàng đầu, GPT-4o của OpenAI khoảng 100–150 tokens/s, Claude Sonnet series của Anthropic khoảng 80–120 tokens/s, API mô hình hàng đầu chủ đạo trong nước phần lớn trong khoảng 50–100 tokens/s. 400 tokens/s là khoảng 3 đến 5 lần mức trung bình ngành.

Quan trọng hơn, khoảng cách này không phải chỉ cần đầu tư nhiều sức tính toán hơn là có thể bù đắp.

Một máy chủ được trang bị 8 card đồ họa H200, về lý thuyết mỗi giây có thể vận chuyển dữ liệu lên tới 38TB. Đối với GLM-5.1, mỗi lần tạo một token chỉ cần đọc khoảng 42GB tham số kích hoạt, suy đoán thuần lý thuyết, nên tiệm cận 1000 tokens/s.

Nhưng hệ thống thực tế thường chỉ chạy được vài chục tokens/s.

Đây là một hố sâu cách biệt một cấp số. GPU không phải không đủ nhanh, mà rất nhiều thời gian bị lãng phí vào việc chờ đợi, chạy không tải và điều phối vô hiệu.

Lần này Trí Phổ chính là sáng tạo đồng thời ở ba cấp độ: động cơ suy luận, chiến lược song song, kiến trúc mạng, đạt được bước đột phá về tốc độ cuối cùng.

03 Ba lớp kỹ thuật chồng lên, tiệm cận giới hạn vật lý phần cứng

Mô hình lớn ban đầu vận hành như thế này, mô hình lớn được phân giải thành từng toán tử độc lập, mỗi toán tử khởi động một lõi tính toán (kernel) riêng, tính toán xong thì dừng, đồng bộ chờ đợi, rồi khởi động tiếp theo.

Ở giai đoạn huấn luyện, mỗi lần tính toán động đến vài giây thậm chí vài phút, chi phí khởi động và chờ đợi này hoàn toàn có thể bỏ qua. Nhưng khi suy luận, mỗi lần tạo một token, một bước then chốt nào đó có thể chỉ cần vài chục micro giây, chi phí khởi động và chờ đợi trở nên tương đối không thể bỏ qua.

Ý tưởng cốt lõi của TileRT: Biên dịch toàn bộ mô hình thành một động cơ chạy liên tục, khởi động một lần, không bao giờ dừng.

TileRT ở giai đoạn biên dịch mã sớm mở rộng tĩnh tất cả logic tính toán của mô hình thành một dây chuyền liên tục, khi chạy GPU luôn duy trì vận hành tốc độ cao, tính toán, vận chuyển dữ liệu, truyền thông tiến hành song song, kết quả trung gian cố gắng lưu lại trong bộ nhớ đệm tốc độ cao bên trong GPU, không còn ghi lại bộ nhớ chậm rồi đọc lại nhiều lần.

Ở đây có một chi tiết thiết kế then chốt: Warp chuyên môn hóa.

Để hiểu Warp, cần hiểu cách làm việc của GPU. Điểm khác biệt lớn nhất giữa GPU và CPU là bên trong nó có hàng ngàn đơn vị tính toán tương đối đơn giản, những đơn vị này 32 cái thành một nhóm bó lại với nhau, nhóm này gọi là Warp.

32 đơn vị trong cùng một Warp phải luôn đồng bộ hành động, thực thi cùng một lệnh, giống như một tiểu đội trong quân đội, tiểu đội trưởng ra lệnh tất cả cùng làm một động tác.

Trong khung truyền thống, tất cả Warp thực thi cùng một chuỗi lệnh; TileRT để các nhóm Warp khác nhau đảm nhận trách nhiệm khác nhau: một phần chuyên trách vận chuyển dữ liệu tiếp theo vào trước, một phần chuyên trách tính toán toán học, một phần chuyên trách truyền thông với GPU khác. Ba nhóm người cùng làm việc, phối hợp dây chuyền, không chờ đợi nhau.

Giống như từ "một công nhân vận chuyển gạch, xây tường, nghiệm thu làm tuần tự", trở thành "nhóm vận chuyển gạch, nhóm xây tường, nhóm nghiệm thu cùng quay".

Hiệu suất bên trong một card giải quyết rồi, song song nhiều card lại có thách thức mới.

Cách làm thông dụng ngành là song song tensor (Tensor Parallel): Chia ma trận trọng số của mô hình thành một số phần, mỗi GPU phụ trách một phần, sau khi tính toán xong thì tổng hợp kết quả thông qua kết nối tốc độ cao (NVLink).

Giải pháp này đối với loại tính toán dày đặc quy tắc như nhân ma trận rất hiệu quả, hiện là giải pháp đa card tiêu chuẩn cho hầu hết khung suy luận mô hình lớn.

GLM-5.1 sử dụng **MLA (Multi-head Latent Attention, cơ chế chú ý tiềm ẩn đa đầu), đây là một cơ chế chú ý do DeepSeek đề xuất.

Cơ chế chú ý truyền thống cần lưu trữ đầy đủ một lượng lớn dữ liệu trung gian (KV Cache) của mỗi bước tính toán để dùng, rất hao bộ nhớ; cách làm của MLA là nén trước những dữ liệu trung gian này thành một "vectơ tiềm ẩn" nhỏ gọn để lưu, khi dùng thì mở ra khôi phục, nhu cầu bộ nhớ giảm mạnh, hiệu suất suy luận cao hơn.

Nhưng trong quy trình tính toán của MLA có một khâu đặc biệt: cần làm chỉ mục thưa thớt từ một lượng lớn thông tin lịch sử: tương tự như trong một thư viện khổng lồ trước tiên nhanh chóng tìm ra mấy quyển sách liên quan nhất, rồi đọc kỹ mấy quyển sách đó.

Bước "tìm sách" này phụ thuộc thông tin toàn cục, không phù hợp để chia đều nhiều card; "đọc kỹ" mới là tính toán dày đặc phù hợp song song nhiều card. Nếu cưỡng ép tất cả 8 GPU đều tham gia "tìm sách", nhiều thời gian sẽ bị lãng phí vào truyền thông đồng bộ giữa các GPU.

Giải pháp của TileRT là để GPU chạy dị thể: GPU 0 chuyên đảm nhận "nhân viên tra cứu thư viện", phụ trách chỉ mục thưa thớt và quyết định định tuyến; GPU 1–7 đảm nhận "nhân viên phân tích đọc kỹ", phụ trách tính toán chú ý dày đặc và tính toán ma trận. Hai loại người làm việc mỗi loại sử dụng chiến lược song song phù hợp nhất với mình để phối hợp hoàn thành toàn bộ lớp tính toán.

Tiếp theo, TileRT nhúng trực tiếp thao tác truyền thông giữa các GPU vào dây chuyền thực thi, không còn là bước độc lập. Nhìn từ bên ngoài, toàn bộ hệ thống 8 card hoàn thành một lớp tính toán chú ý chỉ cần một lần khởi động kernel, truyền thông và tính toán bên trong hoàn thành liền mạch trong dây chuyền liên tục bên trong.

Hai lớp trên giải quyết vấn đề trong phạm vi một máy. Khi cụm mở rộng đến hàng trăm thậm chí hàng ngàn GPU, bản thân việc truyền dữ liệu giữa các GPU trở thành trần mới.

Cách làm thông dụng ngành là ROFT (Rail-Optimized Fat-Tree), đây là giải pháp chính thức NVIDIA đề xuất, tiêu chuẩn tuyệt đối của ngành.

Cấu trúc của nó là một cái cây: máy chủ trước tiên kết nối bộ chuyển mạch Leaf cấp dưới (lớp truy nhập, trực tiếp hướng đến máy chủ), Leaf kết nối lên bộ chuyển mạch Spine (lớp xương sống, phụ trách kết nối giữa các Leaf khác nhau, như nút giao thông đường cao tốc). Dữ liệu truyền giữa hai GPU, phải "trước tiên lên Spine, rồi xuống Leaf mục tiêu", ít nhất qua 3 bước nhảy.

Để tránh lưu lượng tập trung vào một số ít đường liên kết, kiến trúc này phụ thuộc vào thuật toán ECMP để phân phối dữ liệu giữa nhiều đường dẫn, vận hành tốt trong điều kiện tiền đề lưu lượng Internet "phân bố đều thống kê".

Nhưng lưu lượng cảnh suy luận hoàn toàn không đều. Độ dài ngữ cảnh của các yêu cầu khác nhau có thể chênh lệch đến hàng chục lần, hướng truyền KV Cache giữa các GPU gần như ngẫu nhiên, mấy bộ chuyển mạch Leaf nào đó sẽ định kỳ trở thành điểm nóng, kích hoạt cơ chế phản áp, làm tắc nghẽn từ cục bộ lan rộng ra toàn đường liên kết. Sự tắc nghẽn này không phải điều chỉnh tham số giao thức là giải quyết được, là sản phẩm của chính cấu trúc tô pô.

Đột phá căn bản của ZCube: Từ cấp độ kiến trúc khiến loại tắc nghẽn này không thể xảy ra về mặt vật lý.

Thiết kế cốt lõi chia hai bước:

Bước một, hủy bỏ lớp xương sống Spine, làm phẳng toàn mạng. Chia tất cả bộ chuyển mạch Leaf thành hai nhóm theo số chẵn lẻ, hai nhóm kết nối hoàn toàn với nhau, bất kỳ bộ chuyển mạch số lẻ nào kết nối tất cả bộ chuyển mạch số chẵn, ngược lại. Bất kỳ hai GPU nào giữa chúng nhiều nhất qua hai bộ chuyển mạch là có thể đến nhau, số bước nhảy giảm từ 3 xuống 2.

Bước hai, cũng là chỗ tinh tế nhất: mỗi card mạng GPU dùng hai cách hoàn toàn khác nhau để lần lượt kết nối vào hai nhóm bộ chuyển mạch. Tô pô đặc biệt này mang lại một tính chất toán học then chốt: toàn mạng giữa hai GPU bất kỳ, có và chỉ có một đường dẫn tối ưu duy nhất.

"Đường dẫn duy nhất" trực tiếp loại bỏ căn nguyên tắc nghẽn. Kiến trúc truyền thống dễ xuất hiện điểm nóng, chính là vì có nhiều đường dẫn để chọn, thuật toán cân bằng tải chọn sai sẽ dẫn đến lưu lượng tập trung. ZCube trong thiết kế loại bỏ việc "lựa chọn" chính nó: không cần cân bằng, vì căn bản không có ngã rẽ.

04 Trong điều kiện phần cứng giống nhau, tính toán sổ sách thế nào?

Sau khi Trí Phổ nâng cấp cụm sản xuất GLM-5.1 từ ROFT truyền thống lên ZCube, nhận được ba con số:

Tóm lại, cùng mức đầu tư GPU, cụm có thể phục vụ nhiều người dùng hơn; cùng yêu cầu trải nghiệm người dùng, cụm có thể mua ít hơn một phần ba thiết bị mạng. Hiệu suất và chi phí cải thiện hai chiều.

Cụ thể, thông lượng tăng 15%, bằng miễn phí thêm 15% sức tính toán. Trong điều kiện số lượng GPU không đổi, thông lượng tăng 15%, tương đương với chi phí phần cứng bình quân mỗi token giảm khoảng 13%, hay nói cách khác cùng chi phí có thể phục vụ thêm 15% người dùng.

Nếu một cụm có 1000 GPU, lần nâng cấp này tương đương với việc nhiều ra năng lực của 150 card, theo giá thị trường card suy luận cao cấp hiện tại, đây là giá trị sức tính toán cấp số tỷ.

Độ trễ đuôi giảm 40.6%, giải quyết vấn đề ổn định chứ không phải tốc độ trung bình. Một nhiệm vụ Agent cần 50 lượt gọi, nếu độ trễ đuôi mỗi lần giảm 1 giây, thời gian hoàn thành tồi nhất của toàn bộ nhiệm vụ sẽ bị nén gần 1 phút.

Chi phí giảm một phần ba, là tiết kiệm trực tiếp ở cấp độ xây dựng. ZCube hủy bỏ lớp Spine, với quy mô cụm giống nhau, số lượng bộ chuyển mạch và module quang cần thiết trực tiếp giảm một phần ba. Theo tính toán của Trí Phổ, trong cụm quy mô vạn card, chỉ riêng mục này có thể tiết kiệm khoảng 2,1 đến 6,4 tỷ nhân dân tệ.

Về lâu dài, khi quy mô cụm tăng cấp số mũ, độ phức tạp truyền thông giữa các GPU tăng gấp bội, xác suất và ảnh hưởng tắc nghẽn cũng tăng đồng bộ. Điều này có nghĩa là giá trị của loại sáng tạo cấp kiến trúc như ZCube, sẽ xuất hiện tăng tốc khi cụm suy luận tiếp tục mở rộng. Lợi ích của cụm cấp vạn card ngày mai có thể không chỉ 15% hôm nay.

05 Viết ở cuối

Sau khi xem báo cáo kỹ thuật của Trí Phổ, tôi nghĩ, liệu điều này có giống như DeepSeek xuất hiện bất ngờ, mang đến một cơn bão cho ngành?

Suy nghĩ kỹ, ảnh hưởng của cả hai dường như ở các khía cạnh khác nhau. Khi DeepSeek ra mắt, nó chứng minh rằng, cùng trí thông minh, có thể thực hiện với ít sức tính toán hơn nhiều. Thị trường lo lắng "cần GPU ít hơn", nên vốn hóa thị trường của NVIDIA ngày hôm đó bay hơi gần 6000 tỷ USD.

Nhưng kỹ thuật của Trí Phổ hôm nay chứng minh: cùng sức tính toán, có thể sản xuất nhiều hơn. Nó đang tái cấu trúc "ngoài GPU, các cơ sở hạ tầng khác nên trông như thế nào".

Nhìn ngắn hạn, NVIDIA sẽ không bị ảnh hưởng, nhưng nhìn dài hạn, hào sức mạnh của GPU + kết nối NVLink + mạng InfiniBand + hệ sinh thái phần mềm CUDA đang bị "xới đất", đặc biệt là InfiniBand mà NVIDIA mua của Mellanox với 6,9 tỷ USD năm 2019, giá trị thặng dư phía mạng của NVIDIA sẽ bị xói mòn mạnh.

Ngoài ra, ZCube hủy bỏ lớp Spine, nhưng nó đối với yêu cầu mật độ cổng của bộ chuyển mạch Leaf ngược lại cao hơn. Hưởng lợi là các nhà sản xuất có thể làm bộ chuyển mạch Leaf mật độ cao, cổng lớn (Ruijie, Arista, chip chuyển mạch Broadcom), bị tổn thất là các nhà sản xuất chủ yếu phụ thuộc vào bộ chuyển mạch Spine cao cấp ăn giá trị thặng dư.

Năm 2025, Celestica và NVIDIA chiếm tổng cộng khoảng 50% thị phần bộ chuyển mạch mạng hậu cần AI, cục diện này sau khi mô hình ZCube lan rộng sẽ đối mặt với sắp xếp lại.

Module quang là hướng chuỗi công nghiệp thay đổi trực tiếp nhất trong lần này, logic rất rõ ràng. Đối với các nhà sản xuất module quang trong nước (Zhongji Innolight, T&W Communications, v.v.), đây là một lợi thế cấu trúc: không chỉ tổng lượng đang tăng, mà nhu cầu đối với module quang tốc độ cao (800G, 1.6T) dưới mô hình ZCube càng tập trung và cấp bách hơn kiến trúc truyền thống.

Cho dù là TileRT hay kiến trúc ZCube, đây là một bộ động cơ suy luận phần mềm thuần chạy trên GPU tiêu chuẩn, không phụ thuộc vào đặc tính phần cứng riêng của NVIDIA, về lý thuyết có thể chuyển sang chip nội địa như Ascend của Huawei. Hướng này một khi thông suốt, sẽ giảm mạnh ngưỡng cửa ngăn xếp phần mềm của chip AI nội địa trong cảnh suy luận.

Đây có lẽ mới là ý nghĩa lớn hơn đằng sau sự sáng tạo kỹ thuật này.

Tiền kỹ thuật số thịnh hành

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

PancakeSwapCAKE

JUSTJST

Câu hỏi Liên quan

QĐiều gì đã kích hoạt sự tăng giá gần 30% của cổ phiếu Zhipu AI?

ASự kiện kích hoạt là việc Zhipu AI chính thức mở cửa API phiên bản tốc độ cao GLM-5.1-highspeed cho khách hàng doanh nghiệp, với thông số cốt lõi là tốc độ đầu ra đạt 400 token/giây, phá vỡ giới hạn tốc độ API của các nhà cung cấp mô hình lớn toàn cầu.

QTốc độ 400 token/giây của GLM-5.1-highspeed có ý nghĩa gì so với các đối thủ?

ATốc độ 400 token/giây của GLM-5.1-highspeed nhanh gấp khoảng 3 đến 5 lần so với tốc độ trung bình ngành (50-150 token/giây từ các mô hình hàng đầu như GPT-4o hay Claude Sonnet). Điều quan trọng hơn, nó đạt được tốc độ này trong khi vẫn giữ nguyên khả năng của mô hình nền tảng cờ hiệu đầy đủ, điều chưa từng có trước đây.

QTại sao tốc độ suy luận (inference speed) lại trở nên quan trọng trong kỷ nguyên AI Agent?

ATrong kỷ nguyên AI Agent, mô hình không chỉ trả lời câu hỏi mà cần thực hiện hàng chục hoặc hàng trăm lượt gọi tự động (self-calls) để hoàn thành một nhiệm vụ (viết mã, giao tiếp, tìm kiếm...). Độ trễ (latency) trong mỗi lượt gọi sẽ tích lũy và khuếch đại. Tốc độ nhanh hơn cho phép Agent hoàn thành nhiệm vụ nhanh hơn, thực hiện các đường suy luận sâu hơn và nhiều vòng tự xác minh hơn trong cùng một ngân sách thời gian, biến tốc độ từ một chỉ số hệ thống thành chính giới hạn thông minh của mô hình.

QTileRT và ZCube giải quyết những thách thức kỹ thuật nào để đạt được tốc độ vượt trội?

ATileRT là một động cơ suy luận (inference engine) biên dịch toàn bộ mô hình thành một pipeline liên tục, loại bỏ chi phí khởi động và chờ đợi giữa các toán tử, đồng thời sử dụng chiến lược 'Warp chuyên biệt hóa' để tính toán, vận chuyển dữ liệu và giao tiếp song song. ZCube là một kiến trúc mạng mới thay thế thiết kế ROFT truyền thống, bằng cách làm phẳng mạng, loại bỏ lớp Spine và tạo ra một đường dẫn tối ưu duy nhất giữa mọi cặp GPU, từ đó triệt tiêu nguyên nhân gây tắc nghẽn mạng ở cấp độ vật lý.

QĐột phá của Zhipu AI có thể tác động đến ngành công nghiệp AI và chuỗi cung ứng như thế nào?

AĐột phá này cho thấy cùng một lượng tính toán (GPU) có thể tạo ra nhiều đầu ra hơn, thay vì cần ít GPU hơn. Về dài hạn, nó có thể làm suy yếu hào phòng của hệ sinh thái NVIDIA (GPU + NVLink + InfiniBand + CUDA), đặc biệt là phần giá trị từ mạng InfiniBand. Kiến trúc ZCube làm giảm nhu cầu với switch Spine cao cấp nhưng tăng nhu cầu với switch Leaf mật độ cổng cao, có lợi cho các nhà sản xuất switch như Ruijie, Arista và Broadcom chip. Nhu cầu về mô-đun quang tốc độ cao (800G, 1.6T) cũng tăng lên. Quan trọng hơn, công nghệ này là phần mềm thuần túy chạy trên GPU tiêu chuẩn, có khả năng chuyển sang chip AI nội địa như Huawei Ascend, giúp giảm rào cản phần mềm cho chip AI nội địa trong các tình huống suy luận.

Nội dung Liên quan

Danh sách các altcoin phổ biến nhất theo lượt tìm kiếm trong những giờ gần đây đã được công bố!

Nền tảng CoinGecko vừa công bố danh sách các đồng altcoin được tìm kiếm nhiều nhất trong ba giờ qua. Đứng đầu danh sách là Pudgy Penguins (PENGU), tiếp theo là Catecoin (CATE) và Bless (BLESS) lần lượt ở vị trí thứ hai và ba. Về biến động giá, trong 24 giờ qua, PENGU tăng 3,9%, CATE tăng mạnh 126,2% và BLESS tăng 86,1%. What IF (IF) cũng ghi nhận mức tăng 41,9%. Dưới đây là bảng xếp hạng 15 đồng tiền điện tử được tìm kiếm nhiều nhất cùng vốn hóa thị trường của chúng: 1. Pudgy Penguins (PENGU) – 389,13 triệu USD 2. Catecoin (CATE) – 19,62 triệu USD 3. Bless (BLESS) – 32,72 triệu USD 4. Aerodrome Finance (AERO) – 385,03 triệu USD 5. Hyperliquid (HYPE) – 11,43 tỷ USD 6. Ethereum (ETH) – 224,17 tỷ USD 7. Chainlink (LINK) – 6,17 tỷ USD 8. Aave (AAVE) – 1,42 tỷ USD 9. What IF (IF) – 31,24 triệu USD 10. Polkadot (DOT) – 1,34 tỷ USD 11. Bitcoin (BTC) – 1,27 nghìn tỷ USD 12. Virtual Protocol (VIRTUAL) – 366,19 triệu USD 13. Algorand (ALGO) – 758,15 triệu USD 14. Cash Cat (CASHCAT) – 41,81 triệu USD 15. Solana (SOL) – 42,38 tỷ USD Lưu ý: Đây không phải là lời khuyên đầu tư.

cryptonews.ru12 phút trước

Danh sách các altcoin phổ biến nhất theo lượt tìm kiếm trong những giờ gần đây đã được công bố!

cryptonews.ru12 phút trước

Với giá 100.000 đô la mỗi tháng: Truth Social bán quyền truy cập bài đăng của Trump cho các công ty đầu tư

Trump Media and Technology Group (TMTG) đã ra mắt dịch vụ Truth API từ ngày 1/8/2026. Đây là kênh dữ liệu có phí cung cấp cho các khách hàng tổ chức, chủ yếu là các công ty đầu tư và giao dịch tần suất cao, quyền truy cập thời gian thực đến các bài đăng từ những tài khoản có ảnh hưởng nhất trên nền tảng Truth Social, bao gồm cả cựu Tổng thống Donald Trump. Theo các nguồn tin, gói dịch vụ này có giá lên tới 100.000 USD một tháng, với mức giảm giá xuống 60.000 USD/tháng cho hợp đồng ba năm. TMTG tuyên bố đây là một phần trong chiến lược tạo ra nguồn thu ổn định và lợi nhuận cao từ tài sản của công ty. Tuy nhiên, sáng kiến này đã vấp phải chỉ trích từ các nhà lập pháp cả hai đảng. Các Thượng nghị sĩ Dân chủ Elizabeth Warren và Adam Schiff đã yêu cầu Ủy ban Chứng khoán Mỹ (SEC) điều tra xem liệu việc bán quyền truy cập ưu tiên đến các bài đăng của tổng thống có vi phạm luật hay không. Thượng nghị sĩ Cộng hòa Bill Cassidy cũng chỉ trích đây là hành vi bán quyền truy cập đặc quyền không thể chấp nhận được. Phân tích AI trong bài báo cảnh báo về rủi ro tiềm ẩn, so sánh với sự kiện năm 2013 khi thị trường chứng khoán sụt giảm nhanh chóng do tin tức giả mạo. Việc biến tài khoản tổng thống thành một nút tín hiệu thị trường với độ trễ mili giây có thể tạo ra mục tiêu cho tin tặc hoặc thao túng, và đặt ra câu hỏi về trách nhiệm nếu thông tin sai lệch được phát tán qua kênh này.

cryptonews.ru47 phút trước

Với giá 100.000 đô la mỗi tháng: Truth Social bán quyền truy cập bài đăng của Trump cho các công ty đầu tư

cryptonews.ru47 phút trước

Chiến lược giữ mức cổ tức ưu đãi STRC ở 12% khi giá vẫn dưới mệnh giá

Cổ phiếu ưu đãi STRC của Strategy vẫn giao dịch dưới mệnh giá 100 USD trong tháng 7, nhưng công ty thông báo sẽ duy trì mức cổ tức 12% cho tháng 8. Cổ tức tiếp tục được trả hai lần mỗi tháng sau khi cổ đông phê chuẩn thay đổi này vào tháng 6. Giám đốc điều hành Phong Le khẳng định mục tiêu là đưa giá STRC về 99-100 USD, nhưng không đưa ra khung thời gian cụ thể. Strategy vừa công bố khoản lỗ ròng 8,22 tỷ USD trong quý II, chủ yếu do lỗ chưa thực hiện trên khoản nắm giữ Bitcoin. Công ty cho biết đã xây dựng dự trữ tiền mặt 3,75 tỷ USD để đảm bảo chi trả cổ tức và có kế hoạch tiếp tục mua lại cổ phiếu ưu đãi khi chúng giao dịch dưới mệnh giá.

cointelegraph2 giờ trước

Chiến lược giữ mức cổ tức ưu đãi STRC ở 12% khi giá vẫn dưới mệnh giá

cointelegraph2 giờ trước

Các giao dịch rút Bitcoin tiếp tục: 8 năm lưu trữ trong ví lạnh Coldcard kết thúc bằng số không

Ví phần cứng Coldcard bị xâm phạm, dẫn đến làn sóng rút tiền mới từ các thiết bị dễ bị tấn công. Theo Galaxy Research, tổng số tiền bị đánh cắp đã lên tới 1.367,05 BTC (khoảng 88,6 triệu USD). Vấn đề không nằm ở phần mềm cập nhật, mà ở seed phrase (cụm từ khôi phục) được tạo từ tháng 3/2021 do lỗi lập trình, khiến chúng dễ bị dò tìm. Lỗi này xảy ra khi thiết bị chuyển từ bộ tạo số ngẫu nhiên phần cứng sang bộ tạo phần mềm Yasmarang, được khởi tạo bằng dữ liệu có thể dự đoán được. Người dùng các model Mk2-Mk5 và Q với phiên bản phần mềm nhất định cần tạo seed phrase mới trên bản cập nhật đã sửa và chuyển tài sản sang đó để bảo vệ. Câu chuyện đau lòng của một nhà đầu tư 39 tuổi đã mất 2 BTC (130.000 USD) tích góp suốt 8 năm trong vài phút, dù áp dụng chiến lược "mua và giữ trong ví lạnh" thận trọng. Anh mua Bitcoin như một lá chắn chống siêu lạm phát và kế hoạch nghỉ hưu sớm, nhưng lỗ hổng đã phá hỏng mọi thứ. Sự việc nhấn mạnh rằng lưu trữ offline không tự động đảm bảo an toàn, và cộng đồng hy vọng nhà sản xuất có thể tìm cách khắc phục, hoàn trả tài sản cho người dùng.

cryptonews.ru2 giờ trước

Các giao dịch rút Bitcoin tiếp tục: 8 năm lưu trữ trong ví lạnh Coldcard kết thúc bằng số không

cryptonews.ru2 giờ trước

Tại Hàn Quốc ghi nhận sự bùng nổ khối lượng giao dịch 15 altcoin!

Tại Hàn Quốc, các sàn giao dịch tiền mã hóa lớn như Upbit và Bithumb đã ghi nhận sự tăng trưởng mạnh mẽ về khối lượng giao dịch của 15 đồng altcoin. Tổng khối lượng giao dịch trong 24 giờ của các altcoin phổ biến nhất đạt khoảng 347,7 triệu USD. MetaDAO (META) dẫn đầu bảng xếp hạng với khối lượng giao dịch riêng trên Upbit là 65,84 triệu USD. Euler (EUL) đứng thứ hai với tổng khối lượng 47,65 triệu USD trên cả hai sàn. XRP, thu hút truyền thống sự quan tâm của các nhà đầu tư Hàn Quốc, đạt 38,11 triệu USD. Danh sách 15 altcoin có khối lượng giao dịch lớn nhất trên Upbit và Bithumb lần lượt là: META, EUL, XRP, ThunderCore (TT), Babylon (BABY), Geodnet (GEOD), Hyperlane (HYPER), Momentum (MMT), Ondo (ONDO), Shiba Inu (SHIB), DOME, Lorenzo Protocol (BANK), Akash Network (AKT), Dogecoin (DOGE) và Worldcoin (WLD).

cryptonews.ru3 giờ trước

Giao dịch

Giao ngay

Bài viết Nổi bật

HTX Learn: Tìm hiểu Về Conflux để Chia sẻ 8000 USDT

Để giúp bạn nắm bắt bản chất của Conflux, HTX Learn đã ra mắt chiến dịch Tìm hiểu & Kiếm tiền này.

Tổng lượt xem 1.1kXuất bản vào 2024.12.23Cập nhật vào 2024.12.23

HTX Learn: Tìm hiểu Về Conflux để Chia sẻ 8000 USDT

AGENT S là gì

Agent S: Tương Lai của Tương Tác Tự Động trong Web3 Giới thiệu Trong bối cảnh không ngừng phát triển của Web3 và tiền điện tử, các đổi mới đang liên tục định nghĩa lại cách mà cá nhân tương tác với các nền tảng kỹ thuật số. Một dự án tiên phong như vậy, Agent S, hứa hẹn sẽ cách mạng hóa tương tác giữa con người và máy tính thông qua khung tác nhân mở của nó. Bằng cách mở đường cho các tương tác tự động, Agent S nhằm đơn giản hóa các nhiệm vụ phức tạp, cung cấp các ứng dụng chuyển đổi trong trí tuệ nhân tạo (AI). Cuộc khám phá chi tiết này sẽ đi sâu vào những phức tạp của dự án, các tính năng độc đáo của nó và những tác động đối với lĩnh vực tiền điện tử. Agent S là gì? Agent S đứng vững như một khung tác nhân mở đột phá, được thiết kế đặc biệt để giải quyết ba thách thức cơ bản trong việc tự động hóa các nhiệm vụ máy tính: Thu thập Kiến thức Cụ thể theo Miền: Khung này học một cách thông minh từ nhiều nguồn kiến thức bên ngoài và kinh nghiệm nội bộ. Cách tiếp cận kép này giúp nó xây dựng một kho lưu trữ phong phú về kiến thức cụ thể theo miền, nâng cao hiệu suất của nó trong việc thực hiện nhiệm vụ. Lập Kế Hoạch Qua Các Tầm Nhìn Nhiệm Vụ Dài Hạn: Agent S sử dụng lập kế hoạch phân cấp tăng cường kinh nghiệm, một cách tiếp cận chiến lược giúp phân chia và thực hiện các nhiệm vụ phức tạp một cách hiệu quả. Tính năng này nâng cao đáng kể khả năng quản lý nhiều nhiệm vụ con một cách hiệu quả và hiệu suất. Xử Lý Các Giao Diện Động, Không Đều: Dự án giới thiệu Giao Diện Tác Nhân-Máy Tính (ACI), một giải pháp đổi mới giúp nâng cao tương tác giữa các tác nhân và người dùng. Sử dụng các Mô Hình Ngôn Ngữ Lớn Đa Phương Thức (MLLMs), Agent S có thể điều hướng và thao tác các giao diện người dùng đồ họa đa dạng một cách liền mạch. Thông qua những tính năng tiên phong này, Agent S cung cấp một khung vững chắc giải quyết các phức tạp liên quan đến việc tự động hóa tương tác giữa con người với máy móc, mở ra nhiều ứng dụng trong AI và hơn thế nữa. Ai là Người Tạo ra Agent S? Mặc dù khái niệm về Agent S là hoàn toàn đổi mới, thông tin cụ thể về người sáng lập vẫn còn mơ hồ. Người sáng lập hiện vẫn chưa được biết đến, điều này làm nổi bật giai đoạn sơ khai của dự án hoặc sự lựa chọn chiến lược để giữ kín các thành viên sáng lập. Bất chấp sự ẩn danh, sự chú ý vẫn tập trung vào khả năng và tiềm năng của khung này. Ai là Các Nhà Đầu Tư của Agent S? Vì Agent S còn tương đối mới trong hệ sinh thái mã hóa, thông tin chi tiết về các nhà đầu tư và những người tài trợ tài chính của nó không được ghi chép rõ ràng. Sự thiếu vắng thông tin công khai về các nền tảng đầu tư hoặc tổ chức hỗ trợ dự án dấy lên câu hỏi về cấu trúc tài trợ và lộ trình phát triển của nó. Hiểu biết về sự hỗ trợ là rất quan trọng để đánh giá tính bền vững và tác động tiềm năng của dự án. Agent S Hoạt Động Như Thế Nào? Tại cốt lõi của Agent S là công nghệ tiên tiến cho phép nó hoạt động hiệu quả trong nhiều bối cảnh khác nhau. Mô hình hoạt động của nó được xây dựng xung quanh một số tính năng chính: Tương Tác Giống Như Con Người: Khung này cung cấp lập kế hoạch AI tiên tiến, cố gắng làm cho các tương tác với máy tính trở nên trực quan hơn. Bằng cách bắt chước hành vi của con người trong việc thực hiện nhiệm vụ, nó hứa hẹn nâng cao trải nghiệm người dùng. Ký Ức Tường Thuật: Được sử dụng để tận dụng các trải nghiệm cấp cao, Agent S sử dụng ký ức tường thuật để theo dõi lịch sử nhiệm vụ, từ đó nâng cao quy trình ra quyết định của nó. Ký Ức Tình Huống: Tính năng này cung cấp cho người dùng hướng dẫn từng bước, cho phép khung này cung cấp hỗ trợ theo ngữ cảnh khi các nhiệm vụ diễn ra. Hỗ Trợ OpenACI: Với khả năng chạy cục bộ, Agent S cho phép người dùng duy trì quyền kiểm soát đối với các tương tác và quy trình làm việc của họ, phù hợp với tinh thần phi tập trung của Web3. Tích Hợp Dễ Dàng với Các API Bên Ngoài: Tính linh hoạt và khả năng tương thích với nhiều nền tảng AI khác nhau đảm bảo rằng Agent S có thể hòa nhập liền mạch vào các hệ sinh thái công nghệ hiện có, làm cho nó trở thành lựa chọn hấp dẫn cho các nhà phát triển và tổ chức. Những chức năng này cùng nhau góp phần vào vị trí độc đáo của Agent S trong không gian tiền điện tử, khi nó tự động hóa các nhiệm vụ phức tạp, nhiều bước với sự can thiệp tối thiểu của con người. Khi dự án phát triển, các ứng dụng tiềm năng của nó trong Web3 có thể định nghĩa lại cách mà các tương tác kỹ thuật số diễn ra. Thời Gian Phát Triển của Agent S Sự phát triển và các cột mốc của Agent S có thể được tóm tắt trong một dòng thời gian nêu bật các sự kiện quan trọng của nó: 27 tháng 9, 2024: Khái niệm về Agent S được ra mắt trong một bài nghiên cứu toàn diện mang tên “Một Khung Tác Nhân Mở Sử Dụng Máy Tính Như Một Con Người,” trình bày nền tảng cho dự án. 10 tháng 10, 2024: Bài nghiên cứu được công bố công khai trên arXiv, cung cấp một cái nhìn sâu sắc về khung và đánh giá hiệu suất của nó dựa trên tiêu chuẩn OSWorld. 12 tháng 10, 2024: Một video trình bày được phát hành, cung cấp cái nhìn trực quan về khả năng và tính năng của Agent S, thu hút thêm sự quan tâm từ người dùng và nhà đầu tư tiềm năng. Những dấu mốc trong dòng thời gian không chỉ minh họa sự tiến bộ của Agent S mà còn chỉ ra cam kết của nó đối với sự minh bạch và sự tham gia của cộng đồng. Những Điểm Chính Về Agent S Khi khung Agent S tiếp tục phát triển, một số thuộc tính chính nổi bật, nhấn mạnh tính đổi mới và tiềm năng của nó: Khung Đổi Mới: Được thiết kế để cung cấp cách sử dụng máy tính trực quan giống như tương tác của con người, Agent S mang đến một cách tiếp cận mới cho việc tự động hóa nhiệm vụ. Tương Tác Tự Động: Khả năng tương tác tự động với máy tính thông qua GUI đánh dấu một bước tiến tới các giải pháp tính toán thông minh và hiệu quả hơn. Tự Động Hóa Nhiệm Vụ Phức Tạp: Với phương pháp mạnh mẽ của nó, nó có thể tự động hóa các nhiệm vụ phức tạp, nhiều bước, làm cho các quy trình nhanh hơn và ít sai sót hơn. Cải Tiến Liên Tục: Các cơ chế học tập cho phép Agent S cải thiện từ các trải nghiệm trước đó, liên tục nâng cao hiệu suất và hiệu quả của nó. Tính Linh Hoạt: Khả năng thích ứng của nó trên các môi trường hoạt động khác nhau như OSWorld và WindowsAgentArena đảm bảo rằng nó có thể phục vụ một loạt các ứng dụng rộng rãi. Khi Agent S định vị mình trong bối cảnh Web3 và tiền điện tử, tiềm năng của nó để nâng cao khả năng tương tác và tự động hóa quy trình đánh dấu một bước tiến quan trọng trong công nghệ AI. Thông qua khung đổi mới của mình, Agent S minh họa cho tương lai của các tương tác kỹ thuật số, hứa hẹn một trải nghiệm liền mạch và hiệu quả hơn cho người dùng trên nhiều ngành công nghiệp khác nhau. Kết luận Agent S đại diện cho một bước nhảy vọt táo bạo trong sự kết hợp giữa AI và Web3, với khả năng định nghĩa lại cách chúng ta tương tác với công nghệ. Mặc dù vẫn còn ở giai đoạn đầu, những khả năng cho ứng dụng của nó là rộng lớn và hấp dẫn. Thông qua khung toàn diện của mình giải quyết các thách thức quan trọng, Agent S nhằm đưa các tương tác tự động lên hàng đầu trong trải nghiệm kỹ thuật số. Khi chúng ta tiến sâu hơn vào các lĩnh vực tiền điện tử và phi tập trung, các dự án như Agent S chắc chắn sẽ đóng một vai trò quan trọng trong việc định hình tương lai của công nghệ và sự hợp tác giữa con người với máy tính.

Tổng lượt xem 1.1kXuất bản vào 2025.01.14Cập nhật vào 2025.01.14

Làm thế nào để Mua S

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Sonic (S) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Sonic (S) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Sonic (S) của BạnSau khi mua Sonic (S), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Sonic (S)Giao dịch Sonic (S) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 2.2kXuất bản vào 2025.01.15Cập nhật vào 2026.06.02

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến của người dùng về giá của S (S) được trình bày dưới đây.