# Bài viết Liên quan Kiến trúc

Trung tâm Tin tức HTX cung cấp những bài viết mới nhất và phân tích chuyên sâu về "Kiến trúc", bao gồm xu hướng thị trường, cập nhật dự án, phát triển công nghệ và chính sách quản lý trong ngành tiền kỹ thuật số.

Trí Phổ Dựa Vào Đâu Để Tăng Gần 30% Trong Một Ngày?

Hôm nay, cổ phiếu của "cổ phiếu mô hình lớn toàn cầu đầu tiên" Zhipu AI (02513.HK) đã bùng nổ. Động lực chính đến từ một thông số kỹ thuật cụ thể: Tốc độ đầu ra API của phiên bản cao tốc GLM-5.1 (GLM-5.1-highspeed) đạt 400 token/giây, thiết lập kỷ lục mới về tốc độ API trong ngành công nghiệp mô hình lớn toàn cầu. Tốc độ 400 token/giây này quan trọng như thế nào? Khi AI chuyển từ ChatBot sang thời đại Agent, mỗi tác vụ thường yêu cầu hàng chục hoặc thậm chí hàng trăm lần gọi mô hình. Độ trễ thấp ở đây trở thành yếu tố then chốt, trực tiếp ảnh hưởng đến trải nghiệm người dùng và hiệu quả công việc. Tốc độ này nhanh gấp khoảng 3-5 lần so với các mô hình hàng đầu hiện tại như GPT-4o hay Claude Sonnet. Để đạt được bước đột phá này, Zhipu AI đã thực hiện những đổi mới đồng thời trên ba cấp độ: 1. **TileRT – Công cụ suy luận:** Biên dịch toàn bộ mô hình thành một động cơ chạy liên tục, loại bỏ chi phí khởi động và chờ đợi lặp đi lặp lại giữa các toán tử, cho phép GPU duy trì hoạt động ở tốc độ cao. 2. **Chiến lược song song:** Tối ưu hóa việc triển khai cơ chế chú ý MLA (Multi-head Latent Attention) của GLM-5.1 trên nhiều GPU. Họ áp dụng kiến trúc chạy không đồng nhất, trong đó GPU 0 chuyên xử lý chỉ mục thưa thớt và định tuyến, trong khi các GPU khác xử lý tính toán dày đặc, giảm thiểu đáng kể chi phí giao tiếp. 3. **Kiến trúc mạng ZCube:** Một thiết kế mạng mới thay thế cấu trúc ROFT (Fat-Tree) truyền thống. ZCube loại bỏ lớp Spine (xương sống), làm phẳng toàn bộ mạng và kết nối tất cả các bộ chuyển mạch Leaf (lá) theo một cấu trúc đặc biệt. Thiết kế này đảm bảo rằng giữa hai GPU bất kỳ chỉ có một đường dẫn tối ưu duy nhất, về cơ bản loại bỏ khả năng tắc nghẽn mạng do cân bằng tải không hiệu quả. Những cải tiến này mang lại lợi ích rõ ràng: cụm sản xuất nâng cấp lên ZCube đạt được mức tăng 15% thông lượng, giảm 40.6% độ trễ đuôi và giảm khoảng một phần ba chi phí thiết bị mạng. Về lâu dài, công nghệ này không chỉ nâng cao hiệu quả sử dụng GPU mà còn có thể định hình lại cấu trúc hạ tầng AI, mở ra cơ hội cho các nhà cung cấp chip AI, thiết bị chuyển mạch và mô-đun quang trong nước.

marsbitHôm qua 01:25

Trí Phổ Dựa Vào Đâu Để Tăng Gần 30% Trong Một Ngày?

marsbitHôm qua 01:25

Mười năm đặt cược Cerebras: 'AI chip cấp độ wafer' lên sàn NASDAQ như thế nào

Ngày 14/5, Cerebras chính thức niêm yết trên NASDAQ, đánh dấu sự kiện IPO phần cứng AI được chú ý nhất kể từ năm 2026. Bài viết do nhà đầu tư ban đầu Steve Vassallo viết, kể lại hành trình 19 năm hợp tác với nhà sáng lập Andrew Feldman từ SeaMicro đến Cerebras. Năm 2016, khi AI chưa phải là xu hướng chính và GPU được xem là lựa chọn mặc định, Andrew và đội ngũ kỹ thuật đã đặt cược vào một hướng đi khác: thiết kế lại kiến trúc tính toán cơ bản cho AI. Thay vì tăng số lõi, họ tập trung giải quyết nút thắt băng thông bộ nhớ - yếu tố thực sự hạn chế hiệu suất mạng neural. Tham vọng của họ là tạo ra một con chip cấp độ wafer, lớn gấp 58 lần chip thông thường. Điều này đồng nghĩa với việc phải tái phát minh toàn bộ hệ thống: nguồn điện, tản nhiệt, tính liên tục điện... Mỗi vấn đề đều là thách thức chưa từng có. Nguyên mẫu đầu tiên thậm chí đã "bốc khói" trong lần chạy thử. Qua các cuộc họp hội đồng quản trị định kỳ, đội ngũ đã thể hiện kỷ luật và sự kiên trì đáng kinh ngạc. Họ biết ranh giới giữa việc thách thức các quy ước ngành và tôn trọng các định luật vật lý bất biến. Sự tin tưởng lâu dài, phi giao dịch giữa nhà đầu tư và đội ngũ sáng lập là chìa khóa vượt qua thất bại. Động lực của Andrew bắt nguồn từ mong muốn tạo ra bước nhảy vọt 1000 lần, không phải cải tiến dần. Môi trường lớn lên giữa những thiên tài đã dạy anh rằng sự xuất sắc thực sự đi đôi với lòng tốt. Triết lý này định hình văn hóa Cerebras, nơi sự cạnh tranh và lòng nhân ái song hành. Tháng 8/2019, chiếc máy tính hoàn toàn mới của họ đã chạy thành công. Đó là kết quả của một thập kỷ làm việc không mệt mỏi để giải quyết những vấn đề kỹ thuật phức tạp nhất. Câu chuyện của Cerebras nhắc nhở thị trường rằng cuộc cách mạng sức mạnh tính toán không chỉ đến từ việc có thêm GPU, mà có thể đến từ việc tưởng tượng lại chính kiến trúc máy tính.

marsbit05/15 03:59

Mười năm đặt cược Cerebras: 'AI chip cấp độ wafer' lên sàn NASDAQ như thế nào

marsbit05/15 03:59

Ant Digital Tech Lần Đầu Đề Xuất Kiến Trúc Mới Cho Nền Kinh Tế Tác Nhân AI, Bao Phủ 4 Mảng: Định Danh, Thanh Toán, Quản Lý Rủi Ro và Tuân Thủ

Ant Digital Technologies (Ant Digital) lần đầu tiên đề xuất kiến trúc mới cho nền kinh tế Agent - "4R Full-Stack" tại Hong Kong Web3 Festival, bao gồm 4 tầng: Agentic Runtime, Payment Rails, Agent Registry và Root Infrastructure. Kiến trúc này nhằm cung cấp nền tảng kỹ thuật toàn diện cho Agent AI, bao trùm danh tính, thanh toán, quản lý rủi ro và tuân thủ. CTO Yan Ying chỉ ra 4 "khoảng cách" trong nền tảng kinh tế Agent hiện tại: lỗ hổng logic prompt, thiếu danh tính tin cậy, rào cản giao dịch do gateway thanh toán hướng đến con người, và rủi ro hợp tác giữa các Agent lạ. Bà nhấn mạnh giải pháp không chỉ là sửa phần mềm mà cần thiết kế lại từ nền tảng cơ sở. Cụ thể, tầng Agentic Runtime với sản phẩm chính DTClaw (tích hợp mô hình bảo mật CARLI) đảm bảo hành vi Agent được kiểm soát, kiểm toán và khôi phục được. Payment Rails xây dựng kênh thanh toán on-chain nguyên bản, kết hợp trí thông minh Agent và công nghệ credential có thể xác minh, hỗ trợ giao dịch vi mô tần suất cao. Agent Registry cung cấp danh tính on-chain dựa trên DID và tiêu chuẩn ERC-8004. Root Infrastructure sử dụng Jovay Layer2 (xác nhận 120ms) và ZKVM để giải quyết vấn đề tin cậy tính toán. Yan Ying cho rằng, giai đoạn phát triển thứ ba của AI không nằm ở việc thông minh hơn, mà là khả năng sở hữu tài sản và quyền giao dịch. Kiến trúc 4R kế thừa kinh nghiệm của Ant Digital về bảo mật cấp tài chính, tính toán bảo mật, blockchain và tuân thủ.

marsbit04/20 09:25

Ant Digital Tech Lần Đầu Đề Xuất Kiến Trúc Mới Cho Nền Kinh Tế Tác Nhân AI, Bao Phủ 4 Mảng: Định Danh, Thanh Toán, Quản Lý Rủi Ro và Tuân Thủ

marsbit04/20 09:25

Harness Mỏng, Kỹ Năng Dày: Nguồn gốc thực sự của năng suất AI gấp 100 lần

Trong bài viết "Thin Harness, Fat Skills: Nguồn gốc thực sự của năng suất AI gấp 100 lần", tác giả Garry Tan (Chủ tịch kiêm CEO Y Combinator) cho rằng sự khác biệt lớn về năng suất khi sử dụng AI không đến từ mô hình mạnh hơn, mà từ một hệ thống được thiết kế tốt xung quanh mô hình. Ông giới thiệu khung "thin harness, fat skills" (khung chạy mỏng, kỹ năng dày), phân tích ứng dụng AI thành 5 thành phần chính: 1. **Skill file (Tệp kỹ năng):** Tài liệu markdown có thể tái sử dụng, dạy mô hình *cách* thực hiện một quy trình cụ thể với các tham số đầu vào khác nhau. 2. **Harness (Khung chạy):** Lớp chương trình mỏng chỉ quản lý việc chạy mô hình, đọc/ghi file, quản lý ngữ cảnh và ràng buộc bảo mật. 3. **Resolver (Bộ phân giải):** Bảng định tuyến ngữ cảnh, quyết định tải thông tin nào vào đúng thời điểm. 4. **Latent vs. Deterministic (Tiềm ẩn vs. Xác định):** Phân biệt rõ ràng nhiệm vụ cần trí thông minh (phán đoán, tổng hợp) và nhiệm vụ cần tính xác định (truy vấn, tính toán). 5. **Diarization (Quy chuẩn tài liệu):** Khả năng của mô hình đọc, tổng hợp và nén nhiều tài liệu thành một bản tóm tắt cấu trúc hóa về một chủ đề. Hệ thống ba tầng (kỹ năng dày, khung chạy mỏng, cơ sở hạ tầng xác định) cho phép kỹ năng tự động cải thiện theo thời gian thông qua vòng lặp học tập (đọc -> phân tích -> viết lại kỹ năng), mà không cần viết lại mã. Điều này biến AI từ công cụ một lần thành cơ sở hạ tầng có hiệu ứng lãi kép, nơi giá trị tích lũy theo thời gian và mọi kỹ năng đều được nâng cấp vĩnh viễn khi mô hình mới ra mắt.

marsbit04/13 04:24

Harness Mỏng, Kỹ Năng Dày: Nguồn gốc thực sự của năng suất AI gấp 100 lần

marsbit04/13 04:24

活动图片