# Bài viết Liên quan Suy luận

Trung tâm Tin tức HTX cung cấp những bài viết mới nhất và phân tích chuyên sâu về "Suy luận", bao gồm xu hướng thị trường, cập nhật dự án, phát triển công nghệ và chính sách quản lý trong ngành tiền kỹ thuật số.

Trí Phổ Dựa Vào Đâu Để Tăng Gần 30% Trong Một Ngày?

Hôm nay, cổ phiếu của "cổ phiếu mô hình lớn toàn cầu đầu tiên" Zhipu AI (02513.HK) đã bùng nổ. Động lực chính đến từ một thông số kỹ thuật cụ thể: Tốc độ đầu ra API của phiên bản cao tốc GLM-5.1 (GLM-5.1-highspeed) đạt 400 token/giây, thiết lập kỷ lục mới về tốc độ API trong ngành công nghiệp mô hình lớn toàn cầu. Tốc độ 400 token/giây này quan trọng như thế nào? Khi AI chuyển từ ChatBot sang thời đại Agent, mỗi tác vụ thường yêu cầu hàng chục hoặc thậm chí hàng trăm lần gọi mô hình. Độ trễ thấp ở đây trở thành yếu tố then chốt, trực tiếp ảnh hưởng đến trải nghiệm người dùng và hiệu quả công việc. Tốc độ này nhanh gấp khoảng 3-5 lần so với các mô hình hàng đầu hiện tại như GPT-4o hay Claude Sonnet. Để đạt được bước đột phá này, Zhipu AI đã thực hiện những đổi mới đồng thời trên ba cấp độ: 1. **TileRT – Công cụ suy luận:** Biên dịch toàn bộ mô hình thành một động cơ chạy liên tục, loại bỏ chi phí khởi động và chờ đợi lặp đi lặp lại giữa các toán tử, cho phép GPU duy trì hoạt động ở tốc độ cao. 2. **Chiến lược song song:** Tối ưu hóa việc triển khai cơ chế chú ý MLA (Multi-head Latent Attention) của GLM-5.1 trên nhiều GPU. Họ áp dụng kiến trúc chạy không đồng nhất, trong đó GPU 0 chuyên xử lý chỉ mục thưa thớt và định tuyến, trong khi các GPU khác xử lý tính toán dày đặc, giảm thiểu đáng kể chi phí giao tiếp. 3. **Kiến trúc mạng ZCube:** Một thiết kế mạng mới thay thế cấu trúc ROFT (Fat-Tree) truyền thống. ZCube loại bỏ lớp Spine (xương sống), làm phẳng toàn bộ mạng và kết nối tất cả các bộ chuyển mạch Leaf (lá) theo một cấu trúc đặc biệt. Thiết kế này đảm bảo rằng giữa hai GPU bất kỳ chỉ có một đường dẫn tối ưu duy nhất, về cơ bản loại bỏ khả năng tắc nghẽn mạng do cân bằng tải không hiệu quả. Những cải tiến này mang lại lợi ích rõ ràng: cụm sản xuất nâng cấp lên ZCube đạt được mức tăng 15% thông lượng, giảm 40.6% độ trễ đuôi và giảm khoảng một phần ba chi phí thiết bị mạng. Về lâu dài, công nghệ này không chỉ nâng cao hiệu quả sử dụng GPU mà còn có thể định hình lại cấu trúc hạ tầng AI, mở ra cơ hội cho các nhà cung cấp chip AI, thiết bị chuyển mạch và mô-đun quang trong nước.

marsbit05/23 01:25

Trí Phổ Dựa Vào Đâu Để Tăng Gần 30% Trong Một Ngày?

marsbit05/23 01:25

Đột phá quan trọng về AI cộng tác! Stanford và Nvidia cùng nhau loại bỏ hao phí giao tiếp trong AI, tốc độ suy luận tăng mạnh 2.4 lần

Tưởng tượng một nhóm trợ lý AI hợp tác giải một bài toán. Cách làm truyền thống buộc chúng phải liên tục "viết" và "đọc" suy nghĩ dưới dạng văn bản, gây lãng phí thời gian, token và làm thất thoát thông tin – vấn đề được gọi là **"Language Tax" (Thuế ngôn ngữ)**. Mới đây, nghiên cứu hợp tác giữa UIUC, Stanford, NVIDIA và MIT đã đề xuất **RecursiveMAS**, một phương pháp đột phá cho phép các agent AI giao tiếp trực tiếp thông qua **"tư duy"** trong không gian tiềm ẩn (latent space), thay vì phải mã hóa và giải mã thành văn bản. Hệ thống này hoạt động như một vòng lặp đệ quy, nơi các agent chuyển tiếp biểu diễn vector ẩn cho nhau cho đến khi hoàn thành nhiệm vụ, chỉ giải mã thành văn bản ở bước cuối cùng. **Lợi ích chính:** - **Tốc độ:** Tăng tốc suy luận từ **1.2 đến 2.4 lần**, hiệu quả tăng theo số vòng lặp đệ quy. - **Chi phí:** Giảm tiêu thụ token **tới 75.6%**. - **Độ chính xác:** Cải thiện trung bình **8.3%** trên nhiều tác vụ chuẩn (toán học, lập trình, hỏi đáp), do giảm thiểu tổn thất thông tin khi "nén" tư duy thành chữ. - **Hiệu quả huấn luyện:** Chỉ cần huấn luyện một mô-đun kết nối nhẹ **RecursiveLink** (0.31% tham số), trong khi đóng băng trọng số mô hình gốc, giảm đáng kể chi phí tính toán. **Ý nghĩa & Hạn chế:** RecursiveMAS mở ra hướng tiếp cận mới để mở rộng hệ thống đa tác nhân: thay vì tăng số lượng agent, có thể **tăng độ sâu đệ quy**. Tuy nhiên, nghiên cứu vẫn cần được kiểm chứng độc lập, đồng thời đối mặt với thách thức về khả năng giải thích (vì quá trình hợp tác diễn ra trong "hộp đen") và khả năng tương thích giữa các kiến trúc model khác nhau. Tóm lại, đây là một bước tiến quan trọng hướng tới việc loại bỏ "nút thắt ngôn ngữ", giúp sự hợp tác giữa các AI trở nên trực tiếp và hiệu quả hơn, giống như **"thần giao cách cảm"**.

marsbit05/21 00:14

Đột phá quan trọng về AI cộng tác! Stanford và Nvidia cùng nhau loại bỏ hao phí giao tiếp trong AI, tốc độ suy luận tăng mạnh 2.4 lần

marsbit05/21 00:14

Ngành chip này đang bùng nổ

Thị trường chip AI toàn cầu đang trải qua một sự chuyển dịch mô hình sâu sắc, với sự trỗi dậy mạnh mẽ của chip ASIC (Application-Specific Integrated Circuit) từ khoảng năm 2025. Động lực chính đến từ sự dịch chuyển trọng tâm nhu cầu tính toán AI từ huấn luyện sang suy luận (inference) quy mô lớn, nơi ASIC thể hiện ưu thế vượt trội về hiệu suất năng lượng, độ trễ và chi phí so với GPU đa dụng. Các tín hiệu rõ ràng bao gồm: Google TPU chiếm 78% thị phần máy chủ AI; OpenAI hợp tác với Broadcom triển khai cụm ASIC 10 GW; MediaTek và Qualcomm công khai mục tiêu lớn cho ASIC trung tâm dữ liệu; các nhà cung cấp dịch vụ thiết kế IC như Xinyuan và ASR ghi nhận đơn hàng bùng nổ. Dự báo cho thấy thị phần ASIC trong chip AI sẽ tăng lên 45% vào 2027, với quy mô thị trường đạt 300 tỷ USD. Sự bùng nổ được thúc đẩy bởi tính kinh tế của AI suy luận quy mô lớn, kiến trúc Transformer thống nhất tạo điều kiện tối ưu hóa ASIC, và nhu cầu chiến lược của các nhà cung cấp dịch vụ đám mây (CSP) trong việc nắm quyền kiểm soát kiến trúc và chuỗi cung ứng. Các CSP như Google, AWS, Meta đang tích cực phát triển hoặc đặt hàng chip tự thiết kế. Bức tranh cạnh tranh toàn cầu được định hình lại với sự tham gia của các tân binh như MediaTek, Qualcomm cùng các gã khổng lồ truyền thống Broadcom, Marvell. Tại Trung Quốc, Xinyuan và ASR nổi lên như những nhà cung cấp dịch vụ thiết kế ASIC độc lập quan trọng, hưởng lợi từ làn sóng nhu cầu. Xu hướng này cũng thúc đẩy tái cấu trúc chuỗi cung ứng, với việc Google đàm phán bán TPU cho Meta, đánh dấu bước chuyển từ chip tự dùng sang thương mại hóa. Tuy nhiên, ASIC đối mặt với thách thức về chi phí phát triển cao, rào cản phần mềm (CUDA của NVIDIA), phụ thuộc vào năng lực đóng gói tiên tiến (CoWoS của TSMC) và sự đánh đổi giữa hiệu suất chuyên dụng và tính linh hoạt. Tóm lại, kỷ nguyên vàng của ASIC không phải là sự thay thế hoàn toàn GPU, mà hướng tới một hệ sinh thái đa dạng nơi GPU thống trị huấn luyện và ASIC tối ưu cho suy luận, trao quyền kiểm soát kiến trúc tính toán cho nhiều đối tượng hơn trong ngành.

marsbit05/18 00:34

marsbit05/18 00:34

Tăng 108% Ngay Ngày Đầu! Ngựa Ô AI Lớn Nhất Năm 2026 Ra Đời, Altman Lại 'Kiếm Tiền Trong Giấc Ngủ'

Bài viết tường thuật về vụ IPO lớn nhất năm 2026 của Cerebras, một công ty chip AI. Cổ phiếu Cerebras (mã: ) tăng 108% trong ngày đầu niêm yết trên Nasdaq, định giá công ty lên tới 100 tỷ USD. Bài viết nhấn mạnh việc công ty huy động được 5,55 tỷ USD và sự chuyển mình từ thua lỗ sang lợi nhuận trong năm 2025. Người sáng lập OpenAI, Sam Altman, thu lợi gấp 10 lần từ khoản đầu tư cá nhân từ năm 2017. Bản thân OpenAI cũng có lợi nhuận kế toán lớn nhờ một thỏa thuận mua cổ phần với giá rất thấp và là khách hàng lớn của Cerebras với hợp đồng trị giá hơn 20 tỷ USD. Sản phẩm cốt lõi của Cerebras là chip WSE-3 khổng lồ, được quảng cáo là có hiệu suất vượt trội cho tác vụ suy luận AI (AI inference) so với GPU của NVIDIA. Bài viết kết luận bằng cách đặt vụ IPO của Cerebras trong bối cảnh rộng hơn: đây chỉ là màn mở đầu cho một làn sóng IPO khổng lồ sắp tới từ các gã khổng lồ AI như SpaceX (bao gồm xAI), OpenAI và Anthropic, với tổng định giá tiềm năng lên tới hơn 3 nghìn tỷ USD, báo hiệu một cuộc chạy đua vũ trang về năng lực tính toán hướng tới kỷ nguyên Trí tuệ nhân tạo siêu việt (ASI).

marsbit05/15 11:24

Tăng 108% Ngay Ngày Đầu! Ngựa Ô AI Lớn Nhất Năm 2026 Ra Đời, Altman Lại 'Kiếm Tiền Trong Giấc Ngủ'

marsbit05/15 11:24

Một bài viết để hiểu rõ nhóm lợi nhuận và cấu trúc ngành của hệ thống lưu trữ AI

Tác giả: Godot Hệ thống lưu trữ AI được chia thành 6 tầng: SRAM trên chip, HBM, DRAM bo mạch chủ, lớp tổng hợp CXL, SSD doanh nghiệp, NAS và lưu trữ đám mây dạng đối tượng. Các tầng càng xa đơn vị tính toán thì dung lượng càng lớn. Tổng quy mô thị trường năm 2025 đạt khoảng 2290 tỷ USD, trong đó DRAM chiếm một nửa, HBM 15%, SSD 11%. Các hồ lợi nhuận được chia thành ba loại: 1) Hồ độc quyền biên lợi nhuận cao ở tầng silicon (HBM, SRAM nhúng, SSD QLC); 2) Hồ mới nổi biên lợi nhuận cao ở tầng kết nối (CXL); 3) Hồ lợi suất theo quy mô ở tầng dịch vụ (NAS, lưu trữ đám mây). **Tầng chính và động lực tăng trưởng:** * **L0 SRAM trên chip:** Lợi nhuận chủ yếu thuộc về TSMC do nhu cầu wafer cho chip AI. * **L1 HBM:** Hồ lợi nhuận lớn nhất thời AI, tăng trưởng mạnh (CAGR ~40%), dẫn đầu bởi SK Hynix (57-62%), Samsung và Micron. Lợi nhuận cực cao (vd: SK Hynix đạt 72% trong Q1/2026) nhờ công nghệ TSV, đóng gói tiên tiến và cung khan hiếm. * **L2 DRAM bo mạch chủ:** Thị trường lớn nhất (1218.3 tỷ USD năm 2025), vẫn do bộ ba Samsung, SK Hynix, Micron thống trị. Lợi nhuận được hỗ trợ bởi việc chuyển hướng sản lượng sang HBM. * **L3 Lớp tổng hợp CXL:** Thị trường mới nổi với tốc độ tăng trưởng nhanh (CAGR 37%), cho phép chia sẻ bộ nhớ trong cả tủ rack. Các nhà cung cấp chính vẫn là bộ ba DRAM, với Astera Labs chi phối thị trường retimer CXL (55% thị phần, lợi nhuận cao). * **L4 SSD doanh nghiệp:** Hưởng lợi từ AI suy luận, đặc biệt là SSD QLC dung lượng lớn. Thị trường tăng trưởng (CAGR 24%), do Samsung, SK Hynix (bao gồm Solidigm) và Micron dẫn đầu. * **L5 NAS & Lưu trữ đám mây:** Lợi nhuận dựa trên dịch vụ lưu trữ dài hạn, phí chuyển dữ liệu và khóa hệ sinh thái. NetApp, Dell, HPE và các nhà cung cấp đám mây lớn (AWS, Azure, GCP) thống trị. **Tóm tắt điểm chính:** 1. Càng gần đơn vị tính toán (HBM, CXL), lợi nhuận càng cao (lên tới 76%+). 2. Tăng trưởng chính đến từ HBM (CAGR 28%), SSD doanh nghiệp (24%) và CXL (37%). 3. Rào cản khác nhau theo từng tầng: HBM dựa vào công nghệ và năng lực sản xuất; CXL dựa vào IP và chứng nhận; dịch vụ dựa vào chi phí chuyển đổi.

marsbit05/14 04:06

Một bài viết để hiểu rõ nhóm lợi nhuận và cấu trúc ngành của hệ thống lưu trữ AI

marsbit05/14 04:06

Cerebras IPO: Định giá 48,8 tỷ USD, “Kẻ thách thức Nvidia” là bong bóng hay vị vua mới?

Cerebras (CBRS) chuẩn bị IPO với định giá 48,8 tỷ USD, tăng gấp đôi so với ba tháng trước, là đợt IPO lớn nhất năm 2026. Công ty được ca ngợi là "đối thủ của Nvidia" với chip cấp wafer (WSE-3) cho hiệu suất suy luận (inference) vượt trội và hợp đồng hàng chục tỷ USD với OpenAI. Tuy nhiên, bản cáo bạch S-1 tiết lộ ba nghịch lý chính: 1. Lợi nhuận 237,8 triệu USD năm 2025 chủ yếu đến từ điều chỉnh kế toán một lần. Nếu loại trừ khoản này, công ty thực tế lỗ 75,7 triệu USD. 2. Mặc dù giảm phụ thuộc vào G42, 86% doanh thu năm 2025 vẫn đến từ hai thực thể có liên quan ở UAE (MBZUAI 62%, G42 24%). Hợp đồng với OpenAI đi kèm các điều khoản cho vay, quyền mua cổ phiếu và tính độc quyền, tạo ra cấu trúc phức tạp. 3. Cerebras thực sự chỉ dẫn đầu trong thị trường suy luận chuyên biệt, chứ không phải là đối thủ toàn diện thay thế hệ sinh thái đào tạo mô hình (training) và CUDA của Nvidia. Định giá 48,8 tỷ USD tương ứng hệ số P/S rất cao là 95 lần trên doanh thu 510 triệu USD. Bài viết nhận định IPO này có thể tăng mạnh ngày đầu nhờ cơn sốt vốn đầu tư vào hạ tầng AI. Tuy nhiên, giá trị dài hạn phụ thuộc vào việc công ty có thực hiện được hợp đồng với OpenAI, duy trì lợi thế công nghệ trước các gã khổng lồ như Nvidia, và giảm được rủi ro tập trung khách hàng cùng rủi ro địa chính trị hay không. Đây là một khoản đầu tư có tỷ lệ thưởng cao nhưng cũng đầy rủi ro và bất định.

marsbit05/12 09:20

Cerebras IPO: Định giá 48,8 tỷ USD, “Kẻ thách thức Nvidia” là bong bóng hay vị vua mới?

marsbit05/12 09:20

Hóa đơn suy luận AI tăng phi mã, Shopify, Roblox cảnh báo: Tiền tiết kiệm từ cắt giảm nhân sự không đủ trả phí chip

Các báo cáo tài chính quý I/2026 của các ông lớn công nghệ như Shopify và Roblox cho thấy một nghịch lý: trong khi AI giúp cắt giảm nhân sự, thì chi phí cho phần cứng (GPU) và sử dụng mô hình (token) lại đang tăng vọt, thậm chí vượt quá khoản tiết kiệm từ việc tinh giản lao động. Shopify cho biết AI đảm nhận hơn 50% công việc viết code, giúp công ty phát triển sản phẩm mà không cần tăng người. Tuy nhiên, chi phí sử dụng LLM (mô hình ngôn ngữ lớn), đặc biệt từ AI trợ lý Sidekick, đang làm xói mòn lợi nhuận gộp của mảng dịch vụ đăng ký. Mặc dù lợi nhuận gộp duy trì ở 80%, chi phí cơ sở hạ tầng liên quan đến AI đã tăng 20%. Roblox cũng báo cáo tình hình tương tự. Khoảng một phần tư mức điều chỉnh giảm dự báo lợi nhuận cả năm của họ trực tiếp đến từ các khoản đầu tư tăng thêm cho AI. Công ty đang xử lý 1,5 triệu lượt suy luận AI mỗi giây. Để đối phó, Roblox dự kiến sẽ tính phí đối với các tính năng AI cao cấp như "Roblox Reality" thay vì cung cấp miễn phí. Trên quy mô ngành, bốn gã khổng lồ Amazon, Meta, Microsoft và Google dự kiến chi tổng cộng 7250 tỷ USD cho đầu tư vào AI trong năm 2026, tăng 77%. So sánh cho thấy sự mất cân đối lớn: chi phí tiền lương toàn bộ nhân viên của Meta (khoảng 27 tỷ USD) chưa bằng 1/5 ngân sách cơ sở hạ tầng AI của họ. Một phân tích ước tính, cứ mỗi đô la chi cho năng lực tính toán AI, cần tiết kiệm gần mười đô la chi phí nhân sự để bù đắp. Tình thế này mang lại lợi nhuận cao cho các nhà cung cấp mô hình và chip như Nvidia, OpenAI, Anthropic. Trong khi đó, các công ty ứng dụng như Shopify và Roblox phải đối mặt với bài toán tài chính phức tạp: doanh thu phụ thuộc vào cường độ sử dụng AI, nhưng đường cong chi phí lại bị chi phối bởi giá của nhà cung cấp mô hình. Cách giải quyết chung là không thể chỉ dựa vào tiết kiệm từ cắt giảm nhân sự, mà phải tìm cách chuyển chi phí AI cho người dùng hoặc biến nó thành lợi thế chiến lược gắn kết khách hàng.

marsbit05/11 06:57

Hóa đơn suy luận AI tăng phi mã, Shopify, Roblox cảnh báo: Tiền tiết kiệm từ cắt giảm nhân sự không đủ trả phí chip

marsbit05/11 06:57

Trải nghiệm thực tế Hunyuan Hy3 preview: Cuối cùng Tencent AI cũng đã có thể chiến đấu?

Bài viết đánh giá Tencent Hunyuan Hy3 Preview, mô hình ngôn ngữ mới nhất của Tencent với 295B tham số, hỗ trợ ngữ cảnh lên đến 256K. Mô hình được phát triển dưới sự dẫn dắt của Yao Shunyu, tập trung vào nâng cao khả năng suy luận, tuân thủ chỉ dẫn, học từ ngữ cảnh, tạo mã và hoạt động agent. Về suy luận, Hy3 Preview xử lý tốt logic phức tạp nhưng còn hạn chế với câu đố mẹo. Trong học ngữ cảnh và tuân thủ chỉ dẫn, mô hình thể hiện khả năng ổn định trong việc trích xuất thông tin và hiểu quy tắc mới. Về mã và agent, nó có thể gọi công cụ thành thạo nhưng đôi khi thiếu hoàn thiện trong giao nhiệm vụ. Trong hội thoại tự nhiên, Hy3 Preview giảm bớt "cảm giác AI", tạo văn bản trôi chảy, tự nhiên hơn. Tóm lại, Hy3 Preview là mô hình thực tế, ổn định trên nhiều mặt, đánh dấu bước tiến quan trọng của Tencent trong lĩnh vực AI, dù vẫn cần cải thiện thêm. Hiện mô hình đã được tích hợp vào các sản phẩm chính của Tencent như Tencent Cloud, Yuanbao và WorkBuddy.

marsbit04/26 07:20

Trải nghiệm thực tế Hunyuan Hy3 preview: Cuối cùng Tencent AI cũng đã có thể chiến đấu?

marsbit04/26 07:20

Giá trị thực sự của DeepSeek V4 không nằm ở tham số

DeepSeek V4 không chỉ gây ấn tượng bởi quy mô tham số hay độ dài ngữ cảnh lên đến 1 triệu token, mà còn ở khả năng tương thích hiệu quả với phần cứng AI nội địa Trung Quốc như Huawei Ascend 950 và Cambricon. Điều này đánh dấu bước đột phá chiến lược, giúp giảm sự phụ thuộc vào hệ sinh thái GPU và CUDA của NVIDIA. Bằng cách tối ưu kiến trúc MoE, cơ chế chú ý lai (CSA + HCA) và nén KV Cache, DeepSeek V4 giảm đáng kể tài nguyên tính toán và bộ nhớ cần thiết, giúp triển khai trên chip nội địa trở nên khả thi và ổn định. Về giá cả, DeepSeek V4 cung cấp mức giá cạnh tranh cho cả hai phiên bản Pro và Flash, giúp các doanh nghiệp có thể triển khai ứng dụng AI quy mô lớn với chi phí hợp lý, đặc biệt trong các tác vụ như xử lý tài liệu dài, phân tích mã nguồn và tự động hóa quy trình. Thành công của DeepSeek V4 chứng minh khả năng phát triển mô hình AI đẳng cấp thế giới dựa trên nền tảng phần cứng nội địa, mở ra hướng đi bền vững cho ngành trí tuệ nhân tạo Trung Quốc giữa bối cảnh hạn chế công nghệ toàn cầu.

marsbit04/25 08:11

Giá trị thực sự của DeepSeek V4 không nằm ở tham số

marsbit04/25 08:11

Người sáng lập a16z: Trong thời đại Agent, thứ thực sự quan trọng đã thay đổi

Bài phỏng vấn Marc Andreessen, nhà sáng lập a16z, thảo luận về sự phát triển của AI. Ông nhấn mạnh AI không phải là hiện tượng bất ngờ mà là kết quả của 80 năm phát triển công nghệ, với các mốc quan trọng như AlexNet, Transformer và ChatGPT. Ông mô tả agent là sự kết hợp của LLM, shell, hệ thống tệp, markdown và cron/loop, cho phép nó thực thi tác vụ, lưu trữ trạng thái và tự cải tiến. Tương lai sẽ chứng kiến sự thay thế dần giao diện người dùng truyền thống bằng agent-first, nơi con người chỉ cần đưa ra mục tiêu. So sánh với bong bóng dotcom, đầu tư AI hiện nay chủ yếu từ các công ty lớn, có tiềm lực và tạo ra doanh thu nhanh chóng. Ông cũng đề cao vai trò của mã nguồn mở, điện toán biên và triển khai cục bộ, đồng thời chỉ ra các thách thức về bảo mật, danh tính, tài chính và sự chấp thuận của xã hội đối với AI.

marsbit04/25 02:07

Người sáng lập a16z: Trong thời đại Agent, thứ thực sự quan trọng đã thay đổi