Vượt qua "Bức tường Bộ nhớ": Cuộc Cách mạng ở Cấp độ Wafer và Lộ trình Tính toán trong Thời đại Suy luận AI
Năm 2026, chi phí đầu tư cho suy luận AI của các nhà cung cấp điện toán đám mây quy mô lớn lần đầu tiên vượt quá chi phí cho huấn luyện, đánh dấu bước chuyển từ "luyện mô hình lớn" sang "sử dụng mô hình lớn". Trong thời đại suy luận, điểm nghẽn chính chuyển sang "tường bộ nhớ" (memory wall), nơi chi phí và độ trễ di chuyển dữ liệu giữa GPU và DRAM (như HBM) vượt xa bản thân tính toán.
Cerebras Systems, với kiến trúc động cơ quy mô wafer (WSE), đề xuất một giải pháp triệt để: thay vì cắt một tấm wafer thành nhiều chip nhỏ, họ sử dụng gần như toàn bộ wafer làm một chip khổng lồ duy nhất. Chip WSE-3 mới nhất cung cấp băng thông bộ nhớ trên chip cực cao nhờ 44GB SRAM, lên tới 21 PB/s, cao hơn 2625 lần so với GPU B200 của NVIDIA, giúp giảm đáng kể độ trễ trong suy luận mô hình lớn.
Trong kiến trúc của Cerebras, trọng số mô hình được lưu trữ bên ngoài trên MemoryX và được truyền theo từng lớp đến chip khi cần, cho phép thông lượng token nhanh hơn từ 1.5 đến 5 lần so với B200 trong các mô hình khác nhau. Nó cũng có lợi thế lớn về hiệu suất năng lượng cho kết nối trên chip.
Tuy nhiên, Cerebras phải đối mặt với những thách thức: lợi thế SRAM có thể chạm trần vật lý do giới hạn thu nhỏ theo tiến trình bán dẫn, yêu cầu hệ thống làm mát chuyên dụng, băng thông I/O ra bên ngoài thấp gây khó khăn cho mở rộng quy mô lớn, và hệ sinh thái phần mềm độc quyền.
Các gã khổng lồ công nghệ đang theo đuổi nhiều con đường khác để giải quyết điểm nghẽn suy luận, bao gồm tự phát triển ASIC (như TPU, Maia), tận dụng công nghệ đóng gói tiên tiến phổ biến (như SoW của TSMC), và khám phá kết nối/quang học. Áp lực thương mại cũng rất lớn, khi Cerebras phải chuyển đổi thành nhà cung cấp dịch vụ đám mây và triển khai năng lực trung tâm dữ liệu khổng lồ theo các hợp đồng.
Tóm lại, cuộc đua kiến trúc suy luận AI là về sự đánh đổi: Cerebras tối ưu hóa cực độ cho độ trễ thấp trên một wafer, trong khi NVIDIA duy trì tính linh hoạt và thông lượng cao thông qua kiến trúc cụm GPU. Tương lai của cả hai hướng đi vẫn chưa được định đoạt, phụ thuộc vào sự phát triển của tải công việc và công nghệ.
marsbit1 giờ trước