Tuần này, một tin tức không lớn không nhỏ từ phía Nvidia truyền tới: CPU thế hệ mới Vera dành cho trung tâm dữ liệu AI, sớm nhất là tháng 8 có thể cho khách hàng Trung Quốc đặt hàng, giá đơn chiếc vượt xa 20,000 USD, một tủ chứa đầy đủ 256 chip có giá khoảng một triệu USD. Theo báo cáo, đã có một công ty dịch vụ đám mây lớn của Trung Quốc tính toán đặt trước hơn 300 máy chủ hai socket, mỗi máy nhét hai CPU Vera, chạy thử tại trung tâm dữ liệu hải ngoại trước, rồi mới quyết định có đặt hàng chính thức hay không.
Vera là CPU độc lập đầu tiên của Nvidia, được ra mắt vào tháng 3 năm nay, được thiết kế riêng cho AI agent, dựa trên công nghệ Arm, đã được đưa vào sản xuất toàn diện, tuyên bố tốc độ xử lý nhanh hơn 1.8 lần so với bộ xử lý cùng loại của đối thủ. Chính CEO Nvidia, Jensen Huang, cũng thừa nhận rằng, do các yếu tố như kiểm soát xuất khẩu chip tiên tiến, thị phần của công ty tại thị trường Trung Quốc thực tế đã giảm mạnh. Trong bối cảnh này, việc đưa Vera vào hệ thống đặt hàng của khách hàng Trung Quốc, vừa là một động thái thương mại, vừa là việc chia lại bài cho bàn bài gần như đã bị xóa sổ. Nvidia kỳ vọng doanh thu hàng năm cho dòng sản phẩm Vera này là 20 tỷ USD.
Nhưng khi đọc tin này ở phía Trung Quốc, sẽ thấy được một ý nghĩa khác. CPU Vera này vẫn là kiến trúc Arm, chuỗi đặt hàng, tính ổn định cung ứng lâu dài, quyền đàm phán giá cả, tất cả đều nằm trong tay người khác.
Khi cơ sở hạ tầng AI của Trung Quốc đang hấp thụ sức mạnh tính toán với một sự thèm khát chưa từng có, tầng CPU này có nhất thiết phải đặt cược vào bàn bài Arm hay không? Ngoài hai đỉnh núi trưởng thành gần như độc quyền là x86 và Arm, còn có một đường đua nào khác, vừa có thể chống lại lực hút của Arm, vừa có thể chịu được sức nặng của tính toán hiệu suất cao?
Trong vài lần thăm viếng gần đây ở các thành phố thuộc khu vực Trường Giang, tác giả liên tục nghe thấy một cái tên được nhắc đến: RISC-V.
Nghe có vẻ như một câu nói cũ, xét cho cùng RISC-V đã ra đời hơn mười năm, lượng xuất xưởng trong lĩnh vực nhúng đã lên tới hàng trăm tỷ chip. Nhưng điều thực sự khiến nó liên tục được đưa lên chương trình nghị sự trong một hai năm nay, không phải là thị trường nhúng, mà là những dấu hiệu cho thấy trần giới hạn ở phía trung tâm dữ liệu, máy chủ, sức mạnh tính toán AI đang liên tục bị nó đẩy lên.
Điều chúng ta sẽ cố gắng trả lời, chính là câu hỏi có vẻ cũ mà thực ra lại mới này.
Ông Từ Thao, Chủ tịch Công ty Công nghệ StarFive, người vừa nhậm chức Chủ tịch đầu tiên của Liên minh RISC-V Hồng Kông, từ nhiều năm trước đã từng nhận định, RISC-V có triển vọng chia ba thiên hạ với x86 và ARM, thành bại tại người: "Cách tốt nhất để dự đoán tương lai, chính là tạo ra nó."
Vì vậy, khi Nvidia mang Vera đến gõ cửa, liệu CPU tự nghiên cứu của Trung Quốc chỉ còn một cách sống duy nhất là "chạy theo Arm". Con đường đua kia rốt cuộc có tồn tại hay không, con đường đó dẫn đến đâu.
"Tam giác bất khả thi" đang chờ bị phá vỡ
Tiến sĩ Đới Vĩ Dân, người sáng lập Tập đoàn VeriSilicon, trong hội nghị thượng đỉnh ngành năm ngoái, đã đặt mối băn khoăn của toàn ngành thành một câu hỏi lựa chọn. Câu hỏi lựa chọn này sau đó được giới công nghiệp tiếp tục sử dụng, dần dần được gọi là "tam giác bất khả thi" của ngành công nghiệp CPU.
Ba góc của nó, là phồn thịnh, khả kiểm soát, tự chủ.
Sự kết hợp đầu tiên, đủ phồn thịnh nhưng không thể kiểm soát, là x86, hệ sinh thái dày nhất toàn cầu, phần mềm đầy đủ nhất, hiệu suất mạnh nhất, nhưng lại là lãnh địa riêng của người khác. Sự kết hợp thứ hai, muốn có khả năng kiểm soát, bỏ đủ tiền cũng có thể mua được bản quyền, có thể sửa, có thể dùng, nhưng về căn bản vẫn là kiến trúc do người khác định nghĩa, không thể nói là thực sự tự chủ. Sự kết hợp thứ ba, tự chủ khả kiểm soát nhưng chắc chắn không đủ phồn thịnh, là tập lệnh riêng do các nhà tự định nghĩa khi đóng cửa lại, về mặt kỹ thuật có thể đứng vững, nhưng về hệ sinh thái chắc chắn chỉ có thể bơi trong một cái ao nhỏ. Ba sự kết hợp này, lần lượt tương ứng với thực trạng hiện nay của x86, con đường cấp phép Arm, và một số CPU nội địa Trung Quốc.
Ba góc, mãi mãi chỉ có thể chiếm được hai. Đây là cốt lõi của tam giác bất khả thi.
Và RISC-V được Tiến sĩ Đới Vĩ Dân đặt ở vị trí ngoài tam giác. Ông cho rằng, con đường thực sự vừa tự chủ khả kiểm soát, vừa có cơ hội thực sự phồn thịnh, hiện nay chỉ có duy nhất con đường RISC-V.
Lý do không phải là vì nó đã thắng ngày hôm nay, mà là vì về mặt cấu trúc, nó có khả năng "có cả ba": tập lệnh mở nguồn mở có nghĩa là không có công ty nào có thể đơn phương siết cổ chuỗi cung ứng, triết lý thiết kế module hóa có thể mở rộng có nghĩa là bất kỳ nhà sản xuất nào cũng có thể tạo ra sự khác biệt trên nó, và thuộc tính tiêu chuẩn quốc tế lại quyết định rằng nó có cơ hội giống như Arm và x86, gánh vác được hệ sinh thái phần mềm đủ lớn.
Nhận định này trong quá trình thăm viếng của tác giả đã nhận được sự phản hồi khá nhất quán. Về cơ bản cho rằng, đóng góp lớn nhất của RISC-V đối với ngành công nghiệp, không phải là tạo ra một "trái tim Trung Quốc" khác, mà là chia lại cho mọi người một lá bài mới: con hào mà x86 và Arm đã đào mấy chục năm, trong thời kỳ cửa sổ AI viết lại mô hình tính toán, lần đầu tiên trông có vẻ không quá không thể vượt qua.
Nhưng cũng phải nói lại. Phá vỡ tam giác bất khả thi là một tham vọng, tham vọng muốn biến thành thế thắng, phải cắn xương cứng nhất: tính toán hiệu suất cao.
Thị trường nhúng RISC-V đã ngồi vững, hễ đưa thước đo di chuyển đến những từ như trung tâm dữ liệu, máy chủ, sức mạnh tính toán AI, vấn đề lập tức trở nên sắc bén. Đây chính là sợi dây cần đi theo tiếp theo.
Sức mạnh này, cần được thổi bùng lên tại Đại Lục Trung Quốc
Nhìn ra toàn cầu, RISC-V không phải là khái niệm độc quyền của Trung Quốc. Google, Meta, Qualcomm, Nvidia, Tesla đều đã ở các mức độ khác nhau ôm lấy RISC-V, Liên minh châu Âu thông qua Đạo luật Chip đầu tư hàng chục tỷ euro hỗ trợ nghiên cứu và phát triển RISC-V, EuroHPC đã khởi động dự án DARE trị giá khoảng 240 triệu euro, mục tiêu là từ năm 2025 bắt đầu dần dần thay thế bộ xử lý tính toán hiệu suất cao bằng RISC-V, đằng sau viết bốn chữ "chủ quyền số".
Cùng một RISC-V, Trung Quốc nhìn thấy là an ninh chuỗi cung ứng và chi phí, thế giới nhìn thấy là tự do kiến trúc thế hệ tiếp theo hướng tới AI, hai lực lượng này vừa khéo chồng lên nhau vào lúc này.
Nhưng để thực sự thổi bùng lên thanh thế, để thực sự đẩy hệ sinh thái từ nhúng lên hiệu suất cao, hiện nay có sức mạnh chủ đạo nhất, chính là Đại Lục Trung Quốc. Đằng sau nhận định này có N lực đẩy.
Đầu tiên là "lũ lụt sức mạnh tính toán" do AI mang lại. Sự đồng thuận cơ bản trong ngành là, đến năm 2030 quy mô bán dẫn toàn cầu sẽ vượt qua một nghìn tỷ USD, trong đó hơn 70% liên quan đến AI. Sự thèm khát về sức mạnh tính toán, băng thông bộ nhớ, kết nối giữa các chip của AI, vượt xa bất kỳ ứng dụng nào trước đây, lưu lượng sức mạnh tính toán như thủy triều tràn về phía hiệu suất cao. Ai trong tay không có đế sức mạnh tính toán đủ, người đó sẽ bị bỏ lại.
Tất nhiên còn có sự thắt chặt cung ứng do kiểm soát xuất khẩu mang lại. Bộ Thương mại Mỹ liên tục thắt chặt kiểm soát xuất khẩu chip tính toán tiên tiến, chính Nvidia thừa nhận thị phần tại Trung Quốc gần như về 0; Vera mới tuy sắp đến, nhưng giá cả, nhịp độ, tính khả dụng, không có mục nào nằm trong tay nhà sản xuất Trung Quốc. Một bên là nhu cầu ngày càng cao, một bên là cung ứng bị siết chặt, kéo cắt kéo này, chính là nơi hệ sinh thái Trung Quốc lo lắng nhất, cũng là nơi giàu trí tưởng tượng nhất.
Ngoài ra, là giảm chi phí cấu trúc do nguồn mở mang lại. Một chuyên gia trong ngành lâu năm làm lựa chọn chip điện toán đám mây trong quá trình tác giả khảo sát, đã phân tích sổ sách của trung tâm dữ liệu. Trong máy chủ hiệu suất cao, hai loại chip GPU và CPU cộng lại, có thể chiếm từ 50% đến 80% chi phí phần cứng. Bất kỳ nỗ lực nào muốn hạ tổng chi phí, cuối cùng đều sẽ đổ dồn vào chip đắt nhất. Và điểm độc đáo nhất của RISC-V, chính là thuộc tính mở nguồn của nó: x86 là hộp đen đóng, Arm là lãnh địa riêng do một bên cấp phép duy nhất kiểm soát, RISC-V thì giao lại tầng tập lệnh - sản phẩm công cộng này - cho toàn ngành công nghiệp. Khi một nhà sản xuất không cần trả phí cấp phép, không bị chính bản thân tập lệnh siết cổ, cấu trúc chi phí của chuỗi sản xuất CPU này có cơ hội được viết lại một cách cấu trúc.
Tại Đại Lục Trung Quốc, trên ba lực đẩy này còn chồng thêm một tầng riêng có, về cơ bản có thể quy thành "trung ương định điệu, địa phương gia mã". Bộ Công nghiệp và Công nghệ Thông tin năm nay đã ban hành chuyên án phát triển chất lượng cao liên quan đến RISC-V trung tâm dữ liệu, các địa phương đồng bộ triển khai vốn chính sách và kịch bản ứng dụng cho công nghệ cứng, sức mạnh hợp lực từ trên xuống dưới và từ dưới lên này, là thứ mà châu Âu và Mỹ không có.
Đáng suy ngẫm hơn là sự chuyển hướng thái độ. Vài năm trước, trong sáu nhà sản xuất CPU nội địa từng có người phụ trách trực tiếp chế nhạo những người làm RISC-V "chẳng qua là một đám ô hợp". Mà đến hôm nay, sáu nhà sản xuất này không có ngoại lệ nào đều đã vượt qua kiểm định quốc gia, trong đó đã có người sẵn sàng làm người ăn cua đầu tiên, bắt đầu nghiêm túc thử ghép cành thế hệ tiếp theo của mình lên RISC-V. Từ "đám ô hợp" đến "người ăn cua đầu tiên", giữa đó ngăn cách, chính là quá trình hai năm nay công nghệ, chính sách và thị trường hợp lực vặn chuyển trường dư luận.
Nếu nói sự ôm lấy RISC-V của châu Âu chủ yếu được thúc đẩy bởi một mục tiêu "chủ quyền số", thì lực đẩy của Đại Lục Trung Quốc là bốn lực lượng an ninh chuỗi cung ứng, cấu trúc chi phí, chủ quyền công nghệ, bùng nổ ứng dụng chồng lên nhau. Đây cũng là lý do tại sao, hôm nay hội trường sôi động nhất, công ty IP dày đặc nhất, cuộc đua tốc độ cao hiệu suất cao kịch liệt nhất của RISC-V toàn cầu, hầu như đều tập trung tại Đại Lục Trung Quốc.
Một câu đã thành sự đồng thuận trong ngành là: RISC-V là sân nhà của Trung Quốc.
Vé vào cửa, vẫn chỉ là vé vào cửa
Để định lượng tiến triển của RISC-V đột kích tính toán hiệu suất cao, giới công nghiệp ngầm hiểu lập ra một ngưỡng cửa: điểm SPEC định điểm chạy trên đơn vị tần số đạt 15 điểm.
Ngưỡng cửa này cần giải thích mở rộng một chút, nếu không dễ bị hiểu lầm. SPEC CPU 2006 và 2017 là bài kiểm tra chuẩn hiệu suất bộ xử lý lâu dài được ngành công nghiệp sử dụng, điểm định điểm (SPECint) đo lường khả năng của CPU trong tính toán số nguyên thông dụng, "đơn vị tần số" có nghĩa là tách ảnh hưởng của tốc độ xung nhịp chính, đơn thuần so sánh hiệu suất thực thi của bản thân kiến trúc vi mô. Nói cách khác, 15 điểm này so sánh là một lõi trong điều kiện không phụ thuộc vào kéo cao xung nhịp, đơn vị thời gian có thể làm được bao nhiêu việc, nó đo lường trình độ thiết kế, không phải là lợi nhuận công nghệ.
Tại sao là 15 điểm. Bởi vì đường cơ sở kiến trúc vi mô của phe x86 và Arm trên CPU hiệu suất cao đại khái ở mức độ này, thấp hơn con số này, một lõi RISC-V rất khó tuyên bố mình "trên cùng một đường xuất phát với kiến trúc trưởng thành". Nói cách khác, 15 điểm không phải là trần giới hạn tuyệt đối, mà là một đường tiêu chuẩn tư cách. Vượt qua nó, có nghĩa là có tư cách đối thoại bước vào câu lạc bộ hiệu suất cao; không vượt qua, nhiều kể chuyện thị trường đến đâu cũng chỉ có thể dừng lại ở nhúng và trung thấp.
Một chuyên gia trong ngành tham gia sâu vào thiết kế kiến trúc vi mô hiệu suất cao, trong quá trình tác giả khảo sát đã trình bày ý nghĩa công nghiệp đằng sau đường tiêu chuẩn tư cách này. Thành công của dòng M Apple và Arm Neoverse nói cho mọi người biết, muốn xé toạc thị trường mà kiến trúc trưởng thành như x86 đã thống trị mấy chục năm, duy nhất có thể dựa vào là tỷ lệ hiệu suất/tiêu thụ điện năng cao hơn; trước hết phải đứng vững về hiệu suất đơn vị, rồi chờ công nghệ tiên tiến trưởng thành kéo cao tốc độ xung nhịp chính. Con đường này cũng áp dụng được cho RISC-V.
Vậy đường này đã chạm tới chưa. Đáp án là: đã được nhiều đội ngũ Đại Lục Trung Quốc lần lượt chạm tới, thậm chí vượt qua.
Phe nguồn mở, lõi RISC-V hiệu suất cao nguồn mở chủ lưu trong nước đã trên mạng Mesh tám lõi thực tế đưa điểm chạy lên 14.78 điểm, căn bản căn chỉnh với mục tiêu 15 điểm đã công bố trước đó.
Đáng nói là, đội ngũ chủ động làm rõ định kiến của ngành đối với nguồn mở: nguồn mở không bằng chất lượng thấp, họ muốn để lại cho ngành, một đường cơ sở nguồn mở thực sự có thể sử dụng. Ý nghĩa của đường cơ sở này là, bất kỳ nhà sản xuất chip vừa và nhỏ nào không cần phải tạo bánh xe từ số 0, xuất phát từ lõi nguồn mở có thể bước vào đường xuất phát hiệu suất cao, đây là khả năng mà hộp đen x86 và cấp phép đơn nhất Arm đều không thể cho.
Phe IP thương mại càng trăm hoa đua nở. Sự đồng thuận miễn cưỡng là, hiện nay Đại Lục Trung Quốc đã có không dưới năm nhà sản xuất, đưa lõi RISC-V hiệu suất cao của mình lên hoặc tuyên bố đạt trên 15 điểm, một số đội ngũ thậm chí chạy đến khoảng 16 đến 18 điểm, tốc độ xung nhịp chính cảnh điển hình đã đột phá trên 3.4GHz.
"Bước qua ngưỡng cửa lớn 3GHz, mới thực sự bước vào cửa bộ xử lý hiệu suất cao", đây là một phán đoán khí thế do một kiến trúc sư kỳ cựu đưa ra trước mặt tác giả.
Nhưng điểm chạy chỉ là vé vào cửa. Cuộc so tài thực sự ở ngoài điểm chạy.
Từ một lõi đến cả một hệ thống: Một bước nhảy vọt công trình khác
Một thay đổi đáng nói nhất của RISC-V Đại Lục Trung Quốc trong năm qua, là tiêu điểm chú ý chuyển từ một lõi đơn sang bước nhảy vọt tổng thể "hệ thống con tính toán".
Hiểu việc này, trước hết phải hiểu hình dạng thực của một CPU máy chủ. Nó không chỉ là một đơn vị thực thi tập lệnh, mà là cả một SoC gồm hàng chục lõi, bộ nhớ cache chia sẻ, bộ điều khiển bộ nhớ, kênh IO, đảo bảo mật, đơn vị quản lý nguồn, cộng thêm mạng kết nối trên chip tổ chức tất cả những thứ này. Cái sau thường được gọi là NoC, chính xác hơn, là NoC nhất quán: nó phải đảm bảo hàng chục thậm chí hàng trăm lõi nhìn thấy khung nhìn bộ nhớ là nhất quán, là trung khu thần kinh của hệ thống đa lõi quy mô lớn.
Tầng này quan trọng thế nào. Intel, AMD, Nvidia đều có bus nhất quán tự nghiên cứu, Arm có dòng IP CMN, Huawei Ascend có HCCS của riêng mình. Toàn cầu có thể đưa IP NoC nhất quán đến trình độ giao hàng thương mại hóa vốn đã ít ỏi, mỗi công ty đều cần lặp lại cấp độ mười năm. NoC nhất quán làm không tốt, lõi đơn mạnh đến đâu cũng chỉ là đảo cô lập.
Mà đến hôm nay, đã có nhà sản xuất RISC-V Đại Lục Trung Quốc tự nghiên cứu mạng trên chip nhất quán thương mại hóa. Sự đồng thuận cơ bản là, đây là dấu hiệu then chốt của RISC-V nội địa từ "làm lõi" tiến lên "làm hệ thống". Một người làm nghề tiếp nhận phỏng vấn của tác giả nói, doanh nghiệp Đại Lục Trung Quốc xung kích cao địa chip máy chủ RISC-V đã không dưới mười nhà, đây là mật độ mà vài năm trước tất cả mọi người không dám nghĩ.
Ngoài NoC, còn có một loạt tiêu chí cứng "một điểm cũng không cộng trên điểm chạy, nhưng lại quyết định máy chủ có muốn lắp nó hay không". BMC (Bộ điều khiển quản lý bo mạch cơ sở từ xa), IPMI (Giao diện quản lý nền tảng thông minh), hỗ trợ phương tiện ảo, RAS toàn stack (Độ tin cậy, Tính khả dụng, Tính khả phục vụ), đây là yêu cầu cơ bản nhất của vận hành và bảo trì trung tâm dữ liệu. Còn có một thiết kế tỷ lệ thành phẩm rất thực tế, ngành gọi là Partial Goods: khi một chip máy chủ diện tích lớn bên trong có một lõi nào đó, một đoạn cache nào đó hoặc một kênh DDR nào đó hỏng, cả chip không thể vì thế mà thành phế phẩm, phải có thể che chắn khu vực hỏng tiếp tục xuất xưởng ở trạng thái giảm cấp. Thiết kế này ảnh hưởng trực tiếp đến tỷ lệ thành phẩm, ảnh hưởng đến tỷ lệ thành phẩm có nghĩa là ảnh hưởng đến tính kinh tế.
Mà thể hiện tham vọng nhất, là đã có nhà sản xuất Đại Lục Trung Quốc giao hàng một bộ xử lý máy chủ RISC-V 40 lõi, IP toàn tự nghiên cứu. Nơi đáng suy ngẫm nhất của bộ xử lý này không phải là quy mô, mà là sự kiềm chế của nó: tập lệnh tùy chỉnh bằng không, tương thích 100% tiêu chuẩn RVA23. Đằng sau này là một quy luật sắt ngành công nghiệp hầu như bị nhấn mạnh lặp đi lặp lại: trong thị trường máy chủ, quy củ quý hơn hoa mỹ.
RVA23 là gì. Giải thích đơn giản: nó là hồ sơ cấu hình bộ xử lý ứng dụng (Application Processor Profile) do Quỹ Quốc tế RISC-V định hình năm 2024, cố định hóa một nhóm tập lệnh mở rộng cốt lõi thành một "hợp đồng" thống nhất, bao gồm 58 mở rộng bắt buộc và 23 mở rộng tùy chọn. Về lý thuyết, bất kỳ bộ xử lý nào tuyên bố phù hợp RVA23, đều có thể chạy cùng một bộ phần mềm nhị phân. Ý nghĩa của nó đối với hệ sinh thái RISC-V, tương tự như Arm năm đó ra mắt Armv8-A: bước then chốt từ "trăm hoa đua nở" tiến lên "một tiêu chuẩn có thể đối thoại".
Tập lệnh tùy chỉnh bằng không, căn chỉnh nghiêm ngặt RVA23, có nghĩa là chip này từ bỏ con đường tắt dùng tập lệnh riêng "buff thêm" để đánh điểm chạy, đặt cam kết vào tính tương thích phần mềm lâu dài. Sự đồng thuận cơ bản cho rằng, đây là lần điều chỉnh tư thế thực tế nhất của RISC-V Đại Lục Trung Quốc xung kích thị trường máy chủ trong vài năm qua.
Một nhóm dữ liệu đối chiếu khác ngoài điểm chạy, càng có thể nói rõ độ dốc thực sự của RISC-V leo lên. Trên tải điển hình như mã hóa giải mã video, bộ xử lý hiệu suất cao RISC-V nội địa đã làm được chín phần của sản phẩm cùng đời x86, chín phần sáu của cùng đời Arm; trong tính toán mã hóa giải mã, thậm chí chạy đến 1.88 lần của x86, 1.67 lần của Arm; toán tử cốt lõi suy luận mô hình lớn cũng gần với 1.67 lần mức Arm. Đằng sau những con số này, là một bộ giao hàng phần mềm phần cứng bao gồm hệ điều hành, chuỗi công cụ, thư viện tính toán, chứ không phải một tấm silicon cô lập.
Thực tế hơn là chip đã trả tấm, đã chạy lên ở khách hàng. Một bộ xử lý RISC-V 64-bit nội địa tích hợp tám lõi đã hoàn thành sản xuất hàng loạt trên công nghệ 12nm, sau khi đóng gói kiểm tra trả tấm hai tuần đã chạy thông toàn bộ giao diện đồ họa Ubuntu và ứng dụng desktop chủ lưu. Kịch bản nó có thể ứng dụng rất sát đất: máy tích hợp mô hình lớn bên cạnh, cụm biên dịch gốc RISC-V, máy tính xách tay, thiết bị đầu cuối đám mây, thậm chí trên xe, đều nằm trong tầm bắn của nó. Từ có thể chạy điểm đến có thể sáng lên, đến có thể cài hệ thống, có thể làm việc, mỗi bước khoảng cách đều không gần, nhưng mỗi bước đang được từng chút một vượt qua.
Đối thủ thực sự không phải Arm, là con sông sau lưng Arm
Nhưng một khi đi đến đây, phải đưa ra một sự thật khác: RISC-V leo lên càng cao, đối thủ không thể tránh càng rõ ràng, không phải bản thân tập lệnh x86 và Arm, mà là con hào mấy chục năm đào sau lưng chúng.
Con sông này gọi là hệ sinh thái. Mà đoạn sâu nhất của nó, gọi là CUDA.
Một người làm nghề kỳ cựu từng làm việc nhiều năm tại Nvidia, trong quá trình tác giả khảo sát đã tạt một gáo nước lạnh tỉnh táo cho đồng nghiệp. Cô ấy nói, chính Jensen Huang không bao giờ cho rằng Nvidia là một công ty chip, lợi thế thực sự của GPU ngày nay chưa chắc nằm ở sức mạnh tính toán đơn vị, mà ở hệ sinh thái phần mềm CUDA cực kỳ mạnh mẽ. Số lượng nhà phát triển CUDA toàn cầu lên tới hàng triệu, đằng sau này là thư viện toán tử, chuỗi công cụ biên dịch, công cụ gỡ lỗi, Profiler, cũng như hàng nghìn hàng vạn bài luận văn và sách giáo khoa xoay quanh CUDA được nuôi dưỡng trong hơn mười năm. Điều RISC-V muốn thách thức, chính là ngọn núi này.
Nhưng chỗ thú vị nằm ở chỗ, nơi Arm và x86 không làm gì được RISC-V, lại chính là điểm tựa phản công của RISC-V. Bao Vân Cương từ Viện Khoa học Máy tính Trung Quốc, trong trao đổi với tác giả, đã chia cơ hội của RISC-V đối với AI thành ba tầng logic, bộ logic này trong quá trình thăm viếng đã nhận được sự đồng tình khá rộng rãi.
Tầng thứ nhất là hiệp đồng. RISC-V vốn là từ tập lệnh CPU mọc ra, làm mở rộng AI trên nó là xuôi dòng nước. Những năm 80 CPU thêm tập lệnh dấu phẩy động, những năm 90 thêm tập lệnh đa phương tiện (SIMD), cuối cùng đều hòa nhập vào thiết kế CPU chủ lưu. Mở rộng AI hòa nhập vào CPU, chỉ là lịch sử lặp lại một lần nữa. Mà thời đại AI agent, khối lượng công việc cần gọi đi gọi lại, quyết định đi quyết định lại giữa nhiều mô hình, lại đúng là đặt ra yêu cầu cao hơn về sự hiệp đồng sát sao giữa CPU và bộ tăng tốc. Điểm này thực ra chính là vấn đề mà CPU độc lập "được chế tạo riêng cho AI agent" như Vera của Nvidia muốn giải quyết. Nếu RISC-V có thể làm tập lệnh mở rộng AI vào đường cơ sở CPU, bằng với ở tầng hiệp đồng này đã chiếm trước một bước.
Tầng thứ hai là cắt tỉa. Sự đa dạng của cảnh suy luận AI vượt xa huấn luyện, đám mây cần mô hình lớn đầy máu, cạnh cần phiên bản cất, đầu cuối lại cần tiêu thụ điện năng cực hạn. Tập lệnh của x86 và Arm đều là "toàn tập hợp", không cắt tỉa được; thiết kế module hóa bẩm sinh của RISC-V có nghĩa là, mỗi nhà sản xuất đều có thể từ một nhóm mở rộng (M nhân chia số nguyên, A thao tác nguyên tử, F dấu phẩy động đơn chính xác, D dấu phẩy động kép chính xác, V vector, v.v.) chọn tập con mình cần, làm ra sản phẩm gọn gàng hơn, đúng bệnh hơn.
Tầng thứ ba cũng là tầng mấu chốt nhất, là stack phần mềm. Hiện nay công ty chip AI trong nước Trung Quốc đa số là kiểu ống khói dọc mỗi nhà làm mỗi thứ, quy mô đội ngũ phần mềm động chạm vài trăm thậm chí ngàn người, lao động lặp lại hết lần này đến lần khác. Một nhóm số lưu truyền trong ngành là, trong đội ngũ nghiên cứu và phát triển hơn một ngàn người của một nhà sản xuất GPU đầu ngành trong nước, làm chip chỉ có hơn hai trăm người, sáu bảy trăm người còn lại đều làm phần mềm. Nếu RISC-V có thể ở tầng tập lệnh AI thống nhất tiêu chuẩn, stack phần mềm, trình biên dịch, thư viện toán tử có thể theo đó thống nhất, nhà sản xuất chip có thể nhẹ nhàng lên đường, trả lại tinh lực cho kiến trúc vi mô và công nghệ. Đây, mới là con đường có cơ hội thực sự bắt tay đo sức với CUDA.
Còn tương lai đáy chip AI trông thế nào, ngành đưa ra hai tưởng tượng. Một loại được gọi là cách chơi Baby RISC-V: bên trong bộ tăng tốc nhét vào một đống lõi RISC-V nhỏ mà đơn giản, chuyên phụ trách điều phối dữ liệu chảy thế nào, lúc nào dùng tập lệnh gì, nhường toàn bộ diện tích silicon quý giá cho đơn vị tính toán. Tenstorrent là đại biểu của con đường này, Đại Lục Trung Quốc cũng có đội ngũ thử nghiệm trên hướng này.
Một loại khác là Big RISC-V, lấy RISC-V làm lõi điều khiển chính hiệu suất cao, gánh vác điều phối và nhiệm vụ nặng. Sự đồng thuận cơ bản cho rằng, hai con đường không loại trừ lẫn nhau, tương lai có khả năng hơn là Baby và Big cùng tồn tại trong một SoC, bên dưới bất kể là linh kiện vật lý gì, đơn vị ma trận gì, động cơ vector gì, đều thông qua RISC-V lấy một giao diện lập trình phần mềm thống nhất. Giao diện này, mới là gốc rễ của sự phồn thịnh hệ sinh thái.
Tưởng tượng lớn hơn, đã có người vẽ nó thành một đường cong tiến hóa: từ RISC-V cộng AI (kết hợp đơn giản CPU cộng bộ tăng tốc), đến AI cộng RISC-V (sức mạnh tính toán AI là chính, RISC-V điều khiển là phụ), cuối cùng đi đến RISC-V bằng AI (tập lệnh và sức mạnh tính toán AI hòa sâu, CPU tức là đế tính toán AI). Đường cong này có thành lập hay không còn phải xem sự hiện thực công trình năm đến mười năm tiếp theo, nhưng ít nhất nó nói rõ, không gian tưởng tượng của RISC-V đối với AI, xa không chỉ đơn giản là "làm một sản phẩm thay thế ngoài Arm".
Vấn đề thực sự một cái cũng không ít, mà đều rất cứng
Nói đến đây, câu chuyện như được kể tròn. Nhưng một bài phân tích ngành có trách nhiệm, phải trải nửa còn lại ra nói: RISC-V xung kích tính toán hiệu suất cao, vấn đề thực sự một cái cũng không ít, mà đều rất cứng.
Vấn đề thực sự đầu tiên, là sự không hoàn chỉnh và phân mảnh của hệ sinh thái. Giám đốc phần mềm và hệ sinh thái cao cấp của Lanxin Suanli, Hứa Khánh Vĩ, trước mặt tác giả nói rất không nể nang: RISC-V so với x86 và Arm, thách thức lớn nhất là hệ sinh thái không hoàn chỉnh, quy phạm không hoàn chỉnh, hệ sinh thái phân mảnh, thêm vào đó độ trưởng thành phần mềm không đủ. Gốc rễ của phân mảnh nằm ở tập lệnh tùy chỉnh, mỗi nhà sản xuất đều muốn dùng mở rộng riêng kéo ra sự khác biệt, kết quả cuối cùng là hệ sinh thái phần mềm bị xé thành từng mảnh đảo cô lập. CPU máy chủ "tập lệnh tùy chỉnh bằng không, toàn bộ RVA23" được nhắc đến ở trên, về bản chất chính là câu trả lời thực tế nhất đối với vấn đề thực sự này: coi quy củ nặng hơn hoa mỹ.
Vấn đề thực sự thứ hai ẩn trong chuỗi công cụ và xác minh. Mắt xích EDA, điểm yếu của RISC-V nội địa Trung Quốc lộ ra đặc biệt rõ ràng. Gã khổng lồ EDA quốc tế, Giám đốc Kỹ thuật của Synopsys, Trương Xuân Lâm, trong một hoạt động ngành nói với tác giả, ngành công nghiệp đã trang bị cho Arm một bộ kiểm tra tương thích và Benchmark rất hoàn chỉnh, mà phần này của RISC-V còn kém xa; thêm vào đó mỗi nhà lấy nguồn mở đi làm tập lệnh tùy chỉnh, mỗi lần tùy chỉnh đều có nghĩa là một công trình xác minh không nhỏ. Còn một khó khăn khác: RISC-V là kiến trúc mở, hôm nay tùy tiện sửa một đoạn mã, hiệu quả rốt cuộc là tốt lên hay xấu đi, không ai muốn đợi chip trả tấm về mới biết đáp án, vì vậy xác minh hiệp đồng phần mềm phần cứng phải hoàn thành trước khi trả tấm.
Xác minh khó thế nào? Một nhóm dữ liệu ngành đã công bố là, sai số hiệu suất ban đầu của bộ mô phỏng và RTL của đội ngũ lõi hiệu suất cao nguồn mở trong nước trên điểm SPEC định điểm cao đến 12.4%, dấu phẩy động cao đến 30.6%, có nghĩa là dự đoán mô phỏng và hiệu suất thực tế sai lệch nghiêm trọng. Nhiều công ty bỏ rất nhiều công sức làm hiệu chỉnh hạt mịn, mới đè hai sai số này xuống cứng ngắc 1.8% và 2.6%. Đằng sau những con số này, là công việc khổ nhọc nhất không gợi cảm nhưng mài mòn nhất trong phát triển bộ xử lý hiệu suất cao, cũng là bài tập bất kỳ đội ngũ nào muốn làm CPU máy chủ đều không thể tránh qua.
Còn có hai ngọn núi không thể tránh qua là hiệu suất đơn lõi và hiệu suất/tiêu thụ điện năng. Sự đồng thuận cơ bản hiện nay của ngành là, hiệu suất đơn lõi và hiệu suất bus kết nối trên chip của chip RISC-V nội địa hiện nay vẫn ở giai đoạn đuổi theo, muốn đứng vững trong trung tâm dữ liệu, còn rất nhiều đường phải đi. Cuộc so tài hiệu suất/tiêu thụ điện năng càng ẩn, nó phụ thuộc công nghệ, phụ thuộc quản lý nguồn điện, phụ thuộc thiết kế mạch điện tầng đáy nhất, mỗi mục đều là cơ bắp mà phe x86 và Arm dùng mấy chục năm đập ra.
Chủ tịch Công ty Công nghệ Andes, Lâm Chí Minh, từng đánh một ví dụ đặc biệt dễ hiểu: transistor trước đây như giường ngủ trên mặt đất phẳng, sau FinFET mọi người đổi sang ngủ giường 3D lập thể, về sau nữa như xây tòa nhà chọc trời trên một chip, mục đích đều là trong không gian vật lý hữu hạn vắt ra nhiều sức mạnh tính toán hơn. Thời hậu Moore ai có thể xây tòa nhà này cao và tiết kiệm điện, người đó thắng. RISC-V muốn trong tòa nhà này so hiệu suất/tiêu thụ điện năng với kiến trúc trưởng thành, không dựa vào bản thân tập lệnh, mà là công việc thiết kế mạch điện gần như thợ thủ công, dùng đường dữ liệu tùy chỉnh đẩy cứng tốc độ xung nhịp chính và hiệu suất/tiêu thụ điện năng ra.
Thực tế nhất một mục, là công nghệ và thời gian. Công nghệ cao cấp nội địa thực sự còn vấn đề, đây chỉ là một trạng thái chuyển tiếp. Hôm nay dám bỏ tấm, ngày mai kênh thu hẹp lấy không về tấm trả thì làm thế nào, mỗi nhà sản xuất chip trong lòng đều có sổ sách riêng. Giám đốc Kỹ thuật Chip của Bộ Sản phẩm Điện toán Đám mây China Mobile, Lưu Á Nam, trong quá trình tác giả khảo sát đã nói một câu khá thành thật: tương lai là sáng lạn, nhất định sẽ thắng lợi, nhưng quá trình này, đặc biệt là trong lĩnh vực trung tâm dữ liệu, chu kỳ sẽ vượt quá dự kiến của mọi người. Câu này đáng được trích dẫn lặp đi lặp lại, bởi vì nó đại biểu cho quản lý kỳ vọng tỉnh táo nhất của giới công nghiệp đối với việc RISC-V xung kích hiệu suất cao.
Cửa đã mở, đường vẫn dài
Đi vòng một vòng lớn, quay lại câu hỏi mở đầu: khi Nvidia mang Vera đến gõ cửa, liệu CPU tự nghiên cứu của Trung Quốc chỉ còn một cách sống duy nhất là "chạy theo Arm".
Tất cả bằng chứng chỉ về cùng một đáp án: con đường đua khác là tồn tại, và sân nhà của con đường đua này chính là tại Đại Lục Trung Quốc. Vé vào cửa 15 điểm này, trong nước đã có không chỉ một nhà cầm trong tay rồi; NoC nhất quán, RAS, Partial Goods những tiêu chí cứng của trung tâm dữ liệu, cũng bắt đầu được từng nhà từng nhà cắn xuống; CPU máy chủ tập lệnh tùy chỉnh bằng không, căn chỉnh nghiêm ngặt RVA23 đã trả tấm, đánh dấu ngành công nghiệp này bắt đầu thực sự theo "quy củ máy chủ" lớn lên; ô tô, viễn thông, chuyển mã video những kịch bản ứng dụng này, đã đang dùng đơn hàng thực tế để bảo lãnh cho RISC-V.
Nhưng cũng phải thừa nhận, sản phẩm tiêu biểu hiệu suất máy nguyên chiếc đối đầu với x86 và Arm vẫn chưa thực sự xuất hiện, con hào hệ sinh thái CUDA này cũng xa không phải vài năm có thể đào thông. Mỗi bước RISC-V leo lên, đều đi kèm với phân mảnh, điểm yếu EDA, hiệu suất/tiêu thụ điện năng đơn lõi, lợi nhuận công nghệ, tính toán mật những vấn đề thực sự, những vấn đề này không có cái nào có thể dựa vào khẩu hiệu hoặc chính sách giải quyết một đêm.
Phá cục "tam giác bất khả thi" không phải là một câu khẩu hiệu. Nó có nghĩa là RISC-V phải đồng thời ghép ba việc tự chủ, khả kiểm soát, phồn thịnh lại với nhau, mà mỗi việc riêng rẽ đều là chuyện mấy chục năm mới làm thành. Cục diện hiện nay là nền tảng tự chủ đã đặt xuống, công trình khả kiểm soát đang trên đường, hình hài phồn thịnh mơ hồ có thể nhận ra. Cửa là mở rồi, nhưng phía sau cửa là một con đường dài hơn dự kiến của tất cả mọi người.
Vera của Nvidia tháng 8 sẽ vào hệ thống đặt hàng của khách hàng Trung Quốc, giá vượt xa 20,000 USD một chip. Nó sẽ được bao nhiêu khách hàng Trung Quốc đón nhận, có thể duy trì cung ứng trong thời gian bao lâu, lại sẽ ở thời khắc nào vì vòng siết chặt kiểm soát tiếp theo mà biến thành một chip "dùng một chip ít một chip" tồn kho, đây đều là mối lo gần của ngành công nghiệp. RISC-V không thể ở thời điểm tháng 8 này đón nhận tất cả nhu cầu, nó cũng không cần phải đón. Nó phải trả lời không phải là vấn đề cung ứng của chip CPU hiện tại này, mà là mười năm sau, khi đợt cách mạng sức mạnh tính toán tiếp theo lại ập đến, CPU tự nghiên cứu của Trung Quốc có còn phải đặt vận mệnh vào bàn bài của người khác hay không.
Đám người từng bị gọi là "đám ô hợp" đó, hôm nay trong tay cầm một tấm vé vào cửa được họ từng chút từng chút tích góp lại. Có thể cùng nhau làm xong những công việc khổ nhọc không gợi cảm đó từng việc một, để RISC-V thực sự trên bàn bài tính toán hiệu suất cao có vị trí của mình, đây là trong năm năm tiếp theo, trên con đường đua CPU tự nghiên cứu Trung Quốc, câu hỏi đáng được hỏi đi hỏi lại nhất.
Bài viết này đến từ tài khoản WeChat công chúng: Đại Cúc Tài Kinh , tác giả: Quan Võng Tài Kinh, tiêu đề gốc: 《Nvidia CPU áp sát, RISC-V Trung Quốc đối đầu——Quan sát sâu về bán dẫn (Phần 4)》






