Vào năm 2026, ngành phần cứng AI đang ở giai đoạn then chốt của sự bứt phá công nghiệp, đã vượt qua thời kỳ chỉ là tập hợp các khái niệm rời rạc.
Loạt tiêu chuẩn quốc gia "Phân loại mức độ thông minh của thiết bị đầu cuối trí tuệ nhân tạo" do Bộ Công nghiệp và Công nghệ Thông tin, Bộ Thương mại và Tổng cục Quản lý Thị trường Trung Quốc phối hợp ban hành đã đưa ra một thước đo rõ ràng cho lĩnh vực sôi động này, chia mức độ thông minh của thiết bị đầu cuối thành bốn cấp từ L1 đến L4, từ cấp phản hồi dần tiến lên cấp hợp tác.
Hệ thống tiêu chuẩn này xác định rõ năm yếu tố năng lực: nhận thức, tri giác, thực thi, ghi nhớ, học tập, bao phủ bảy loại sản phẩm: điện thoại di động, máy tính, TV, kính, khoang xe ô tô, loa và tai nghe, về cơ bản đã khoanh vùng các dạng phần cứng AI đầu tiên có triển vọng phổ cập quy mô và đưa ra các phương pháp kiểm tra cụ thể.
Đối với người tiêu dùng, từ nay trở đi, để biết một thiết bị thông minh đến đâu, không còn phải mất công tìm hiểu logic kỹ thuật, cũng không còn chỉ nghe nhà sản xuất tự nói về mình.
Cùng thời điểm với việc ban hành tiêu chuẩn, tại Hội nghị thượng đỉnh Đám mây Alibaba tổ chức vào ngày 20 tháng 5, Alibaba Cloud đã trình diễn thành tựu triển khai của nhiều sản phẩm phần cứng AI, đồng thời công bố "Kế hoạch hợp tác Thiết bị thông minh Qianwen X Tmall" cùng với Tmall. Kế hoạch bao gồm các đặc quyền dành riêng cho mô hình Qianwen, hỗ trợ lưu lượng tỷ lượt từ Tmall, cũng như nguồn lực phơi bày thương hiệu toàn diện. Hai bên sẽ cùng đầu tư hơn 1 tỷ nguồn lực, giúp các nhà sản xuất phần cứng hoàn thành bước nhảy vọt về giá trị và thúc đẩy sự bùng nổ của các loài phần cứng AI mới từ ba khía cạnh: công nghệ, thương hiệu và kênh bán hàng.
Chương trình khuyến mãi lớn Tmall 618 sắp bắt đầu, nhiều thiết bị phần cứng AI tích hợp khả năng Qianwen sẽ xuất hiện trên Tmall. Cả hai nền tảng sẽ cùng cung cấp nguồn lực về lưu lượng và phơi bày thương hiệu, thúc đẩy quá trình thương mại hóa phần cứng AI. Nhà nước đã vẽ ra kim tự tháp cho phần cứng AI, còn các nhà cung cấp đám mây thì cung cấp nền tảng năng lực cần thiết để leo lên kim tự tháp đó.
Những thay đổi diễn ra nhanh chóng này đều chỉ ra một xu hướng chung:
Phần cứng AI đang chuyển từ giai đoạn xác minh khái niệm ở phía thiết bị (end-side), sang giai đoạn phổ cập quy mô với sự phối hợp giữa thiết bị và đám mây (end-cloud), và việc giải phóng năng lực của dịch vụ đám mây AI lại đúng lúc bước vào điểm chuyển giao này.
01. Ai dừng ở L1, ai hướng tới L4?
Từ L1 đến L4, mỗi bước nhảy vọt đều tương ứng với việc nâng cao ngưỡng năng lực.
Thiết bị L1 chỉ có thể thực hiện các lệnh được thiết lập sẵn, về bản chất là phiên bản thông minh hóa của các thiết bị điện tử truyền thống; L2 bắt đầu có thuộc tính công cụ, người dùng có thể chủ động gọi một số chức năng.
Phó Viện trưởng Viện Nghiên cứu Tiêu chuẩn Công nghệ Điện tử Trung Quốc, ông Vu Tú Minh, khi giải thích tiêu chuẩn đã chỉ ra rằng, qua điều tra và phân tích kiểm tra, các sản phẩm được người dùng nắm giữ với tỷ lệ cao hiện nay phổ biến ở cấp L1 và L2, một số sản phẩm mới có thể đạt đến trình độ cấp L3.
Nhìn tổng thể, thiết bị đầu cuối AI đang tiến hóa song song theo ba con đường: nâng cấp thiết bị đầu cuối truyền thống, mở rộng số lượng thiết bị đầu cuối mới nổi và khám phá thiết bị đầu cuối tương lai.
Điểm phân chia thực sự nằm ở cấp trợ giúp L3. Cốt lõi của L3 là thiết bị đầu cuối có thể hiểu đầy đủ chỉ lệnh và ý định của người dùng, đồng thời có khả năng nhận diện chủ động và cung cấp dịch vụ chủ động.
Lấy điều hòa không khí thông minh làm ví dụ, thiết bị cấp L3 có thể tự động nhận diện xem trán người dùng có đổ mồ hôi hay không, sau đó chủ động hạ nhiệt độ, khi người dùng nhấn chế độ rời nhà, camera sẽ phán đoán trước xem trong nhà còn có người không, chờ người đi giày rời đi rồi mới tắt đèn. Những hành động này cần tổng hợp nhiều đầu vào như âm thanh, video, cảm biến để đưa ra nhận diện và phán đoán ý định phức tạp. Tiêu chuẩn yêu cầu thiết bị có khả năng hiểu ý định phức tạp, suy luận dây chuyền và ghi nhớ dài hạn, nghĩa là thiết bị không chỉ trả lời "là gì", mà còn phải hiểu "tại sao", thậm chí dự đoán "tiếp theo nên làm gì".
Một số nhà sản xuất phần cứng trong vài năm qua đã dậm chân tại chỗ ở cấp L1, thể hiện một số đặc điểm điển hình.
Một loại là định nghĩa sản phẩm quá khép kín, chỉ giải quyết chức năng đơn nhất, không dự phòng cảm biến hoặc dư thừa năng lực tính toán cho việc nâng cấp sau này; một loại khác là quá phụ thuộc vào mô hình nhẹ ở phía thiết bị, dẫn đến khả năng bị đứt gãy trong các tình huống phức tạp.
Lại có một loại còn tinh vi hơn: đóng gói chức năng L1 thành điểm nhấn L2, L3. Loại sản phẩm này sẽ nhanh chóng lộ nguyên hình trước bài kiểm tra tiêu chuẩn, người tiêu dùng cũng sẽ dùng chân để bỏ phiếu.
Về vấn đề này, Phó Tổng giám đốc Bộ phận Kiến trúc Giải pháp, Sở kinh doanh Đám mây công cộng, Tập đoàn Thông minh Đám mây Alibaba, ông Trần Lập Vĩ, nhận định rằng toàn ngành công nghiệp phần cứng đang ở giai đoạn chuyển từ L2 lên L3, ai có thể xây dựng được kiến trúc cơ bản của L3 trước, hiện thực hóa trải nghiệm sản phẩm cấp L3, người đó sẽ chiếm được không gian thị trường lớn hơn.
Dừng ở L1, thậm chí L2, không còn là vùng an toàn nữa. Còn muốn bước vào giai đoạn L3 một cách ổn định, cần đến sự phối hợp giữa nhận thức đa phương thức và suy luận khái quát hóa.
Hội nghị thượng đỉnh Alibaba Cloud lần này còn công bố trọng điểm mô hình hàng đầu Qianwen Qwen3.7-Max. Trên bảng xếp hạng mù toàn cầu về kiểm tra đại mô hình của tổ chức bên thứ ba Arena, Qwen3.7-Max xếp thứ nhất trong các mô hình nội địa Trung Quốc, ngang tầm với mô hình mạnh nhất toàn cầu.
Mục đích thiết kế ban đầu của Qwen3.7-Max, thực chất là để biến mô hình thành hạt nhân của Agent, có khả năng lập kế hoạch tự chủ, lặp lại liên tục và phối hợp xuyên thiết bị, nâng cấp công nghệ đúng lúc đáp ứng yêu cầu của cấp L3 đối với các yếu tố nhận thức và tri giác. Hiện tại, bộ công cụ phát triển tương tác đa phương thức mà Alibaba Cloud cung cấp cho ngành công nghiệp phần cứng thông minh đã hỗ trợ đầy đủ việc kết nối với Qwen3.7-Max.
Khả năng khái quát hóa của đám mây càng mạnh, chi phí thích ứng L3 của phần cứng càng thấp. Ông Trần Lập Vĩ cũng chỉ ra: "Ngày nay, không có sản phẩm phần cứng nào có thể đạt được trải nghiệm người dùng khép kín từ đầu đến cuối thông qua một mô hình đơn nhất, giải pháp nhất định phải là sự kết hợp của nhiều mô hình."
02. Sự phối hợp Thiết bị-Đám mây, trở thành lựa chọn bắt buộc
Sau cấp trợ giúp L3, cấp hợp tác L4 sẽ là một bước nhảy vọt lớn hơn nữa.
Theo định nghĩa hiện có, đặc điểm cốt lõi của L4 không phải là một thiết bị đơn lẻ có thông minh hơn hay không, mà là nhiều thiết bị cùng tạo thành một hệ thống thông minh. Người dùng bước vào nhà, kính, loa, robot, khoang xe sẽ tự động chia sẻ ký ức với nhau, từ đó phục vụ người dùng trong thế giới vật lý.
Vì vậy, thách thức lớn nhất mà các nhà sản xuất phần cứng phải đối mặt trong tương lai để triển khai ổn định công nghệ và sản phẩm ở cấp L4, chính là tích hợp hệ thống và phối hợp thiết bị.
Trong bảng phân loại tiêu chuẩn, từ thiết bị đầu cuối di động đến kính, tai nghe, hầu hết sản phẩm được ghi chú là phối hợp thiết bị-đám mây, logic đằng sau rất trực tiếp: phản hồi thời gian thực phụ thuộc vào phía thiết bị, suy luận phức tạp phụ thuộc vào đám mây, là giải pháp tối ưu cho việc thông minh hóa hiện nay.
Robot quản gia "Bát Giới" của Ecovacs là một ví dụ điển hình. Dựa trên việc xem xét khả năng lặp lại liên tục của mô hình mã nguồn mở, Ecovacs đã sớm lựa chọn kết nối với mô hình lớn Qianwen.
Thách thức cốt lõi của robot quản gia đến từ tính phi tiêu chuẩn của môi trường gia đình, yêu cầu cấp độ an toàn cao, mật độ thông tin lớn, nhu cầu rất dài đuôi. Một trong các giải pháp của robot "Bát Giới" là đóng gói năng lực nguyên tử của robot (nắm bắt, lấy đặt, nhận thức, lập kế hoạch) thành các giao diện API dễ hiểu với mô hình, các nhiệm vụ phức tạp như nhận thức môi trường và phân giải động tác được xử lý trên đám mây dựa trên Qwen3.6-Plus.
Khi người dùng ra lệnh mơ hồ như "dọn dẹp phòng khách", trước tiên có thể kết hợp với đám mây để hiểu phòng khách bao gồm những vật thể gì, tiêu chuẩn dọn dẹp là gì, sau đó phân giải thành một loạt chỉ lệnh động tác và phát xuống cho cánh tay robot. Đằng sau loạt hiểu biết này có thể không cần lập trình sẵn, các tác nhân thông minh trên "Bát Giới" đã chủ động nối kết thành nhiệm vụ.
Hiện tại, Ecovacs còn mở ra hệ thống, năng lực nguyên tử và nền tảng mô phỏng của "Bát Giới", cho phép nhiều đối tác sinh thái khác tham gia vào việc phát triển thuật toán và triển khai ứng dụng của robot gia đình một cách thuận tiện thông qua "Bát Giới".
Sản phẩm series Thần Mâu của Yanjiwei ở Hàng Châu cũng xác nhận sự cần thiết của việc phối hợp thiết bị-đám mây. Là một công ty chuyên về hình ảnh thông minh tiêu thụ điện năng thấp, cốt lõi sản phẩm của Yanjiwei là tối ưu hóa vấn đề cấp điện và truyền thông mạng của camera, đạt đến mức không cần mạng, không cần điện. Thách thức do tiêu thụ điện năng thấp mang lại là, năng lực tính toán của chip phía thiết bị có hạn, không thể chịu tải suy luận của mô hình quy mô lớn.
Giải pháp của họ là: phía thiết bị thực hiện gắn nhãn thời gian thực và xử lý sơ bộ, thông qua chip AI phía thiết bị để nhận diện trong khung hình có người, có xe, có phương tiện phi cơ giới, sau đó tải thông tin văn bản hình ảnh lên đám mây thông qua beacon 4G tiêu thụ điện năng thấp; đám mây lại thực hiện hiểu sâu và ghi nhớ có cấu trúc dựa trên mô hình lớn Qianwen, cho phép người dùng đặt câu hỏi với camera như tìm kiếm album ảnh, ví dụ "chiều hôm qua trước cửa xuất hiện con mèo màu gì". Trải nghiệm như vậy hầu như không thể thực hiện được dưới giải pháp thuần phía thiết bị.
Dựa trên kiến trúc này, tỷ lệ chuyển đổi thanh toán của công ty này đã tăng 25%, giá trị đơn hàng trung bình tăng 30%, tỷ lệ giữ chân người dùng thanh toán liên tục đạt trên 75%. Năng lực AI trực tiếp chuyển hóa thành sức cạnh tranh thương mại.
Phương thức phân công phối hợp thiết bị-đám mây đang trở thành sự đồng thuận của ngành, vai trò của các nhà cung cấp đám mây cũng thay đổi rất lớn theo đó.
Trước đây, các nhà cung cấp đám mây chỉ cung cấp tài nguyên đám mây như năng lực tính toán, lưu trữ, giờ đây đã biến thành cung cấp nền tảng cơ sở hạ tầng xoay quanh Agent, phối hợp thiết bị-đám mây, đóng gói các khả năng như hiểu hình ảnh, lập kế hoạnh nhiệm vụ, thậm chí sinh mã front-end thành dịch vụ có thể gọi, từ cung cấp nền tảng, cung cấp mô hình đến cung cấp Agentic Coding, giảm thấp ngưỡng cho các nhà sản xuất phần cứng nhúng năng lực AI vào hệ thống hiện có từ tầng phát triển.
Ông Trần Lập Vĩ cũng tổng kết bốn thách thức cốt lõi hiện tại của Alibaba Cloud: sự kết hợp mô hình, tính phức tạp của công trình, năng lực vận hành liên tục, vòng khép kín dữ liệu.
Khi nói về sự kết hợp mô hình và kỹ thuật hóa, đáng đề cập là mô hình lớn toàn phương thức thế hệ mới Qwen3.5-Omni đã công bố trước đó.
Qwen3.5-Omni đã đạt được SOTA trong 215 nhiệm vụ về hiểu, nhận diện, tương tác âm thanh video, tăng cường đáng kể trải nghiệm tương tác thời gian thực, có được "chỉ số EQ cao". Đáng ngạc nhiên hơn, Qwen3.5-Omni thể hiện khả năng Vibe Coding âm thanh video, người dùng trình bày nhu cầu trước ống kính, mô hình có thể tự chủ sinh mã sản phẩm phức tạp như APP, trang web, game. Năng lực toàn phương thức thời gian thực đã cung cấp nền tảng công nghệ then chốt cho phần cứng AI từ L1, L2 tiến lên L3, L4.
Trong khi mô hình toàn phương thức ngày càng trưởng thành, các nhà sản xuất phần cứng cũng đang khám phá con đường triển khai khác biệt.
Ví dụ, Robosen, công ty chuyên về robot hình người toC, đang bố trí một thử nghiệm phối hợp thiết bị-đám mây thú vị. Người dùng có thể thông qua mạng cục bộ gia đình, dùng máy tính hoặc tác nhân thông minh cục bộ của mình để hoàn toàn tiếp quản hệ thống AI của robot, từ đó khiến robot có khả năng tùy chỉnh như điều khiển nhà thông minh, đối thoại phương ngữ, chủ đề cá nhân hóa.
Guangfan Technology, công ty vừa phát hành tai nghe AI đầu tiên trên thế giới có khả năng nhận thức thị giác, quan sát thấy sự thay đổi lớn nhất trong ngành phần cứng AI một năm qua là "nhanh", tốc độ lặp lại phần mềm phần cứng đáng kinh ngạc, AI từ việc chỉ đơn thuần trò chuyện đã tiến hóa thành năng lực tác nhân thông minh và tự học, những việc có thể làm tăng lên đáng kể mỗi ngày. Con đường thực tiễn của Guangfan là xây dựng một hệ điều hành gốc AI có phạm vi rộng hơn OpenClaw, bao quát tương tác đa phương thức, điều phối phần cứng, điều phối phần mềm và điều phối năng lực tính toán.
Những khám phá của các "người chơi hàng đầu" đã chứng minh phối hợp thiết bị-đám mây là một chủ đề dài hạn "khó mà đúng đắn". Trí tuệ đám mây đang tiến hóa nhanh chóng, trong khi đó, năng lực thực thi và điều phối phần cứng ở phía thiết bị vẫn là biến số then chốt quyết định giai đoạn thông minh hóa của phần cứng AI.
03. Ranh giới hợp tác ở đâu, thị trường ở đó
Ngoài việc chỉ dẫn về công nghệ, ý nghĩa của tiêu chuẩn phân cấp còn có việc giải phóng tín hiệu ở tầng thương mại hóa.
Người tiêu dùng có thể đánh giá sản phẩm dựa trên L1 đến L4, lấy đó làm động lực, các nhà sản xuất phần cứng cũng sẽ xuất hiện lộ trình nâng cấp rõ ràng theo đó.
Đặc biệt đối với các công ty khởi nghiệp, tự nghiên cứu mô hình đa phương thức và khuôn khổ suy luận là không thực tế, nhiều nhà sản xuất cần hơn là nền tảng AI tiêu chuẩn hóa và con đường hoàn vốn thương mại rõ ràng.
Sức tưởng tượng thương mại của dịch vụ phần cứng AI, có thể thấy dấu vết từ độ kết dính người dùng cao của máy chụp ảnh học tập AI Dr. Luka. Dữ liệu công khai của Dr. Luka cho thấy, thời gian sử dụng trung bình hàng ngày của người dùng giai đoạn đầu chỉ hơn 30 phút; sau khi kết nối với Qwen3.6-Plus, thời gian sử dụng trung bình hàng ngày tăng 50%, mỗi tháng có khoảng 50 triệu bức ảnh người dùng chụp tương tác với AI. Khả năng nhận diện vạn vật và OCR chính xác hơn mang lại tần suất nhận diện hình ảnh cao hơn, sự tăng cường suy luận khái quát hóa mang lại sự gia tăng lượt hỏi đáp, sự tiến bộ có thể định lượng của nền tảng AI, trực tiếp phản hồi thành sự biến đổi chất lượng về độ kết dính người dùng.
Sau khi người dùng tạo ra hàng trăm lần tương tác mỗi ngày trên thiết bị phần cứng, tích lũy một lượng lớn dữ liệu sở thích cá nhân, một nhu cầu tự nhiên cũng hiện ra: những ký ức và sở thích này, làm thế nào để liên kết đến các thiết bị khác? Ví dụ, trên thiết bị ở trường tiếp tục lập nhiệm vụ học tập dựa trên dữ liệu.
Khi trình độ thông minh hóa của một thiết bị đơn lẻ đạt đến một độ cao nhất định, sức tưởng tượng thực sự của thị trường sẽ đến với trí tuệ hệ thống dưới sự cộng sinh toàn cảnh.
Cấp hợp tác L4 được đề cập trong tiêu chuẩn, đặc điểm cốt lõi là phối hợp xuyên thiết bị và ghi nhớ sở thích người dùng. Một chiếc điện thoại, một cặp kính, một khoang xe, một chiếc loa, xoay quanh người dùng tạo thành một mạng lưới thông minh.
Bạn đeo kính bước vào xe, khoang xe tự động chuyển sang sở thích lái xe của bạn; bạn nói một câu với loa, robot bắt đầu dọn dẹp phòng khách. Trải nghiệm nhất quán cần tất cả thiết bị chia sẻ cùng một nền tảng trí tuệ đám mây, cũng cần nhà cung cấp đám mây cung cấp hệ thống điều phối thực thi, nhận diện và ký ức thống nhất.
Sự cộng sinh toàn cảnh sẽ trực tiếp thay đổi logic thương mại hóa của phần cứng AI.
Trước đây làm phần cứng, chủ yếu kiếm tiền từ chuỗi cung ứng, mỗi lần bán được một cái là hoàn thành một giao dịch. Ngày nay sự chồng thêm của AI đã mở ra sức tưởng tượng hoàn toàn mới, tương lai cũng có thể thông qua phương thức đăng ký để liên tục tạo ra dịch vụ có giá trị gia tăng.
Trong cảnh phối hợp, người dùng sẵn sàng hơn trong việc trả tiền cho trải nghiệm liên tục xuyên thiết bị, ví dụ như đăng ký dịch vụ trợ lý cá nhân, mua gói kỹ năng theo cảnh. Từ đó, sự phân bổ giá trị của toàn bộ đường đua cũng sẽ được xáo trộn lại.
Lấy một ví dụ đã tồn tại, kính Rokid sau khi kết nối phía thiết bị với sản phẩm JVS Claw (phiên bản Alibaba của OpenClaw), người làm việc văn phòng có thể hiệu quả hoàn thành các thao tác như tạo lịch, trả lời WeChat, thanh toán. Nếu những hành vi tần suất cao này có thể được tích hợp và lắng đọng hơn nữa thành các cảnh nâng cao hiệu suất công việc, có thể kéo dài thành dịch vụ đăng ký trợ lý cuộc sống.
Trong thời gian khuyến mãi lớn 618, Tmall cũng đã lên sóng hàng chục thương hiệu máy chủ được trang bị JVS Claw, hoàn toàn kết nối với trợ lý thông minh, đón thời đại Agent PC.
Phần cứng biến thành cổng vào của dịch vụ, chứ không phải điểm cuối.
Làn sóng tái cấu trúc thị trường, sẽ đổ về những sản phẩm có thể hòa nhập vào mạng lưới thông minh này, dần dần từ bỏ các thiết bị cấp L1 kiểu đảo biệt lập.
Tiêu chuẩn phân cấp đã đưa ra chỉ dẫn về cục diện cuối cùng của ngành công nghiệp, sự phối hợp thiết bị-đám mây cung cấp con đường xác định, còn năng lực tiêu chuẩn hóa của các nhà cung cấp đám mây cũng đang khiến con đường này trở nên rộng hơn, bằng phẳng hơn.








