En 2026, le matériel IA, à un stade critique de sa transformation industrielle, a dépassé la phase de simple accumulation de concepts disparates.
La série de normes nationales « Classification de l'intelligence des terminaux d'intelligence artificielle », publiée conjointement par le Ministère de l'Industrie et des Technologies de l'Information, le Ministère du Commerce et l'Administration nationale de la Régulation du Marché, a établi des critères clairs pour ce secteur en effervescence, en classant l'intelligence des terminaux en quatre niveaux, de L1 à L4, allant du niveau réactif au niveau collaboratif.
Ce système normatif définit cinq éléments de capacité : perception, cognition, exécution, mémoire et apprentissage. Il couvre sept catégories de produits : téléphones, ordinateurs, téléviseurs, lunettes, habitacles de véhicules, enceintes et écouteurs, délimitant ainsi les premières formes de matériel IA susceptibles d'être largement adoptées et fournissant des méthodes de test spécifiques.
Pour les consommateurs, il n'est plus nécessaire de décortiquer la logique technique ou d'écouter les discours autopromotionnels des fabricants pour comprendre à quel point un appareil est intelligent.
Presque au même moment que la publication des normes, le 20 mai, lors du Sommet du Cloud d'Alibaba, Alibaba Cloud a présenté les résultats du déploiement de plusieurs appareils IA et a annoncé le lancement du « Plan de collaboration Tianmao pour le matériel intelligent Qianwen », conjointement avec Tmall. Ce plan comprend des avantages exclusifs pour les modèles Qianwen, un soutien au trafic de Tmall à hauteur de centaines de millions, ainsi que des ressources d'exposition de marque à l'échelle de la plateforme. Les deux parties investiront conjointement plus de 100 millions de yuans de ressources pour aider les fabricants de matériel à réaliser une transition de valeur et à accélérer l'émergence de nouvelles espèces de matériel IA, sur les plans technique, de la marque et des canaux de vente.
À l'approche de la promotion 618 de Tmall, plusieurs appareils IA dotés des capacités Qianwen seront présentés sur Tmall. Les deux plateformes fourniront conjointement des ressources de trafic et d'exposition de marque pour accélérer la commercialisation du matériel IA. Si l'État a tracé la pyramide du matériel IA, les fournisseurs de cloud offrent la base de capacités nécessaire pour y accéder.
Ces changements rapides pointent tous vers la même tendance :
Le matériel IA passe de la validation de concept côté terminal à une adoption à grande échelle basée sur la collaboration terminal-cloud, et le déploiement des capacités des services cloud IA arrive précisément à ce tournant.
01. Qui reste au niveau L1, qui aspire au L4 ?
Chaque progression de L1 à L4 correspond à un relèvement du seuil de capacités.
Les appareils L1 ne peuvent exécuter que des instructions prédéfinies, représentant essentiellement une version intelligente des appareils électroménagers traditionnels. Le niveau L2 commence à présenter des attributs d'outil, permettant aux utilisateurs d'activer activement certaines fonctions.
Yu Xiuming, vice-président de l'Institut chinois de normalisation de l'électronique, a souligné lors de l'explication des normes que, selon les enquêtes et analyses de tests, les produits les plus largement détenus par les utilisateurs se situent généralement aux niveaux L1 et L2, certains nouveaux produits pouvant atteindre le niveau L3.
Dans l'ensemble, les terminaux IA évoluent parallèlement selon trois axes : la modernisation des terminaux traditionnels, l'expansion quantitative des terminaux émergents et l'exploration des terminaux futurs.
Le véritable point d'inflexion se situe au niveau L3, dit « d'assistance ». Le cœur du L3 réside dans la capacité du terminal à comprendre pleinement les instructions et les intentions de l'utilisateur, et à posséder la capacité de reconnaissance proactive et de fourniture proactive de services.
Prenons l'exemple d'un climatiseur intelligent de niveau L3 : l'appareil peut détecter automatiquement si l'utilisateur transpire du front et baisser activement la température. Lorsque l'utilisateur active le mode « départ », la caméra vérifie d'abord s'il reste quelqu'un à la maison et n'éteint les lumières qu'une fois la personne partie. Ces actions nécessitent une synthèse d'entrées audio, vidéo et de capteurs, ainsi qu'une identification et un jugement complexes des intentions. La norme exige que l'appareil possède des capacités de compréhension d'intentions complexes, de raisonnement enchaîné et de mémoire à long terme, ce qui signifie que l'appareil ne doit pas seulement répondre à la question « quoi ? », mais aussi comprendre le « pourquoi ? » et même anticiper « ce qu'il faut faire ensuite ».
Ces dernières années, certains fabricants de matériel sont restés sur place au niveau L1, présentant plusieurs caractéristiques typiques.
L'une est une définition de produit trop fermée, ne résolvant qu'une fonction unique, sans prévoir de redondance en termes de capteurs ou de puissance de calcul pour les mises à niveau futures. Une autre est une dépendance excessive aux modèles légers côté terminal, entraînant une rupture des capacités dans des scénarios complexes.
Une troisième est plus insidieuse : emballer des fonctionnalités L1 sous des attraits L2 ou L3. Ces produits seront rapidement démasqués lors des tests de conformité aux normes, et les consommateurs voteront avec leurs pieds.
À ce sujet, Chen Liwei, vice-président du département des solutions architecturales de la division Cloud Public du groupe Alibaba Cloud Intelligence, estime que toute l'industrie du matériel se trouve dans une phase de transition du L2 vers le L3. Celui qui pourra construire en premier l'architecture de base du L3 et offrir une expérience produit de niveau L3 pourra capturer un plus grand espace de marché.
Rester au L1, voire au L2, n'est plus une zone de confort. Pour entrer sereinement dans la phase L3, il faut l'association de la perception multimodale et du raisonnement par généralisation.
Le Sommet d'Alibaba Cloud a également vu le lancement en grande pompe du modèle phare Qwen3.7-Max. Dans le classement global anonyme de l'organisation tierce Arena, Qwen3.7-Max se classe premier parmi les modèles nationaux, se comparant aux modèles les plus puissants au monde.
La conception de Qwen3.7-Max avait précisément pour but de faire du modèle le noyau d'un agent, doté de capacités de planification autonome, d'itération continue et de collaboration inter-terminaux. Cette mise à niveau technologique correspond justement aux exigences des éléments de perception et de cognition du niveau L3. Actuellement, la suite de développement d'interaction multimodale fournie par Alibaba Cloud à l'industrie du matériel intelligent prend entièrement en charge l'intégration de Qwen3.7-Max.
Plus la capacité de généralisation dans le cloud est forte, plus le coût d'adaptation des appareils au L3 est faible. Chen Liwei souligne également : « Aujourd'hui, aucun produit matériel ne peut offrir une expérience utilisateur en bout-en-bout fermée grâce à un modèle unique. La solution réside nécessairement dans une combinaison de plusieurs modèles. »
02. La collaboration terminal-cloud devient une obligation
Après le niveau d'assistance L3, le niveau collaboratif L4 représente une transition encore plus importante.
D'après la définition actuelle, la caractéristique centrale du L4 ne concerne pas l'intelligence individuelle d'un appareil, mais la formation d'un système intelligent par plusieurs appareils. Lorsqu'un utilisateur entre chez lui, les lunettes, l'enceinte, le robot et l'habitacle partagent automatiquement la mémoire pour servir l'utilisateur dans le monde physique.
Par conséquent, pour que la technologie et les produits atteignent le niveau L4 à l'avenir, le plus grand défi pour les fabricants de matériel sera l'intégration systémique et la collaboration entre appareils.
Dans le tableau de classification des normes, de la catégorie des terminaux mobiles à celles des lunettes et écouteurs, la plupart des produits sont marqués comme nécessitant une collaboration terminal-cloud. La logique est directe : la réponse en temps réel dépend du terminal, tandis que le raisonnement complexe dépend du cloud, ce qui constitue la solution optimale actuelle pour l'intelligence.
Le robot majordome « Bajie » de Ecovacs en est un exemple typique. Tenant compte de la nécessité d'itérer sur les modèles open source, Ecovacs a choisi très tôt d'intégrer le grand modèle Qianwen.
Le défi central d'un robot majordome provient de la nature non standardisée de l'environnement domestique, avec des exigences élevées en matière de sécurité, une grande densité d'informations et des besoins très variés. Une des solutions de « Bajie » de Ecovacs consiste à encapsuler les capacités atomiques du robot (saisie, prise/dépose, perception, planification) en interfaces API facilement compréhensibles par les modèles. Dans le cloud, des tâches complexes comme la perception de l'environnement et la décomposition des actions sont traitées par Qwen3.6-Plus.
Lorsqu'un utilisateur donne une instruction vague comme « range le salon », le cloud comprend d'abord quels objets se trouvent dans le salon et quels sont les critères de rangement, puis décompose l'instruction en une série d'ordres d'action envoyés au bras robotique. Derrière cette série de compréhensions, il n'y a pas besoin de pré-programmation ; l'agent sur « Bajie » a activement enchaîné les tâches.
Actuellement, Ecovacs a également ouvert le système de « Bajie », ses capacités atomiques et sa plateforme de simulation, permettant à davantage de partenaires de l'écosystème de participer facilement au développement d'algorithmes et au déploiement d'applications pour les robots domestiques via « Bajie ».
Les produits de la série « Shen Mou » de la société Hangzhou Yanjiwei confirment également la nécessité de la collaboration terminal-cloud. En tant qu'entreprise spécialisée dans l'imagerie intelligente à faible consommation d'énergie, le cœur de l'activité de Yanjiwei est d'optimiser les problèmes d'alimentation électrique et de communication réseau des caméras pour fonctionner sans réseau ni électricité. Le défi de la faible consommation est la puissance de calcul limitée des puces côté terminal, incapable de supporter la charge de raisonnement des modèles de grande taille.
Leur solution consiste à effectuer un étiquetage et un traitement préliminaire en temps réel côté terminal, où la puce IA identifie la présence de personnes, de véhicules ou de non-motorisés dans l'image, puis à envoyer les informations texte et image via un émetteur 4G basse consommation vers le cloud. Dans le cloud, le grand modèle Qianwen effectue une compréhension approfondie et une mémorisation structurée, permettant à l'utilisateur d'interroger la caméra comme il le ferait avec un album photo, par exemple : « De quelle couleur était le chat devant la porte hier après-midi ? » Cette expérience est presque impossible à réaliser avec une solution purement côté terminal.
Sur la base de cette architecture, le taux de conversion payante de cette société a augmenté de 25 %, le prix moyen par commande a augmenté de 30 %, et le taux de rétention des utilisateurs payants a atteint plus de 75 %. Les capacités IA se sont directement transformées en avantage commercial.
Le mode de répartition des tâches entre terminal et cloud devient un consensus dans l'industrie, et le rôle des fournisseurs de cloud a considérablement évolué.
Auparavant, les fournisseurs de cloud ne fournissaient que des ressources cloud comme la puissance de calcul ou le stockage. Aujourd'hui, ils fournissent une infrastructure de base pour la collaboration terminal-cloud et centrée sur les agents, en regroupant des capacités comme la compréhension visuelle, la planification de tâches, voire la génération de code front-end en services appelables. Ils passent de la fourniture d'une plateforme et de modèles à la fourniture d'un « Agentic Coding », réduisant ainsi au niveau du développement le seuil d'intégration des capacités IA dans les systèmes existants pour les fabricants de matériel.
Chen Liwei a également résumé les quatre défis principaux auxquels Alibaba Cloud est actuellement confronté : la combinaison des modèles, la complexité de l'ingénierie, la capacité d'exploitation continue et la boucle de données.
En parlant de combinaison de modèles et d'industrialisation, il convient de mentionner le modèle multimodal complet de nouvelle génération Qwen3.5-Omni, publié précédemment.
Qwen3.5-Omni a obtenu des résultats SOTA dans 215 tâches liées à la compréhension, à la reconnaissance et à l'interaction audio/vidéo, améliorant considérablement l'expérience d'interaction en temps réel et faisant preuve d'une « haute intelligence émotionnelle ». Plus surprenant encore, Qwen3.5-Omni a démontré une capacité de « Vibe Coding » audio/vidéo : l'utilisateur expose son besoin face à la caméra, et le modèle peut générer de manière autonome le code d'applications, de pages web, de jeux, etc. Cette capacité multimodale en temps réel fournit une base technique clé pour la transition du matériel IA des niveaux L1/L2 vers les niveaux L3/L4.
Alors que les modèles multimodaux matures, les fabricants de matériel explorent également des chemins de déploiement différenciés.
Par exemple, Robosen, une entreprise spécialisée dans les robots humanoïdes B2C, explore une tentative intéressante de collaboration terminal-cloud. Les utilisateurs peuvent, via leur réseau local domestique, utiliser leur propre ordinateur ou un agent local pour prendre complètement le contrôle du système IA du robot, lui conférant ainsi des capacités personnalisées comme le contrôle de la domotique, la conversation en dialecte ou des sujets personnalisés.
L'entreprise LightSail Technology, qui vient de lancer les premiers écouteurs IA au monde dotés de capacités de perception visuelle, observe que le plus grand changement dans l'industrie du matériel IA cette dernière année est la « rapidité » : la vitesse d'itération des logiciels et du matériel est stupéfiante, l'IA évolue du simple chat vers des agents et une capacité d'auto-apprentissage, et ce qu'elle peut faire augmente considérablement chaque jour. La voie pratique de LightSail est de construire un système d'exploitation natif IA plus large qu'OpenClaw, couvrant l'interaction multimodale, la planification du matériel, la planification des logiciels et la planification de la puissance de calcul.
Les explorations des « joueurs de premier plan » prouvent que la collaboration terminal-cloud est un sujet « difficile mais juste » à long terme. L'intelligence dans le cloud évolue rapidement, mais les capacités d'exécution côté terminal et de planification du matériel restent des variables clés déterminant le niveau d'intelligence du matériel IA.
03. Là où se trouve la frontière de la collaboration, se trouve le marché
Au-delà de l'orientation technique, la classification par niveaux a également une signification en matière de signaux commerciaux.
Les consommateurs peuvent évaluer les produits en fonction des niveaux L1 à L4, et, motivés par cela, les fabricants de matériel disposeront d'une feuille de route de mise à niveau claire.
En particulier pour les startups, le développement autonome de modèles multimodaux et de cadres de raisonnement n'est pas réaliste. La plupart des fabricants ont besoin d'une base IA standardisée et d'un chemin de retour sur investissement commercial clair.
Le potentiel commercial des services de matériel IA est perceptible dans la forte adhésion des utilisateurs du « Docteur Luka AI Photolearn ». Selon les données publiques du Docteur Luka, la durée d'utilisation quotidienne des premiers utilisateurs n'était que de 30 minutes environ ; après l'intégration de Qwen3.6-Plus, cette durée a augmenté de 50 %, avec environ 50 millions de photos prises par les utilisateurs interagissant avec l'IA chaque mois. Une reconnaissance plus précise des objets et des capacités OCR accrues ont conduit à une identification d'images plus fréquente, et l'amélioration du raisonnement par généralisation a augmenté le nombre de tours de questions-réponses. Les progrès quantifiables de la base IA se sont directement traduits par un changement qualitatif dans l'adhésion des utilisateurs.
Lorsque les utilisateurs génèrent des centaines d'interactions quotidiennes sur leur appareil et accumulent de nombreuses données d'intérêt personnelles, un besoin naturel émerge : comment ces souvenirs et préférences peuvent-ils être synchronisés avec d'autres appareils ? Par exemple, continuer à définir des tâches d'apprentissage basées sur les données sur un appareil à l'école.
Lorsque le niveau d'intelligence d'un appareil individuel atteint une certaine hauteur, le véritable potentiel du marché réside dans l'intelligence systémique au sein d'une coexistence de scénarios complets.
Le niveau collaboratif L4 mentionné dans les normes a pour caractéristique centrale la collaboration inter-appareils et la mémorisation des préférences utilisateur. Un téléphone, une paire de lunettes, un habitacle, une enceinte forment un réseau intelligent autour de l'utilisateur.
Vous entrez dans la voiture avec vos lunettes, et l'habitacle ajuste automatiquement vos préférences de conduite ; vous dites un mot à l'enceinte, et le robot commence à ranger le salon. Une expérience cohérente nécessite que tous les appareils partagent la même base d'intelligence cloud, ainsi qu'un système unifié d'identité, de mémoire et de planification d'exécution fourni par le fournisseur de cloud.
La coexistence en scénarios complets modifiera directement la logique commerciale du matériel IA.
Auparavant, la vente de matériel reposait largement sur la chaîne d'approvisionnement, chaque appareil vendu représentant une transaction conclue. Aujourd'hui, l'ajout de l'IA ouvre une toute nouvelle perspective, permettant à l'avenir de générer des services à valeur ajoutée de manière continue via des abonnements, par exemple.
Dans des scénarios collaboratifs, les utilisateurs sont plus enclins à payer pour une expérience continue inter-appareils, comme s'abonner à un service d'assistant personnel ou acheter des packs de compétences scénarisées. Ainsi, la répartition de la valeur dans toute la filière sera redistribuée.
Prenons un exemple déjà existant : lorsque les lunettes Rokid intègrent côté terminal le produit JVS Claw, la version Alibaba d'OpenClaw, les professionnels peuvent effectuer efficacement des opérations comme créer un calendrier, répondre à un message WeChat ou effectuer un paiement. Si ces comportements à haute fréquence peuvent être davantage intégrés et capitalisés sous forme de scénarios améliorant la productivité, cela peut déboucher sur des services d'abonnement d'assistant de vie.
Pendant la promotion 618, Tmall a également mis en ligne des dizaines de marques d'ordinateurs équipés de JVS Claw, intégrant pleinement l'assistant intelligent et accueillant l'ère des « Agent PC ».
Le matériel devient une porte d'entrée vers des services, et non une fin en soi.
La vague de restructuration du marché ira vers les produits capables de s'intégrer à ce réseau intelligent, abandonnant progressivement les appareils de niveau L1, isolés comme des îles.
La classification par niveaux donne une orientation sur l'aboutissement industriel, la collaboration terminal-cloud offre un chemin déterminé, et les capacités standardisées des fournisseurs de cloud élargissent et aplanissent cette voie.








