En 2026, el hardware de IA, que se encuentra en una fase crítica de transformación industrial, ha dejado atrás la etapa de conceptos dispersos y apilados.
La serie de estándares nacionales "Clasificación de Inteligencia en Dispositivos Terminales de Inteligencia Artificial", publicada conjuntamente por el Ministerio de Industria y Tecnología de la Información, el Ministerio de Comercio y la Administración Estatal de Regulación del Mercado, establece una escala clara para este sector dinámico, dividiendo la inteligencia terminal en cuatro niveles, desde el nivel L1 hasta el L4, pasando gradualmente de respuesta a colaboración.
Este sistema de estándares define cinco elementos de capacidad: percepción, cognición, ejecución, memoria y aprendizaje, cubriendo siete categorías de productos: teléfonos móviles, computadoras, televisores, gafas, cabinas de automóviles, altavoces inteligentes y auriculares. Básicamente, delinea las primeras formas de hardware de IA con potencial de adopción masiva y proporciona métodos de prueba específicos.
Para los consumidores, ya no será necesario esforzarse por comprender la lógica técnica ni escuchar las propias afirmaciones de los fabricantes para saber qué tan inteligente es un dispositivo.
Casi al mismo tiempo que se publicaron los estándares, Alibaba Cloud mostró los resultados de implementación de varios dispositivos de hardware de IA en la Cumbre de Alibaba Cloud celebrada el 20 de mayo, y anunció el "Plan de Cooperación Qianwen Smart Hardware X Tmall" junto con Tmall. El plan incluye beneficios exclusivos del modelo Qianwen, apoyo de miles de millones de visitas de Tmall y recursos de exposición de marca en toda la plataforma. Ambas partes invertirán conjuntamente más de 100 millones de recursos para ayudar a los fabricantes de hardware a lograr una transición de valor y acelerar la explosión de nuevas especies de hardware de IA desde tres dimensiones: tecnología, marca y canales de venta.
La gran promoción 618 de Tmall está a punto de comenzar. Varios dispositivos de hardware de IA equipados con las capacidades de Qianwen se presentarán en Tmall, y ambas plataformas proporcionarán conjuntamente recursos de tráfico y exposición de marca para promover la aceleración de la comercialización del hardware de IA. El estado ha dibujado la pirámide para el hardware de IA, y los proveedores de la nube proporcionan la base de capacidades necesaria para escalarla.
Estos rápidos cambios apuntan a la misma tendencia:
El hardware de IA está pasando de la validación de conceptos en el lado del dispositivo a la adopción masiva mediante la colaboración entre el dispositivo y la nube, y la liberación de capacidades de los servicios en la nube de IA llega justo en este punto de inflexión.
01. ¿Quién se queda en L1, quién avanza hacia L4?
De L1 a L4, cada salto de nivel corresponde a un aumento en los umbrales de capacidad.
Los dispositivos L1 solo pueden ejecutar instrucciones predefinidas, siendo esencialmente una versión inteligente de electrodomésticos tradicionales; L2 comienza a tener atributos de herramienta, permitiendo a los usuarios invocar activamente ciertas funciones.
Yu Xiuming, vicepresidente del Instituto de Investigación de Normalización de la Tecnología Electrónica de China, señaló al interpretar el estándar que, según investigaciones y análisis de pruebas, los productos con alta tasa de posesión por parte de los usuarios se encuentran generalmente en los niveles L1 y L2, y algunos productos nuevos pueden alcanzar el nivel L3.
En general, los dispositivos terminales de IA están evolucionando en paralelo a lo largo de tres caminos: actualización de terminales tradicionales, expansión de terminales emergentes y exploración de terminales futuros.
La verdadera línea divisoria está en el nivel L3 de asistencia. El núcleo de L3 es que el terminal pueda comprender completamente las instrucciones e intenciones del usuario, y tenga la capacidad de reconocer y proporcionar servicios de forma proactiva.
Tomando un aire acondicionado inteligente como ejemplo, un dispositivo de nivel L3 puede reconocer automáticamente si al usuario le está sudando la frente y luego bajar activamente la temperatura. Cuando el usuario activa el modo "fuera de casa", la cámara primero juzga si todavía hay alguien en la vivienda y apaga las luces después de que la persona se haya puesto los zapatos y se haya ido. Estas acciones requieren sintetizar múltiples entradas de audio, video y sensores para realizar un complejo reconocimiento de intenciones y toma de decisiones. El estándar requiere que el dispositivo tenga capacidades de comprensión de intenciones complejas, razonamiento en cadena y memoria a largo plazo, lo que significa que el dispositivo no solo debe responder qué es, sino también comprender por qué, e incluso predecir qué hacer a continuación.
Algunos fabricantes de hardware han estado estancados en el nivel L1 en los últimos años, mostrando varias características típicas.
Una es una definición de producto demasiado cerrada, resolviendo solo una función única, sin dejar margen para sensores o redundancia de potencia de cálculo en futuras actualizaciones; otra es una dependencia excesiva de modelos ligeros en el lado del dispositivo, lo que provoca una ruptura de capacidades en escenarios complejos.
Hay otra aún más oculta: empaquetar funciones L1 como reclamo de L2 o L3. Este tipo de productos se revelarían rápidamente frente a las pruebas estándar, y los consumidores votarían con los pies.
Al respecto, el juicio de Chen Liwei, subgerente del Departamento de Arquitectura de Soluciones de la División de Nube Pública de Alibaba Cloud Intelligent Group, es que toda la industria del hardware se encuentra en una etapa de transición de L2 a L3. Quien pueda construir primero la arquitectura base de L3 y lograr una experiencia de producto de nivel L3, podrá capturar un mayor espacio de mercado.
Quedarse en L1, o incluso en L2, ya no es una zona segura. Y para ingresar de manera estable a la fase L3, se necesita la combinación de percepción multimodal y razonamiento de generalización.
Esta Cumbre de Alibaba Cloud también presentó el modelo insignia Qianwen Qwen3.7-Max. En la lista ciega global de evaluación de grandes modelos Arena, Qwen3.7-Max ocupó el primer lugar entre los modelos nacionales, equiparándose con los modelos globales más potentes.
El propósito de diseño de Qwen3.7-Max es, de hecho, hacer que el modelo sea el núcleo de un Agente, con capacidades de planificación autónoma, iteración continua y colaboración entre dispositivos. Esta mejora tecnológica coincide precisamente con los requisitos de los elementos de percepción y cognición del nivel L3. Actualmente, el kit de desarrollo de interacción multimodal que Alibaba Cloud ofrece a la industria del hardware inteligente admite completamente la conexión a Qwen3.7-Max.
Cuantas mayores sean las capacidades de generalización en la nube, menor será el costo de adaptación del hardware a L3. Chen Liwei también señaló: "Hoy en día, ningún producto de hardware puede lograr una experiencia de usuario de extremo a extremo a través de un único modelo. La solución definitivamente será una combinación de múltiples modelos."
02. La colaboración entre dispositivo y nube se convierte en una opción obligatoria
Después del nivel L3 de asistencia, el nivel L4 de colaboración será un salto aún mayor.
Según la definición actual, la característica central de L4 no se centra en si un dispositivo individual es más inteligente, sino en que múltiples dispositivos formen un sistema inteligente. Cuando un usuario entra en su casa, las gafas, los altavoces, los robots y la cabina compartirán automáticamente la memoria, sirviendo así al usuario en el mundo físico.
Por lo tanto, el mayor desafío que enfrentarán los fabricantes de hardware para implementar tecnología y productos de manera estable en L4 será la integración de sistemas y la colaboración entre dispositivos.
En la tabla de clasificación de estándares, desde los terminales móviles hasta las gafas y auriculares, la mayoría de los productos están etiquetados como colaboración dispositivo-nube. La lógica detrás de esto es directa: la respuesta en tiempo real depende del lado del dispositivo, y el razonamiento complejo depende de la nube. Esta es la solución óptima actual para la inteligencia.
El robot mayordomo "Bajie" de Ecovacs es un ejemplo típico. Basándose en consideraciones sobre la capacidad de iteración continua de modelos de código abierto, Ecovacs eligió integrar el gran modelo Qianwen desde muy temprano.
El desafío central del robot mayordomo proviene de la no estandarización de los entornos domésticos, que requieren altos niveles de seguridad, alta densidad de información y demandas muy largas y variadas. Una de las soluciones de "Bajie" de Ecovacs es encapsular las capacidades atómicas del robot (agarrar, tomar, colocar, percibir, planificar) en interfaces API fáciles de entender para el modelo. La nube, basada en Qwen3.6-Plus, maneja tareas complejas como la percepción del entorno y la descomposición de acciones.
Cuando un usuario da una instrucción vaga como "ordenar la sala de estar", primero se puede combinar con la comprensión en la nube de qué objetos contiene la sala de estar y cuál es el estándar de orden, para luego descomponerlo en una serie de instrucciones de acción que se envían al brazo robótico. Detrás de esta serie de comprensiones no es necesario preprogramar; el agente inteligente en "Bajie" encadenó activamente la tarea.
Actualmente, Ecovacs también ha abierto el sistema, las capacidades atómicas y la plataforma de simulación de "Bajie", permitiendo que más socios del ecosistema participen fácilmente en el desarrollo de algoritmos y la implementación de aplicaciones para robots domésticos a través de "Bajie".
Los productos de la serie Shenmou de Yanjiwei en Hangzhou también confirman la necesidad de la colaboración dispositivo-nube. Como empresa especializada en imágenes inteligentes de bajo consumo, el núcleo de los productos de Yanjiwei es optimizar los problemas de suministro eléctrico y comunicación de red de las cámaras, logrando que funcionen sin red eléctrica ni conexión. El desafío del bajo consumo es que la potencia de cálculo de los chips en el lado del dispositivo es limitada y no puede soportar la carga de inferencia de modelos a gran escala.
Su solución es realizar etiquetado en tiempo real y procesamiento preliminar en el lado del dispositivo, utilizando chips de IA en el dispositivo para identificar personas, vehículos y vehículos no motorizados en la imagen, y luego subir la información de texto e imagen a la nube a través de balizas 4G de bajo consumo. La nube realiza una comprensión profunda y memoria estructurada basada en el gran modelo Qianwen, permitiendo a los usuarios hacer preguntas a la cámara como si buscaran en un álbum de fotos, por ejemplo, "¿De qué color era el gato que apareció ayer por la tarde en la puerta?". Esta experiencia es casi imposible de lograr con una solución puramente en el dispositivo.
Basándose en esta arquitectura, la tasa de conversión a pago de esta empresa aumentó en un 25%, el precio promedio por cliente aumentó en un 30% y la tasa de retención continua de usuarios de pago superó el 75%. La capacidad de IA se tradujo directamente en competitividad comercial.
El modelo de división del trabajo de colaboración dispositivo-nube se está convirtiendo en un consenso de la industria, y el papel de los proveedores de la nube también ha cambiado enormemente.
En el pasado, los proveedores de la nube solo ofrecían recursos en la nube como potencia de cálculo y almacenamiento. Ahora se han convertido en proveedores de una base de infraestructura centrada en Agentes y en la colaboración dispositivo-nube, empaquetando capacidades como comprensión visual, planificación de tareas e incluso generación de código front-end en servicios invocables. Desde proporcionar la plataforma y el modelo hasta ofrecer Agentic Coding, reducen la barrera de entrada para que los fabricantes de hardware integren capacidades de IA en sus sistemas existentes a nivel de desarrollo.
Chen Liwei también resumió los cuatro desafíos centrales actuales de Alibaba Cloud: la combinación de modelos, la complejidad de la ingeniería, la capacidad de operación continua y el ciclo cerrado de datos.
Al hablar de combinación de modelos e ingeniería, vale la pena mencionar el gran modelo multimodal de nueva generación Qwen3.5-Omni, lanzado anteriormente.
Qwen3.5-Omni logró resultados SOTA en 215 tareas de comprensión, reconocimiento e interacción de audio y video, mejorando significativamente la experiencia de interacción en tiempo real y adquiriendo "alta inteligencia emocional". Más sorprendentemente, Qwen3.5-Omni mostró capacidades de Vibe Coding con audio y video: el usuario expone sus necesidades frente a la cámara y el modelo puede generar de forma autónoma código para productos complejos como aplicaciones, páginas web o juegos. La capacidad multimodal en tiempo real proporciona una base tecnológica clave para que el hardware de IA avance de L1/L2 a L3/L4.
Mientras los modelos multimodales continúan madurando, los fabricantes de hardware también están explorando caminos de implementación diferenciados.
Por ejemplo, Robosen, como empresa centrada en robots humanoides para consumidores, está desarrollando un intento interesante de colaboración dispositivo-nube. Los usuarios pueden, a través de la red local doméstica, usar su propia computadora o agente local para tomar el control completo del sistema de IA del robot, dotándolo así de capacidades personalizadas como control de domótica, diálogo en dialectos y temas de conversación personalizados.
Guangfan Technology, que acaba de lanzar los primeros auriculares de IA del mundo con capacidad de percepción visual, observó que el mayor cambio en la industria del hardware de IA en el último año ha sido la "velocidad", con una velocidad de iteración de software y hardware sorprendente. La IA ha evolucionado desde el simple chat hacia agentes inteligentes y capacidades de autoaprendizaje, y lo que puede hacer aumenta significativamente cada día. La práctica de Guangfan es construir un sistema operativo nativo de IA de mayor alcance que OpenClaw, que abarque interacción multimodal, programación de hardware, programación de software y programación de potencia de cálculo.
Las exploraciones de los "jugadores de primera línea" demuestran que la colaboración dispositivo-nube es un tema "difícil pero correcto" a largo plazo. La inteligencia en la nube está evolucionando rápidamente, pero la capacidad de ejecución en el dispositivo y la capacidad de programación del hardware siguen siendo variables clave que determinan la etapa de inteligencia del hardware de IA.
03. Donde están los límites de la colaboración, ahí está el mercado
Además de la orientación técnica, el significado de los estándares de clasificación también incluye la señalización a nivel de comercialización.
Los consumidores pueden evaluar los productos según L1 a L4, y como motivación, los fabricantes de hardware tendrán claros mapas de ruta de actualización.
Especialmente para las empresas emergentes, el auto-desarrollo de modelos multimodales y marcos de inferencia no es realista. Más fabricantes necesitan una base de IA estandarizada y caminos claros de retorno comercial.
La imaginación comercial de los servicios de hardware de IA se vislumbra en la alta fidelidad de usuario del AI Learning Camera de Dr. Luka. Los datos públicos de Dr. Luka muestran que el tiempo de uso diario promedio de los usuarios tempranos era solo de poco más de 30 minutos; después de integrar Qwen3.6-Plus, el tiempo diario promedio aumentó en un 50%, con aproximadamente 50 millones de fotos tomadas por usuarios interactuando con la IA cada mes. Una identificación más precisa de objetos y capacidades OCR generaron un mayor reconocimiento de imágenes, y la mejora en el razonamiento de generalización aumentó las rondas de preguntas y respuestas. El progreso cuantificable en la base de IA se reflejó directamente en un cambio cualitativo en la fidelidad del usuario.
Después de que los usuarios generen cientos de interacciones diarias en dispositivos de hardware y acumulen una gran cantidad de datos de interés personal, surge una demanda natural: ¿Cómo pueden estas memorias y preferencias vincularse a otros dispositivos? Por ejemplo, continuar estableciendo tareas de aprendizaje basadas en datos en un dispositivo en la escuela.
Una vez que el nivel de inteligencia de un dispositivo individual alcanza cierta altura, la verdadera imaginación del mercado llegará a la inteligencia del sistema bajo una simbiosis de escenario completo.
El nivel L4 de colaboración mencionado en el estándar tiene como característica central la colaboración entre dispositivos y la memoria de preferencias del usuario. Un teléfono, unas gafas, una cabina, un altavoz, forman una red inteligente alrededor del usuario.
Te pones las gafas y entras al coche, la cabina cambia automáticamente a tus preferencias de conducción; le dices una frase al altavoz y el robot comienza a ordenar la sala de estar. Una experiencia consistente requiere que todos los dispositivos compartan la misma base de inteligencia en la nube, y también que los proveedores de la nube proporcionen un sistema unificado de identidad, memoria y programación de ejecución.
La simbiosis de escenario completo cambiará directamente la lógica comercial del hardware de IA.
En el pasado, la fabricación de hardware dependía en gran medida de ganar dinero a través de la cadena de suministro; cada unidad vendida completaba una transacción. Ahora, la superposición de la IA abre una nueva imaginación: en el futuro también se podrán generar servicios premium de manera continua mediante suscripciones.
En escenarios de colaboración, los usuarios están más dispuestos a pagar por experiencias continuas entre dispositivos, como suscribirse a servicios de asistente personal o comprar paquetes de habilidades contextuales. En consecuencia, la distribución de valor en todo el sector también se reconfigurará.
Un ejemplo ya existente: cuando las gafas Rokid integran en el dispositivo el producto JVS Claw (versión Alibaba de OpenClaw), los profesionales pueden realizar eficientemente operaciones como crear calendarios, responder a WeChat o realizar pagos. Si estos comportamientos de alta frecuencia se integran y consolidan aún más como escenarios que mejoren la eficiencia laboral, podrían extenderse a servicios de suscripción de asistente personal.
Durante la promoción 618, Tmall también lanzó docenas de marcas de PC equipadas con JVS Claw, que se integrarán completamente con asistentes inteligentes, dando la bienvenida a la era del Agent PC.
El hardware se convierte en la puerta de entrada al servicio, no en el destino final.
La ola de reconfiguración del mercado se dirigirá hacia aquellos productos capaces de integrarse en esta red inteligente, abandonando gradualmente los dispositivos de nivel L1, que son como islas aisladas.
Los estándares de clasificación ofrecen una guía sobre el resultado final de la industria, la colaboración dispositivo-nube proporciona un camino determinado, y las capacidades estandarizadas de los proveedores de la nube están haciendo este camino más ancho y llano.








