Texto | Nube de IA, autor | Huang Yunhao
Uno. Después de Google I/O 2026: Los cuatro principales sistemas operativos de terminales entran en la era de los agentes
El 12 de mayo de 2026, Google celebró su evento de lanzamiento Android Show|I/O Edition, un evento especial de Android previo a la conferencia I/O del 19 de mayo. Sameer Samat, presidente del ecosistema Android, definió el tono de este evento: Android debe transformarse de un sistema operativo a un sistema inteligente. Para llevar a cabo esta línea principal, presentaron Gemini Intelligence, una capacidad de IA proactiva integrada en la capa del sistema Android.
Póster del evento Android Show|I/O Edition 2026
Fuente: Android Headlines
En comparación con la combinación Gemini Nano+AICore del año pasado, esta vez Google integró aún más en la capa del sistema operativo (SO) las capacidades del agente para cruzar aplicaciones y contextos: la automatización de tareas entre aplicaciones (pedir comida, realizar compras, hacer pedidos), el autocompletado de formularios, el resumen de páginas web y los widgets personalizados se añadieron sucesivamente a la lista de capacidades del sistema. Google también estableció tres principios de producto: control explícito del usuario (explicit user control), protección integral de datos (comprehensive data protection) y transparencia operativa (operational transparency).
Una semana después, el 19 de mayo, en la conferencia principal de I/O, el CEO de Google, Sundar Pichai, comenzó siguiendo esta línea principal:
Bienvenidos a la era de Gemini agentizado (Welcome to the agentic Gemini era)
Al sumergirse en la ola de agentización de los sistemas operativos de terminal, Google no fue precisamente temprano en la salida.
Microsoft presentó en mayo de 2024 en su evento Build 2024 el Copilot+PC (una nueva categoría de dispositivos Windows 11 equipados con NPU de más de 40 TOPS), integrando capacidades de agente en el sistema operativo basándose en tres capacidades: el modelo pequeño en dispositivo Phi Silica, la capacidad de agente en pantalla "Click to Do" y la memoria de actividad del sistema "Recall".
En la WWDC24 de junio de 2024, Apple ya había anunciado oficialmente "Apple Intelligence", definido en ese momento como un "sistema de inteligencia personal" (personal intelligence system). Posteriormente, se lanzaron algunas funciones de asistencia de IA, aunque debido a problemas como la difícil producción de su propio modelo de gran tamaño y la "falta de inteligencia" de Siri, las capacidades centrales de agente de Apple Intelligence no pudieron ver la luz durante mucho tiempo.
Huawei, por su parte, presentó en la HDC 2025 de junio de 2025 HarmonyOS 6 y el Marco de Agentes Inteligentes de Harmony (HMAF), seguido del lanzamiento de más de 80 agentes inteligentes en la plaza de agentes inteligentes Xiao Yi.
La gran tendencia de la agentización de los sistemas operativos en el dispositivo ya es visible simultáneamente en los principales sistemas operativos como Android, iOS, HarmonyOS y Windows.
Lo que se muestra en los eventos de lanzamiento son solo funciones. Lo que los fabricantes de sistemas operativos realmente deben competir es por los tres niveles de capacidad base que soportan el funcionamiento confiable y la resolución práctica de problemas de los agentes del SO: el Runtime de IA a nivel de sistema, los chips controlables y la matriz de modelos en dispositivo y en la nube.
Dos. Detrás del evento de lanzamiento: Los tres niveles de base que sostienen al agente del sistema operativo
Runtime de IA a nivel de sistema: El centro de distribución de la inteligencia en el dispositivo
Runtime es el motor de inferencia y el servicio del sistema en el que los modelos en dispositivo se ejecutan dentro del sistema operativo. Hacia abajo, se conecta directamente con la NPU y la distribución de recursos del sistema; hacia arriba, expone la capacidad de inferencia a todas las aplicaciones a través de API estables. Convierte los modelos en dispositivo en una "inteligencia compartida en la capa del SO": compartiendo los pesos del modelo entre aplicaciones, distribuyendo de manera unificada el poder de cómputo y la memoria, soportando las llamadas a herramientas necesarias para los agentes, guiando la generación, y gestionando el contexto y los permisos. Determina si un agente del SO es simplemente un botón de chat dentro de una aplicación o un servicio residente en el sistema operativo capaz de ejecutar operaciones a nivel de sistema.
La muestra más completa dentro del ecosistema Android es Google AICore. En diciembre de 2023, AICore se lanzó como un servicio del sistema (system service) en Android 14; en agosto de 2025, Gemini Nano se abrió a los desarrolladores a través de las API ML Kit GenAI. Desde la base del servicio del sistema hasta las API estables orientadas a las aplicaciones, AICore tomó casi dos años en pulirse continuamente.
Otros fabricantes de sistemas operativos recorren el mismo camino, pero con ritmos diferentes. Apple abrió a los desarrolladores el marco Foundation Models en la WWDC25, un marco que incorpora decoradores @Generable, llamadas a herramientas, generación guiada (guided generation) y sesiones con estado (stateful session), conectado en segundo plano a un modelo base en dispositivo de aproximadamente 3B parámetros, complementado con soporte en la nube a través de cómputo privado en la nube. Microsoft incorporó en Windows 11 el marco de IA en dispositivo Foundry on Windows junto con Phi Silica, utilizando Windows ML como el backend de inferencia subyacente. Huawei presentó en la HDC 2025 el Kit de Marco de Agentes (Marco de Agentes Inteligentes de Harmony, HMAF), abriendo tanto el sistema de intenciones como el protocolo de colaboración entre agentes.
Android AICore como servicio del sistema, distribuyendo la inferencia de Gemini Nano en aceleradores de hardware
Fuente: Android Developers
Chips controlables: El punto de apoyo de la sinergia hardware-software
En el evento Android Show|I/O Edition, Google estableció un umbral de hardware claro para Gemini Intelligence: el conjunto completo de funciones se lanzó inicialmente solo para algunos de los últimos buques insignia, como la serie Pixel 10 y la serie Galaxy S26, excluyendo los modelos del año pasado. Esto apunta a un hecho simple: los modelos de IA aún evolucionan rápidamente, y el software plantea continuamente nuevos requisitos al hardware. Los chips controlables son la base que recibe estos requisitos; el grado de control determina el espacio que tienen los fabricantes de sistemas operativos para adaptar software y hardware para los agentes del SO en el dispositivo.
Apple es el ejemplo por excelencia de la ruta de integración hardware-software. iOS y macOS evolucionaron desde el principio junto con las generaciones de chips de la serie A y M, mientras que Core ML unificó la distribución de CPU, GPU y ANE encapsulándola en la capa del marco. Esta ruta continúa en la era de los LLM. Apple Machine Learning Research presentó una prueba real: al desplegar el modelo Llama 3.1 8B Instruct en un M1 Max siguiendo la ruta de optimización de Core ML, la velocidad de decodificación local puede alcanzar aproximadamente 33 tokens/s. El informe técnico "Apple Intelligence Foundation Language Models" también reveló que Apple realizó optimizaciones a nivel de arquitectura para sus propios chips, como la compartición de caché KV y el entrenamiento cuantizado perceptivo de 2 bits, lo que permitió abrir con éxito a los desarrolladores el modelo base en dispositivo de aproximadamente 3B a través del marco Foundation Models. Esta profundidad solo es posible cuando se tienen los chips en las propias manos: este es precisamente el valor de los chips controlables para los fabricantes de sistemas operativos. Determinan la profundidad de la sinergia hardware-software y elevan el límite superior de la experiencia del agente del SO en el dispositivo.
Al entrar en la era de la IA, Google está haciendo lo mismo: desde el Pixel 6 siguió la ruta del SoC Tensor de diseño propio. El último Tensor G5 mejora el rendimiento de la TPU hasta en un 60% y el de la CPU en un promedio del 34%, implementándose en el Pixel 10 como el primer SoC capaz de ejecutar completamente la última generación de Gemini Nano. Por supuesto, Tensor G5 también tiene debilidades: pruebas reales de Android Central muestran que su configuración de memoria (capacidad de RAM) sigue siendo un cuello de botella para el rendimiento de IA, y su puntuación en Geekbench AI es inferior a la del Snapdragon 8 Elite; en las pruebas reales de Geekbench 6 de Macworld, las puntuaciones de núcleo único y múltiple de G5 son inferiores a las del A18 Pro. Google todavía está alcanzando, pero la ruta de sinergia entre Tensor propio y Gemini en el dispositivo ya está tomando forma.
El Kirin de Huawei combinado con la NPU Da Vinci y el modelo en dispositivo Pangu es otro camino paralelo al de Apple y Google en chips controlables. Xiaomi ha implementado el Xuanjie O1, siendo un nuevo participante que avanza en la dirección de los chips controlables.
Matriz de modelos en dispositivo y en la nube: La fuente de inteligencia del agente
La matriz de modelos en dispositivo y en la nube es la fuente de "inteligencia" de los dispositivos terminales: los modelos en la nube sostienen el límite superior de capacidad para tareas complejas, y los modelos en el dispositivo sostienen el límite inferior para el funcionamiento diario: latencia, duración de la batería, privacidad y estabilidad recaen en el lado del dispositivo. Ambos extremos son indispensables; la diferencia está en la profundidad de su acoplamiento con el sistema operativo. Los modelos en el dispositivo deben integrarse en el sistema operativo de cada terminal y acoplarse profundamente con la NPU local, asumiendo una doble identidad dentro del SO: hacia abajo, son el backend de inferencia local para el Runtime; hacia arriba, se exponen como API a nivel de sistema a las aplicaciones a través del marco y el SDK del Runtime.
El desarrollo propio tiene sentido tanto en la nube como en el dispositivo, solo que la recompensa en el dispositivo es más evidente. En la nube, adquirir modelos externos también puede sostener el límite superior de capacidad, pero las ventajas del desarrollo propio se manifiestan principalmente en el control del enrutamiento, los términos comerciales y el ritmo de iteración del modelo. En el dispositivo es diferente. Los modelos en el dispositivo se integran en el sistema operativo y la NPU de cada dispositivo; la recompensa del desarrollo propio se refleja directamente en el rendimiento del producto: la compartición de caché KV, el entrenamiento cuantizado perceptivo de 2 bits diseñado específicamente para cierta generación de chips, Per-Layer Embedding (derivado de Gemma 3n, que carga incrementalmente parámetros de incrustación por capa desde el almacenamiento rápido), etc., todo esto requiere que el modelo y el hardware se diseñen de manera sincronizada para facilitar su implementación; al mismo tiempo, el ritmo de cooperación ya no está sujeto a las limitaciones de los fabricantes de hardware de terceros.
El poder de cómputo de la TPU de Tensor G5 es hasta un 60% superior al de la generación anterior G4, pero la mejora de Gemini Nano en G5 va mucho más allá: según Google oficial y la investigación recopilada por Jon Peddie Research, la velocidad de procesamiento local es 2.6 veces mayor que la de la generación anterior, el consumo energético se reduce a la mitad, y la ventana de tokens se expande de 12,000 a 32,000 (equivalente a digerir aproximadamente cien capturas de pantalla de una vez). Estas mejoras de rendimiento significativamente superiores provienen de la arquitectura de inferencia elástica Matryoshka Transformer adoptada por Gemini Nano v3, combinada con la optimización conjunta con la TPU de Tensor G5.
Salto de rendimiento de Gemini Nano en Tensor G5 comparado con la generación anterior
Fuente: Google/Jon Peddie Research, gráfico de Nube de IA
En esta capa de modelos en el dispositivo, los principales fabricantes de sistemas operativos tienen sus propias cartas: Gemini Nano de Google, el modelo base en dispositivo de aproximadamente 3B parámetros de Apple, Phi Silica de Microsoft y el modelo en dispositivo Pangu de Huawei. El desarrollo propio es la opción predeterminada en esta capa.
Tres. Entre los tres niveles: Cuanto más profunda sea la sinergia, mayor será el espacio para la diferenciación
Los tres niveles de capacidad base se acoplan de abajo hacia arriba: chip controlable → modelo en dispositivo/en la nube → Runtime → Agente. El chip controlable determina la eficiencia de inferencia y consumo energético que el modelo en el dispositivo puede alcanzar; el modelo en el dispositivo determina la inteligencia local que el Runtime puede distribuir; el Runtime determina la confiabilidad del agente para ejecutar operaciones entre aplicaciones como un servicio del sistema. Cuanto más profundamente cooperen los tres, mayor será la diferenciación en la experiencia del producto del agente en el dispositivo por parte de los fabricantes de sistemas operativos, y más profundo será su foso defensivo.
Cuanto más profundamente se engranen los tres niveles dentro del mismo conjunto de hardware y software, más diferencias en capacidad del producto del agente del SO surgirán que un solo nivel no podría lograr por sí solo.
- Latencia de respuesta y consumo energético. La velocidad de procesamiento 2.6 veces mayor y la reducción a la mitad del consumo energético que Gemini Nano logró en Tensor G5 dependen de la adaptación mutua de la arquitectura del modelo, el diseño del chip y la distribución del Runtime dentro del diseño de software y hardware de la misma generación; es entonces cuando emergen mejoras de este nivel.
- Privacidad y confianza. Las tareas comunes que involucran datos privados se completan localmente por el modelo en el dispositivo, y las solicitudes complejas se envían a la nube: esta es la postura predeterminada razonable de un agente del SO frente a los datos del usuario en la etapa actual. El acoplamiento de los tres niveles determina si esta postura "prioridad en el dispositivo, respaldo en la nube" puede implementarse verdaderamente: la adaptación profunda de la NPU con el modelo en el dispositivo es un camino clave para que los modelos en el dispositivo, aún en desarrollo, asuman la inferencia de alta frecuencia diaria; la compresión cuantizada y la compartición de caché KV del modelo para la NPU; el enrutamiento del Runtime entre el dispositivo y la nube según la complejidad de la tarea. Si cualquiera de los tres niveles no está en su lugar, "prioridad en el dispositivo" será solo una frase de marketing.
- Contexto a nivel de sistema. Que los fabricantes de sistemas operativos reorganicen los datos del usuario a nivel de sistema (índice semántico, percepción de pantalla, memoria a largo plazo) entre aplicaciones y capas del SO para proporcionar un contexto personal a nivel de sistema al agente es la premisa para que el agente realmente "entienda al usuario", y también es la característica central que diferencia a un agente del SO de un agente único a nivel de aplicación. Su implementación depende del engranaje de los tres niveles: el Runtime posee índices y permisos entre aplicaciones; el modelo en el dispositivo reside constantemente y es responsable de la comprensión e inferencia; la NPU proporciona potencia de cómputo local eficiente. Core Spotlight de Apple establece un índice semántico en el terminal; las aplicaciones integran acciones y datos al sistema a través de App Intents; el agente obtendrá contexto a través de Personal Context (Apple ya anunció que esta capacidad llegará con futuras actualizaciones de software); AppFunctions en el lado de Android sigue el mismo camino.
- Confiabilidad como servicio del sistema. Para que un agente del SO sea invocado como un servicio a nivel de sistema, debe mantenerse disponible en escenarios reales como sin conexión a internet, batería baja y estrangulamiento térmico (thermal throttling). El modelo en el dispositivo reside constantemente en el equipo, permitiendo que el agente funcione sin red; la NPU altamente optimizada en software y hardware asume la inferencia de bajo consumo; el Runtime retrocede en la distribución (cambiando a un modelo más ligero o enrutando la solicitud a la nube) cuando los recursos del dispositivo son limitados. Si falta cualquiera de los tres niveles, el agente del SO no podrá sostener la forma de un servicio del sistema y solo retrocederá a ser un botón de chat a nivel de aplicación.
Apple Intelligence presenta un paradigma completo de sinergia: Apple Silicon, el modelo base en dispositivo de aproximadamente 3B parámetros, y el marco Foundation Models se engranan de abajo hacia arriba; el dispositivo maneja escenarios comunes, y las solicitudes complejas se transfieren al cómputo privado en la nube. Google representa otra forma. Tensor G5, como el primer SoC que ejecuta completamente la última generación de Gemini Nano, se implementa en el Pixel 10, distribuido de manera unificada por AICore, permitiendo que funciones de agente a nivel de sistema como Magic Cue y Pixel Screenshots se activen por defecto sin depender de la nube. Huawei es un ejemplo dentro de China en la construcción de la sinergia de tres niveles: Kirin, NPU Da Vinci, Pangu en dispositivo, y HMAF, todos propios, se acoplan de abajo hacia arriba formando una base completa de tres niveles.
Mecanismo de engranaje de los tres niveles base para agentes del SO en el dispositivo
Fuente: Nube de IA
Cuatro. Sobre la base: Otras variables clave para el foso defensivo a largo plazo
La sinergia de los tres niveles construye el núcleo del foso defensivo. Por encima de la base, hay muchas otras variables que afectan la competitividad del producto en la era de los agentes del SO, incluyendo la capacidad de interacción del agente con las aplicaciones, la protección de la privacidad, etc.
La interacción entre el agente del SO y las aplicaciones se encuentra en la primera línea de la disputa entre los fabricantes de sistemas operativos y los desarrolladores de aplicaciones. Actualmente, dos rutas avanzan en paralelo. Una es el reconocimiento de pantalla y la automatización, incluyendo la compartición de pantalla Gemini Live, Apple Visual Intelligence, Circle to Search, etc. El agente del SO interviene en las aplicaciones leyendo la pantalla y haciendo clic en botones, lo que es factible para tareas únicas, pero cada invocación carece de información estructurada, lo que dificulta la construcción estable de flujos de trabajo de múltiples pasos. La otra ruta es la integración profunda de API, incluyendo Google AppFunctions, Apple App Intents, Huawei Intents Kit, etc. La aplicación expone sus acciones principales al sistema a través de interfaces estructuradas, permitiendo al agente realizar llamadas estables y construir flujos de trabajo de múltiples pasos. Que la ruta de las API se expanda no depende de los fabricantes de sistemas operativos, sino de los desarrolladores de aplicaciones. Entregar las funciones principales para que las invoque el agente significa que los usuarios podrían dejar de abrir directamente la aplicación, con el riesgo de que la exposición de marca, los espacios publicitarios, los datos de comportamiento y los puntos de entrada de pago sean interceptados por el SO. Este será un punto de disputa central en la distribución del tráfico de terminales del lado del usuario.
La protección de la privacidad es un valor clave y una línea de fondo para los sistemas en el dispositivo. Los fabricantes de sistemas operativos tienen en el dispositivo los permisos más profundos a nivel de sistema y los datos de usuario más sensibles; la privacidad es tanto una posición profesional como una condición previa para el avance a largo plazo de los dos aspectos anteriores. Apple, a través del diseño de seguridad a nivel de hardware compartido entre el chip de seguridad independiente Secure Enclave en el dispositivo y los nodos de cómputo en la nube privada (PCC), ha construido un sistema de protección de privacidad basado en el terminal. Esta estrategia de producto ha hecho que "Privacidad. Eso es Apple." (Privacy. That’s Apple.) se convierta en una etiqueta central de marca de Apple en el mercado global de alta gama, ganando así la confianza de los usuarios.
La etiqueta "Privacidad. Eso es Apple." de Apple
Fuente: Sitio web oficial de Apple
La sinergia de los tres niveles erige el núcleo del foso defensivo, y estas variables a largo plazo por encima de la base afectan cuán profundo puede llegar a consolidarse.
Cinco. No se trata solo de rehacer el sistema operativo
Bajo la tendencia de la agentización de los sistemas operativos en el dispositivo, cuanto más sólidos sean los tres niveles de base (Runtime de IA a nivel de sistema, chips controlables, matriz de modelos en dispositivo y en la nube), mayor será el límite inferior del producto de los fabricantes de sistemas operativos en esta contienda y mayor será también su espacio de diferenciación. Solo los fabricantes de sistemas operativos que comprendan esta tendencia tendrán la oportunidad de impulsar la redistribución del poder en la asignación del tráfico de entrada de terminales y alcanzar una posición competitiva más fuerte.
Esta tendencia no se limita a teléfonos y PC. Las capacidades subyacentes de los agentes del SO se extienden a más terminales a lo largo de los ecosistemas multi-dispositivo que cada empresa ya ha construido, especialmente hacia el IoT. Los chips controlables descienden a escenarios como SoCs para automóviles; Huawei ya ha desplegado chips Kirin de grado automotriz y el sistema operativo HyperOS de Xiaomi está entrando en sus propios vehículos; los modelos en el dispositivo se están migrando de manera más ligera a hardware con nuevas formas como gafas; las gafas inteligentes Android XR desarrolladas conjuntamente por Google, Samsung, Gentle Monster y Warby Parker saldrán al mercado en otoño de 2026; la sinergia entre el Runtime y el agente se extiende a grupos de dispositivos a través de los marcos "super terminal/distribuido" que cada empresa ya ha desplegado, como por ejemplo, el "1+8+N" y el bus distribuido de software de Harmony de Huawei, el "ecosistema completo humano-coche-hogar" y HyperConnect de Xiaomi, Continuity de Apple, y el Cross device SDK y los servicios entre dispositivos de Google. Esta contienda de agentes del SO está lejos de limitarse a la victoria o derrota en teléfonos y PC.
AICore se pulió durante casi dos años; el sistema operativo de Apple y la serie de chips Apple silicon se adaptaron durante más de una década; Tensor se modificó hasta llegar a G5, y solo entonces el Pixel 10 pudo soportar la carga de Gemini Nano v3. El resultado de esta contienda nunca ha dependido de una o dos horas en un evento de lanzamiento, sino de lo que se forja a lo largo de generaciones de chips, modelos y Runtime.
Referencias:
- Gemini Intelligence trae IA proactiva a Android | Google Blog
- I/O 2026: Bienvenidos a la era de Gemini agentizado | Google Blog
- Phi Silica, pequeño pero poderoso SLM en el dispositivo | Windows Experience Blog
- Apple pospone indefinidamente la actualización de Siri | Bloomberg
- Comunicado de prensa del inicio de la Beta para desarrolladores de HarmonyOS 6 (HDC 2025) | Huawei
- La última Gemini Nano con las API ML Kit GenAI en el dispositivo | Android Developers Blog
- Documentación del marco Foundation Models | Apple Developer
- Libro Blanco del Marco de Agentes Inteligentes de Harmony | Huawei Developer
- Llama 3.1 en el dispositivo con Core ML | Apple Machine Learning Research
- Informe Técnico 2025 de los Modelos de Lenguaje Fundamentales de Apple Intelligence | Apple Machine Learning Research
- Google Tensor G5: Puntos de referencia y todo lo que necesitas saber | Android Central
- El nuevo SoC M5 de Google (Detalles de Tensor G5 • Matryoshka Transformer) | Jon Peddie Research
- Cómputo en la Nube Privada: Una nueva frontera para la privacidad de la IA en la nube | Apple Security Engineering
- Descripción general de AppFunctions | Android Developers
- App Intents | Apple Developer
- Introducción a Intents Kit (HarmonyOS) | Huawei Developer
- El chip Tensor G5 del Google Pixel 10 Pro es impresionante — si lo comparas con un iPhone 14 | Macworld
- Descripción general del modelo Gemma 3n | Google AI for Developers











