Autor: New Zhiyuan
¡Google I/O 2026, a todo gas!
Acaban de salir al escenario Sundar Pichai y Demis Hassabis juntos, mostrando de una vez todas las grandes novedades acumuladas en los últimos seis meses.
Sin la menor duda, el gran protagonista de esta noche, Gemini Omni ¡hace su aparición oficial!
Como un modelo de lenguaje grande verdaderamente "omnicomprensivo", Omni puede recibir cualquier tipo de entrada y generar cualquier contenido. Y soporta, desde su lanzamiento, la salida de vídeo, lo que lo convierte en una versión en vídeo de "Nano Banana".
El otro punto culminante de esta noche, pertenece a Gemini 3.5 Flash.
En casi todas las pruebas de referencia, el 3.5 Flash logró superar ampliamente al anterior modelo insignia de Google, el Gemini 3.1 Pro. Su velocidad de salida también se duplicó, siendo más de 4 veces más rápido en comparación con GPT-5.5 y Opus 4.7. El más potente 3.5 Pro, se lanzará el próximo mes.
Además, han aparecido toda una ola de novedades importantes:
-
Antigravity 2.0: Nueva aplicación de escritorio independiente, que evoluciona desde un IDE a una plataforma de desarrollo de Agentes.
-
Gemini Spark: Tu agente de IA personal, funcionando 24/7 en la nube.
-
Rediseño de la App Gemini: Nombre en clave "Neural Expressive", cambia al pago por potencia de cálculo.
-
Plan de suscripción AI Ultra: Se añade una versión de 100 dólares, el nivel máximo baja de 250 a 200 dólares.
-
La mayor actualización en 25 años de la Búsqueda de Google: Se integra con el 3.5 Flash, añade cuadro de búsqueda inteligente, generación automática de mini-aplicaciones, etc.
......
Sin exagerar, la densidad de contenido útil en este I/O es la mayor de todos los años.
Presentación de Gemini Omni: Nace una IA "omnicomprensiva"
Como sugería frenéticamente el vídeo promocional, el tan esperado Gemini Omni finalmente ha llegado. Hassabis subió al escenario para anunciar personalmente, "Estamos dando el siguiente paso importante: Gemini Omni, un nuevo modelo que puede crear contenido a partir de cualquier entrada".
Esta puesta en escena lo dice todo. Google quiere construir esta vez un motor de creación de IA verdaderamente "omnicomprensivo". Fusiona la inteligencia de Gemini con la IA generativa más potente, llevando al máximo tres dimensiones: comprensión del mundo, multimodalidad y edición. En pocas palabras, dale cualquier combinación de imágenes, audio, vídeo y texto, y generará un vídeo de alta calidad. Y además, puedes editar el vídeo de forma conversacional.
Lo más crucial es que Omni no solo "parece" entender, realmente comprende el mundo físico. Las palabras exactas de Hassabis fueron: "Los sistemas anteriores a menudo fallaban al simular conceptos como la gravedad o la energía cinética, pero Omni logra un 'cambio escalonado'". Inyecta el "conocimiento del mundo" y la "capacidad de razonamiento" de Gemini en la generación de vídeo.
-
Con la instrucción "explica el plegamiento de proteínas con animación de arcilla", el vídeo generado muestra cada paso de la cadena de aminoácidos plegándose en hélices alfa y láminas beta con precisión científica, visualmente como una animación stop-motion exquisita.
-
O asignar objetos a las 26 letras del alfabeto inglés. La C es un capibara, la D una bola de discoteca, la L una lámpara de lava. Omni no está pegando recursos, realmente está conectando lenguaje, imágenes y semántica.
Hay que decir que el salto de parecer realista a tener significado es enorme.
En el escenario, Hassabis sacó un vídeo selfie y comenzó a modificarlo en vivo. Un círculo dibujado a mano en su palma se convirtió en un agujero negro, una calle en un paseo al atardecer se transformó en una escena cyberpunk. Una frase reescribe la imagen, una frase cambia el mundo. Cualquier cosa puede convertirse en el lienzo para crear una nueva realidad. También, por ejemplo, selfies jugando con fuego en la palma, un círculo dibujado en un papel se convierte instantáneamente en un agujero negro, se pueden lograr todo tipo de ideas descabelladas.
Y no es una generación de una sola vez. Puedes seguir conversando. El vídeo de salida de Gemini Omni mantiene la coherencia de los personajes, la lógica física es válida y la memoria de la escena es continua.
-
Partiendo de una grabación original de alguien tocando el violín. Segunda ronda: "transfiere al violinista al entorno de esta imagen", adjuntando una imagen de referencia de montañas nevadas y prados. La escena cambia instantáneamente, los movimientos, la iluminación, todo se adapta al nuevo entorno.
-
Tercera ronda: "cambia el ángulo de la cámara a un plano por encima del hombro del violinista". La perspectiva gira, pero la acción de tocar y la música son completamente continuas.
No importa cómo cambie la escena, el sujeto de la imagen no se distorsiona.
Y lo que da más que pensar es la flexibilidad de entrada de Omni. Imágenes, texto, vídeo, audio, cualquier material de referencia se puede mezclar como entrada, generando una salida coherente. Incluso puedes crear tu propio Avatar, haciendo que tu versión de IA aparezca en cualquier escena, con tu voz, haciendo cosas que tú no has hecho.
Actualmente, Omni Flash ya está oficialmente en línea, la versión API se abrirá en las próximas semanas. Y la más potente Omni Pro también está en camino. Gracias a la gran capacidad de integración de Google, Omni se integra desde el primer momento en la App Gemini, Google Flow y YouTube Shorts, e incluso los usuarios de YouTube Shorts pueden usarlo gratis.
Flash supera a Pro: 3.5 redefine el significado de "insignia"
Después de Gemini Omni, la otra gran protagonista de este I/O fue el lanzamiento de la nueva insignia Gemini 3.5 Flash. Google lo define como el modelo más potente hasta la fecha para codificación y agentes inteligentes.
En el escenario, Sundar Pichai anunció personalmente, "¡El 3.5 Flash supera ampliamente al Gemini 3.1 Pro en casi todas las pruebas de referencia!" ¡Impresionante, 3.1 Pro es el modelo insignia que Google lanzó hace solo tres meses! Ahora, un modelo de nivel Flash lo aplasta.
Quién hubiera pensado que Google entregaría un resultado tan brillante en tan poco tiempo:
-
Terminal-Bench 2.1 (codificación): 76.2%
-
GDPval-AA (tareas de agente en el mundo real): 1656 Elo
-
MCP Atlas (uso de herramientas a gran escala): 83.6%
-
CharXiv Reasoning (comprensión multimodal): 84.2%
En estas cuatro grandes pruebas de referencia, comparado con Gemini 3.1 Pro, el 3.5 Flash supone un salto estratosférico. En velocidad, el 3.5 Flash ocupa un cuadrante propio, 289 tokens/segundo, más de 4 veces más rápido que otros modelos de vanguardia. Además, en algunas pruebas de referencia, el rendimiento del 3.5 Flash es comparable, e incluso puede superar ampliamente a GPT-5.5 y Claude Opus 4.7. Hay que admitir que el 3.5 Flash es rápido y potente, casi sin rival.
Los parámetros son demasiado abstractos, veamos demostraciones reales de sus límites. En un instante, el 3.5 Flash puede digerir un artículo académico incomprensible y escribir un sitio web visual con interacciones perfectas. En tareas de agentes inteligentes, a través de Antigravity, puede completar flujos de trabajo de múltiples pasos, clasificar y nombrar automáticamente activos dispersos en pantalla. O, utilizando dos Agentes, reproducir en solo seis horas el artículo de AlphaZero y codificar un juego totalmente funcional.
93 Agentes crean un SO, en solo 12 horas
Se puede ver que la realización de todas estas capacidades del 3.5 Flash se logra gracias al nuevo Antigravity 2.0. Hoy, la plataforma de desarrollo de Agentes de Google, Antigravity, se actualizó a la versión 2.0, pasando de ser un IDE a una aplicación de escritorio independiente, adoptando completamente un diseño centrado en Agentes.
Varun subió al escenario y dio una demostración que dejó sin aliento a toda la audiencia. Hizo que Antigravity, equipado con 3.5 Flash, construyera un sistema operativo desde cero. 93 subagentes trabajando en paralelo, realizando más de 15,000 solicitudes al modelo, procesando 2,6 mil millones de tokens, y 12 horas después, un proyecto completamente en blanco se convirtió en un kernel de SO completamente funcional. Planificador, gestión de memoria, sistema de archivos, cada línea de código fue escrita, probada y auditada por Agentes. El costo de la API fue inferior a 1000 dólares.
Luego, intentó ejecutar DOOM en este sistema operativo escrito por IA. El primer intento falló, faltaban controladores de vídeo y teclado. Entonces, ingresó una instrucción de reparación en Antigravity 2.0, y los Agentes comenzaron a complementar automáticamente el código de los controladores. Después de un rato, la pantalla de DOOM apareció en la pantalla, y toda la sala estalló en aplausos.
En resumen, las principales mejoras que trae Antigravity 2.0 incluyen:
-
Los subagentes pueden generarse dinámicamente; el agente principal divide las tareas en subtareas y las asigna, ejecutándose en paralelo sin interferir entre sí;
-
La gestión asincrónica de tareas evita que las operaciones de larga duración bloqueen el hilo principal;
-
Tareas Programadas (Scheduled Tasks) permiten configurar "tareas programadas" para que los Agentes las ejecuten automáticamente, como verificar el estado de los PR una vez al día, ejecutar un script de verificación de salud cada hora.
-
Nuevos comandos con barra diagonal:
/goalpara que el Agente se ejecute de una vez,/grill-mepara que el Agente primero aclare los requisitos antes de actuar,/browserpara controlar explícitamente el uso del navegador.
Sin embargo, estas son capacidades ya probadas internamente. La velocidad a la que Google usa internamente Antigravity para procesar tokens era de 500 mil millones diarios en marzo. Ahora, es de 3 billones diarios. Y esta versión de Flash 12 veces más rápida ya está disponible hoy en Antigravity.
El 3.5 Flash se convierte simultáneamente en el modelo predeterminado para la App Gemini y el Modo AI de la Búsqueda de Google, para todos los usuarios del mundo. Los desarrolladores pueden acceder a través de Antigravity 2.0, la API de Gemini y Google AI Studio. Los usuarios empresariales acceden a través de Gemini Enterprise Agent Platform. Lo más impactante es que el 3.5 Pro ya está en pruebas internas y se lanzará el próximo mes.
Asistente personal 24/7: Finalmente llega Google Spark
El tercer gran lanzamiento de esta noche corresponde a Gemini Spark! La definición de Sundar Pichai para este producto es muy clara: Tu Agente de IA personal. Incluso cuando cierras tu portátil, no se detiene. Funciona en una máquina virtual dedicada en la nube, lo que permite una conexión 24/7.
Gemini Spark está impulsado por Gemini 3.5 + el framework Antigravity, y está profundamente integrado con el "paquete completo" de productividad de Google. El vicepresidente de producto Josh Woodward subió al escenario para demostrar dos escenarios, que llevaron a toda la sala al borde de la locura.
-
El primero es un escenario de trabajo: Introduce una instrucción, "ayúdame a redactar un correo electrónico para el equipo resumiendo toda la información de la semana pasada sobre el lanzamiento de Gemini Live". Spark extrae automáticamente información de Gmail, Docs, registros de chat, y además activa una habilidad (skill) personal llamada "ghostwriter" escrita por Woodward, haciendo que el correo automáticamente coincida con su tono personal. Todo el proceso se completa en segundo plano, el humano solo necesita revisar y enviar. Sí, Spark soporta habilidades personalizadas (skills), que le permiten aprender tu tono, tus preferencias, tu forma de trabajar.
-
El segundo es un escenario de la vida personal: Planificar una fiesta del barrio. Spark, al recibir la tarea, la ejecuta paso a paso. Crea una hoja de cálculo de Google Sheets para rastrear las confirmaciones de asistencia (RSVP), conectada directamente a Gmail, actualizándose automáticamente cuando alguien responde. Para los vecinos que no se han apuntado, Spark redacta automáticamente correos electrónicos de recordatorio, genera borradores y espera confirmación antes de enviarlos. Luego, también genera una presentación en Google Slides para la promoción, incluyendo información sobre poner un castillo inflable en el barrio. Todo esto sin abrir ninguna aplicación.
No solo eso, Spark también posee una potente capacidad de entrada por voz. En el escenario, Woodward sacó su teléfono y simplemente dictó tres tareas: "Encuentra todas las reuniones con Sundar y márcalas en rosa brillante", "Escribe una invitación al nuevo vecino John para unirse a la lista de la fiesta del barrio", "Crea un documento enumerando las cosas que hay que hacer para los niños antes de que termine el año escolar, ordenadas por fecha límite".
La voz se convirtió directamente en instrucciones de texto, y Spark dividió automáticamente un discurso continuo en tres hilos de tareas independientes, ejecutándose en paralelo en segundo plano.
En cuanto a precios, la suscripción AI Ultra de 100 dólares mensuales permite usar la beta de Spark. El plan Ultra máximo bajó de 250 a 200 dólares. Spark estará disponible la próxima semana inicialmente en versión beta para usuarios estadounidenses de AI Ultra.
Esta noche, Google abre la puerta a la ASI
Mirando atrás en este I/O, lo que realmente da escalofríos no es un producto en particular. Es que todas las capacidades estén listas al mismo tiempo.
Comprensión completamente multimodal, generación completamente multimodal, Agente disponible las 24 horas: Google ha encajado las tres piezas del rompecabezas en una sola noche. Omni convierte una frase en un mundo, sin necesidad de que los humanos proporcionen ningún material; 93 Agentes crean un sistema operativo desde cero, sin necesidad de que los humanos escriban una sola línea de código; Spark trabaja por ti 24/7, sin necesidad de que los humanos abran una aplicación.
Cuando la IA ya no necesita que los humanos la "alimenten", sino que entiende, decide, ejecuta e itera por sí misma, el destino de este camino se llama ASI (Superinteligencia Artificial).
Nadie puede dar un cronograma exacto. Pero el Google I/O de esta noche ha hecho que todos se den cuenta de una cosa: en el camino hacia la superinteligencia, ya no existe el obstáculo de "no se puede hacer técnicamente". Lo que queda es solo la velocidad del despliegue de la ingeniería. Hace seis meses todavía debatíamos si la AGI era una burbuja. Medio año después, Google ya está escribiendo sistemas operativos con Agentes. La aceleración de esta industria ya ha superado el rango que la intuición humana puede percibir.
Referencias:
-
https://youtu.be/wYSncx9zLIU
-
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/
-
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
-
https://antigravity.google/blog/introducing-google-antigravity-2-0
-
https://antigravity.google/blog/google-io-2026-feature-deep-dive
Editores: Taozi, Moses







































