Ejecutar Gemma 4 localmente en iPhone se vuelve viral, ¿qué tan lejos está la era de 0 tokens?
El nuevo modelo Gemma 4 de Google, con arquitectura similar a Gemini 3, ha sorprendido al poder ejecutarse localmente en dispositivos móviles como iPhone y Samsung Galaxy, alcanzando velocidades de hasta 40 tokens por segundo. Con versiones compactas (E2B y E4B) y una ventana de contexto de 128K, permite procesar texto, imágenes y audio de forma rápida y segura a través de la app oficial Google AI Edge Gallery.
Aunque en tareas complejas como agentes de codificación muestra limitaciones, su rendimiento en consultas cotidianas, generación de código y comprensión multimodal es notable. Esto acerca la posibilidad de que tareas simples se realicen offline, reduciendo la dependencia de APIs pagadas.
Si bien los modelos nube aún lideran en razonamiento avanzado, el avance de hardware y optimización sugiere que los modelos locales eventualmente competirán en eficiencia, impulsando un cambio en los modelos de negocio de la IA. Gemma 4 es solo el inicio de esta transición.
marsbit04/06 05:57