Ejecutar Gemma 4 localmente en iPhone se vuelve viral, ¿qué tan lejos está la era de 0 tokens?

marsbitPublicado a 2026-04-06Actualizado a 2026-04-06

Resumen

El nuevo modelo Gemma 4 de Google, con arquitectura similar a Gemini 3, ha sorprendido al poder ejecutarse localmente en dispositivos móviles como iPhone y Samsung Galaxy, alcanzando velocidades de hasta 40 tokens por segundo. Con versiones compactas (E2B y E4B) y una ventana de contexto de 128K, permite procesar texto, imágenes y audio de forma rápida y segura a través de la app oficial Google AI Edge Gallery. Aunque en tareas complejas como agentes de codificación muestra limitaciones, su rendimiento en consultas cotidianas, generación de código y comprensión multimodal es notable. Esto acerca la posibilidad de que tareas simples se realicen offline, reduciendo la dependencia de APIs pagadas. Si bien los modelos nube aún lideran en razonamiento avanzado, el avance de hardware y optimización sugiere que los modelos locales eventualmente competirán en eficiencia, impulsando un cambio en los modelos de negocio de la IA. Gemma 4 es solo el inicio de esta transición.

Redacción de Machine Heart

El nuevo modelo de código abierto de Google, Gemma 4, presentado hace unos días, dio una gran sorpresa a la industria.

Utiliza una arquitectura técnica de la misma fuente que Gemini 3, es compatible con modalidades completas nativas, obtuvo el tercer lugar global en el ranking Arena AI, y hay varios modelos para elegir. Varios modelos más pequeños — E2B (2.3B de parámetros efectivos) y E4B (4.5B de parámetros efectivos) — se pueden implementar y ejecutar localmente en dispositivos móviles, con una ventana de contexto de 128K, lo que podríamos llamar un "reemplazo de Gemini que cabe en el bolsillo".

Como era de esperar, el modelo se convirtió rápidamente en el nuevo juguete de los usuarios de teléfonos.

Entre ellos, una publicación de un usuario de X fue vista cientos de miles de veces. En la publicación, compartió un video mostrando cómo ejecuta Gemma 4 localmente en su iPhone, incluyendo el procesamiento de imágenes, audio y el control del encendido y apagado de la linterna. Mencionó que Gemma 4 es increíblemente rápido, se siente como magia.

Alguien cuantificó esta velocidad en un iPhone 17 Pro, señalando que si el teléfono utiliza un chip Apple, entonces con la ayuda de MLX (el framework de aprendizaje automático de Apple) optimizado para este chip, la velocidad de inferencia del modelo puede superar los 40 tokens por segundo.

También se lograron velocidades similares en un Samsung Galaxy, incluso con el modo de pensamiento activado. Esto hizo que la gente exclamara "demasiado rápido para ser real".

Estas velocidades convierten la ejecución de modelos de IA en dispositivos móviles en una opción viable para el futuro, y son muy útiles en escenarios sensibles como la atención médica.

La ventana de contexto de 128k también hace que estos modelos pequeños sean más atractivos.

¿Y cómo se ejecuta? En realidad, es muy simple, no es exclusivo para geeks, porque Google lanzó una aplicación oficial: Google AI Edge Gallery. Quienes quieran experimentar en sus teléfonos pueden descargar esta aplicación directamente, luego descargar la versión del modelo que deseen ejecutar, y abrirla para comenzar.

Además, al ser un lanzamiento oficial de Google, naturalmente no hay que preocuparse demasiado por la seguridad.

Además de estos modelos pequeños que se ejecutan en dispositivos móviles, algunos han probado versiones más grandes de Gemma 4 en hardware más potente, como ejecutar Gemma 4 Mixture-of-Experts 26B en una MacBook Pro con chip M5 Pro.

Si es para diálogo directo, la velocidad de este modelo sigue siendo rápida, la generación de texto y la explicación de código son fluidas.

Pero cuando realmente usó Gemma 4 como un agente de codificación, surgieron problemas. Porque ejecutar un agente requiere un contexto grande (Gemma 4 26B tiene una ventana de contexto de 256k), prompts complejos y una invocación de herramientas estable. Gemma 4 claramente no pudo soportar esto, a menudo se trababa, generaba errores o producía una estructura de salida incorrecta.

El punto de inflexión ocurrió cuando cambió el modelo a qwen3-coder. En el mismo entorno, la creación de archivos, la ejecución de comandos y las tareas de múltiples pasos funcionaban normalmente. Considera que el problema no está en el framework del agente, sino en si el modelo en sí ha sido optimizado para "invocación de herramientas + salida estructurada". En este aspecto, Gemma 4 podría no haberlo hecho lo suficiente, o quizás este desarrollador aún no ha encontrado la forma correcta de usarlo.

Además, algunos dicen que el nivel intelectual de Gemma 4 todavía es un poco limitado.

Aun así, la aparición de este "pequeño cañón de rendimiento" que es Gemma 4 no debe subestimarse. Si en el futuro una gran cantidad de consultas diarias, chats, razonamientos simples, generación de código y tareas de comprensión de imágenes se pueden ejecutar localmente, sin necesidad de comprar tokens, ¿no estarán en una situación incómoda los fabricantes que venden tokens?

Por supuesto, la situación actual no es tan pesimista, después de todo, todavía existe una brecha entre los modelos de código abierto disponibles y los modelos cerrados de vanguardia, y la mayoría de los modelos de código abierto potentes todavía están limitados por la capacidad del hardware, y temporalmente no pueden alcanzar un nivel utilizable en el edge.

Pero la tendencia futura es clara. A corto plazo, los modelos cerrados en la nube aún lideran en el razonamiento complejo más avanzado y la colaboración a超大规模超大规模 (gran escala) multiagente; pero a largo plazo, a medida que el hardware continúa avanzando y las técnicas de cuantización continúan optimizándose, los modelos en el edge erosionarán gradualmente las tareas simples y de alta frecuencia de la nube.

Aquellos fabricantes que solo dependen de vender tokens, vender suscripciones API, se verán obligados a competir más ferozmente en las partes "realmente difíciles" — Agentes súper potentes, contextos largos y confiables, y capacidades especializadas que requieren cantidades masivas de datos en tiempo real.

Gemma 4 es solo el comienzo. La siguiente sorpresa podría ser que algún modelo en el edge haga que los usuarios no perciban la diferencia entre "local" y "en la nube" en el uso diario. Cuando llegue ese día, todo el modelo comercial de la industria de la IA experimentará una verdadera reestructuración.

Este artículo proviene del WeChat público "Machine Heart" (ID: almosthuman2014), autor: Machine Heart

Preguntas relacionadas

Q¿Qué es Gemma 4 y por qué ha causado tanto impacto?

AGemma 4 es un nuevo modelo de inteligencia artificial de código abierto de Google, basado en la misma arquitectura técnica que Gemini 3. Es multimodal nativo, ocupa el tercer lugar en el ranking Arena AI y tiene versiones pequeñas (como E2B y E4B) que pueden ejecutarse localmente en teléfonos móviles con una ventana de contexto de 128K, lo que lo convierte en una alternativa portátil a Gemini.

Q¿Cómo de rápido puede funcionar Gemma 4 en un iPhone?

AEn un iPhone 17 Pro con chip Apple y optimizado con el framework de aprendizaje automático MLX, Gemma 4 puede alcanzar velocidades de inferencia superiores a 40 tokens por segundo, lo que se considera sorprendentemente rápido y casi mágico.

Q¿Cómo pueden los usuarios ejecutar Gemma 4 en sus dispositivos móviles?

ALos usuarios pueden descargar la aplicación oficial Google AI Edge Gallery, luego descargar la versión del modelo que deseen ejecutar y abrirla para usarla localmente. Es un proceso sencillo y no está reservado exclusivamente para expertos en tecnología.

Q¿Cuáles son algunas limitaciones de Gemma 4 según las pruebas realizadas?

AAunque Gemma 4 funciona bien en tareas básicas como generación de texto y explicación de código, tiene dificultades en escenarios más complejos, como el uso como agente de codificación con ventanas de contexto grandes (256K), prompts complejos y llamadas a herramientas estables, donde a menudo se bloquea, genera errores o produce salidas mal estructuradas.

Q¿Qué implicaciones podría tener Gemma 4 para el futuro de los modelos de IA y la industria?

AGemma 4 representa el inicio de una tendencia hacia modelos locales que pueden manejar tareas cotidianas sin depender de tokens o APIs en la nube. A largo plazo, esto podría llevar a que los modelos en dispositivos locales reemplacen gradualmente a los servicios en la nube para tareas frecuentes y simples, obligando a los proveedores de servicios en la nube a centrarse en áreas más complejas como agentes avanzados, contextos largos y confiables, y capacidades especializadas que requieren datos en tiempo real.

Lecturas Relacionadas

Google y Amazon invierten simultáneamente en un competidor: la lógica empresarial más absurda de la era de la IA se está haciendo realidad

En 4 días, Amazon y Google invirtieron 65.000 millones de dólares en Anthropic, la startup de IA detrás del modelo Claude. Aunque son competidores directos en la nube, ambos apuestan por la misma empresa. La razón: no se trata de una inversión tradicional, sino de un acuerdo de prepago de capacidad computacional. Anthropic debe gastar el dinero en los servicios en la nube y chips de sus inversores, con compromisos que superan los 100.000 millones en AWS y 5 gigavatios de potencia en Google Cloud. El mercado de la nube ha cambiado: ahora las empresas eligen proveedores según los modelos de IA disponibles, no solo por precio o estabilidad. Con Microsoft vinculado a OpenAI, Anthropic se convirtió en el único activo estratégico disponible para Google y Amazon. Su ingreso anual recurrente (ARR) alcanzó 30.000 millones de dólares, confirmando su posición en el mercado empresarial. Pero hay riesgos: Anthropic podría perder independencia al tener dos competidores como accionistas, su narrativa de seguridad se ve presionada tras controversias con Claude Mythos, y su futura salida a bolsa plantea dudas sobre su sostenibilidad. A diferencia de EE.UU., donde predominan los modelos cerrados, China ve un camino alternativo con compañías como DeepSeek y su modelo de código abierto, aunque persisten dinámicas de cerradura entre nube y modelo. La inversión de Alibaba y Tencent en DeepSeek parece más una apuesta estratégica que un acuerdo de prepago de capacidad. En resumen, los 65.000 millones no son una apuesta por el valor de Anthropic, sino una entrada al juego de la IA para no quedarse atrás.

marsbitHace 2 hora(s)

Google y Amazon invierten simultáneamente en un competidor: la lógica empresarial más absurda de la era de la IA se está haciendo realidad

marsbitHace 2 hora(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar 4

¡Bienvenido a HTX.com! Hemos hecho que comprar 4 (4) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar 4 (4) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu 4 (4)Después de comprar tu 4 (4), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear 4 (4)Tradear fácilmente con 4 (4) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

490 Vistas totalesPublicado en 2025.10.20Actualizado en 2025.10.20

Cómo comprar 4

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de 4 (4).

活动图片