Ejecutar Gemma 4 localmente en iPhone se vuelve viral, ¿qué tan lejos está la era de 0 tokens?

marsbitPublicado a 2026-04-06Actualizado a 2026-04-06

Resumen

El nuevo modelo Gemma 4 de Google, con arquitectura similar a Gemini 3, ha sorprendido al poder ejecutarse localmente en dispositivos móviles como iPhone y Samsung Galaxy, alcanzando velocidades de hasta 40 tokens por segundo. Con versiones compactas (E2B y E4B) y una ventana de contexto de 128K, permite procesar texto, imágenes y audio de forma rápida y segura a través de la app oficial Google AI Edge Gallery. Aunque en tareas complejas como agentes de codificación muestra limitaciones, su rendimiento en consultas cotidianas, generación de código y comprensión multimodal es notable. Esto acerca la posibilidad de que tareas simples se realicen offline, reduciendo la dependencia de APIs pagadas. Si bien los modelos nube aún lideran en razonamiento avanzado, el avance de hardware y optimización sugiere que los modelos locales eventualmente competirán en eficiencia, impulsando un cambio en los modelos de negocio de la IA. Gemma 4 es solo el inicio de esta transición.

Redacción de Machine Heart

El nuevo modelo de código abierto de Google, Gemma 4, presentado hace unos días, dio una gran sorpresa a la industria.

Utiliza una arquitectura técnica de la misma fuente que Gemini 3, es compatible con modalidades completas nativas, obtuvo el tercer lugar global en el ranking Arena AI, y hay varios modelos para elegir. Varios modelos más pequeños — E2B (2.3B de parámetros efectivos) y E4B (4.5B de parámetros efectivos) — se pueden implementar y ejecutar localmente en dispositivos móviles, con una ventana de contexto de 128K, lo que podríamos llamar un "reemplazo de Gemini que cabe en el bolsillo".

Como era de esperar, el modelo se convirtió rápidamente en el nuevo juguete de los usuarios de teléfonos.

Entre ellos, una publicación de un usuario de X fue vista cientos de miles de veces. En la publicación, compartió un video mostrando cómo ejecuta Gemma 4 localmente en su iPhone, incluyendo el procesamiento de imágenes, audio y el control del encendido y apagado de la linterna. Mencionó que Gemma 4 es increíblemente rápido, se siente como magia.

Alguien cuantificó esta velocidad en un iPhone 17 Pro, señalando que si el teléfono utiliza un chip Apple, entonces con la ayuda de MLX (el framework de aprendizaje automático de Apple) optimizado para este chip, la velocidad de inferencia del modelo puede superar los 40 tokens por segundo.

También se lograron velocidades similares en un Samsung Galaxy, incluso con el modo de pensamiento activado. Esto hizo que la gente exclamara "demasiado rápido para ser real".

Estas velocidades convierten la ejecución de modelos de IA en dispositivos móviles en una opción viable para el futuro, y son muy útiles en escenarios sensibles como la atención médica.

La ventana de contexto de 128k también hace que estos modelos pequeños sean más atractivos.

¿Y cómo se ejecuta? En realidad, es muy simple, no es exclusivo para geeks, porque Google lanzó una aplicación oficial: Google AI Edge Gallery. Quienes quieran experimentar en sus teléfonos pueden descargar esta aplicación directamente, luego descargar la versión del modelo que deseen ejecutar, y abrirla para comenzar.

Además, al ser un lanzamiento oficial de Google, naturalmente no hay que preocuparse demasiado por la seguridad.

Además de estos modelos pequeños que se ejecutan en dispositivos móviles, algunos han probado versiones más grandes de Gemma 4 en hardware más potente, como ejecutar Gemma 4 Mixture-of-Experts 26B en una MacBook Pro con chip M5 Pro.

Si es para diálogo directo, la velocidad de este modelo sigue siendo rápida, la generación de texto y la explicación de código son fluidas.

Pero cuando realmente usó Gemma 4 como un agente de codificación, surgieron problemas. Porque ejecutar un agente requiere un contexto grande (Gemma 4 26B tiene una ventana de contexto de 256k), prompts complejos y una invocación de herramientas estable. Gemma 4 claramente no pudo soportar esto, a menudo se trababa, generaba errores o producía una estructura de salida incorrecta.

El punto de inflexión ocurrió cuando cambió el modelo a qwen3-coder. En el mismo entorno, la creación de archivos, la ejecución de comandos y las tareas de múltiples pasos funcionaban normalmente. Considera que el problema no está en el framework del agente, sino en si el modelo en sí ha sido optimizado para "invocación de herramientas + salida estructurada". En este aspecto, Gemma 4 podría no haberlo hecho lo suficiente, o quizás este desarrollador aún no ha encontrado la forma correcta de usarlo.

Además, algunos dicen que el nivel intelectual de Gemma 4 todavía es un poco limitado.

Aun así, la aparición de este "pequeño cañón de rendimiento" que es Gemma 4 no debe subestimarse. Si en el futuro una gran cantidad de consultas diarias, chats, razonamientos simples, generación de código y tareas de comprensión de imágenes se pueden ejecutar localmente, sin necesidad de comprar tokens, ¿no estarán en una situación incómoda los fabricantes que venden tokens?

Por supuesto, la situación actual no es tan pesimista, después de todo, todavía existe una brecha entre los modelos de código abierto disponibles y los modelos cerrados de vanguardia, y la mayoría de los modelos de código abierto potentes todavía están limitados por la capacidad del hardware, y temporalmente no pueden alcanzar un nivel utilizable en el edge.

Pero la tendencia futura es clara. A corto plazo, los modelos cerrados en la nube aún lideran en el razonamiento complejo más avanzado y la colaboración a超大规模超大规模 (gran escala) multiagente; pero a largo plazo, a medida que el hardware continúa avanzando y las técnicas de cuantización continúan optimizándose, los modelos en el edge erosionarán gradualmente las tareas simples y de alta frecuencia de la nube.

Aquellos fabricantes que solo dependen de vender tokens, vender suscripciones API, se verán obligados a competir más ferozmente en las partes "realmente difíciles" — Agentes súper potentes, contextos largos y confiables, y capacidades especializadas que requieren cantidades masivas de datos en tiempo real.

Gemma 4 es solo el comienzo. La siguiente sorpresa podría ser que algún modelo en el edge haga que los usuarios no perciban la diferencia entre "local" y "en la nube" en el uso diario. Cuando llegue ese día, todo el modelo comercial de la industria de la IA experimentará una verdadera reestructuración.

Este artículo proviene del WeChat público "Machine Heart" (ID: almosthuman2014), autor: Machine Heart

Criptos en tendencia

Preguntas relacionadas

Q¿Qué es Gemma 4 y por qué ha causado tanto impacto?

AGemma 4 es un nuevo modelo de inteligencia artificial de código abierto de Google, basado en la misma arquitectura técnica que Gemini 3. Es multimodal nativo, ocupa el tercer lugar en el ranking Arena AI y tiene versiones pequeñas (como E2B y E4B) que pueden ejecutarse localmente en teléfonos móviles con una ventana de contexto de 128K, lo que lo convierte en una alternativa portátil a Gemini.

Q¿Cómo de rápido puede funcionar Gemma 4 en un iPhone?

AEn un iPhone 17 Pro con chip Apple y optimizado con el framework de aprendizaje automático MLX, Gemma 4 puede alcanzar velocidades de inferencia superiores a 40 tokens por segundo, lo que se considera sorprendentemente rápido y casi mágico.

Q¿Cómo pueden los usuarios ejecutar Gemma 4 en sus dispositivos móviles?

ALos usuarios pueden descargar la aplicación oficial Google AI Edge Gallery, luego descargar la versión del modelo que deseen ejecutar y abrirla para usarla localmente. Es un proceso sencillo y no está reservado exclusivamente para expertos en tecnología.

Q¿Cuáles son algunas limitaciones de Gemma 4 según las pruebas realizadas?

AAunque Gemma 4 funciona bien en tareas básicas como generación de texto y explicación de código, tiene dificultades en escenarios más complejos, como el uso como agente de codificación con ventanas de contexto grandes (256K), prompts complejos y llamadas a herramientas estables, donde a menudo se bloquea, genera errores o produce salidas mal estructuradas.

Q¿Qué implicaciones podría tener Gemma 4 para el futuro de los modelos de IA y la industria?

AGemma 4 representa el inicio de una tendencia hacia modelos locales que pueden manejar tareas cotidianas sin depender de tokens o APIs en la nube. A largo plazo, esto podría llevar a que los modelos en dispositivos locales reemplacen gradualmente a los servicios en la nube para tareas frecuentes y simples, obligando a los proveedores de servicios en la nube a centrarse en áreas más complejas como agentes avanzados, contextos largos y confiables, y capacidades especializadas que requieren datos en tiempo real.

Lecturas Relacionadas

La CPU regresa a la mesa: comienza un 'ascenso' de 170.000 millones de dólares

El 1 de junio, NVIDIA presentó su primera CPU independiente, Vera, en el GTC Taipei 2026, marcando su entrada directa en este mercado. Simultáneamente, AMD ha duplicado su previsión del tamaño del mercado de CPUs para servidores a más de 1,2 billones de dólares, reflejando el crecimiento explosivo impulsado por la IA. Según UBS, se espera que el mercado de CPUs para servidores alcance unos 170.000 millones de dólares en 2030. El motivo principal de este resurgimiento es la transición de la IA hacia la fase de inferencia y los Agentes Inteligentes (Agentic AI). En este contexto, las CPUs asumen un papel crucial, gestionando hasta el 90% de la latencia en tareas complejas que involucran razonamiento múltiple, llamadas a herramientas externas y gestión de datos. A diferencia del entrenamiento, dominado por las GPUs, los Agentes generan grandes volúmenes de datos intermedios (KV Cache) que superan la capacidad de memoria de las GPUs, trasladándose a la memoria masiva de las CPUs. Esto ha alterado la proporción típica entre GPU y CPU, acercándose a 1:1 en escenarios de Agentes, frente a la proporción anterior de 1:8. Esta mayor demanda ha provocado un aumento de precios del 10%-15% en CPUs de servidor, la primera subida significativa en más de una década, y ha generado escasez de suministro. Se prevé que el mercado se divida en CPUs de alto rendimiento para clústeres de IA (~700.000 millones dólares) y CPUs desplegadas de forma independiente para Agentes (~700.000 millones dólares), un segmento nuevo desde 2026. NVIDIA, con su CPU Vera basada en ARM, apunta a un ratio 1:1 con sus GPUs Rubin. AMD superó a Intel en ingresos por centro de datos en el primer trimestre de 2026. En China, fabricantes como Hygon (arquitectura x86) y Huawei (ARM) se benefician de esta tendencia global y de las políticas de sustitución de importaciones, enfrentándose a una ventana de oportunidad crítica antes de 2027. En resumen, la era de los Agentes de IA ha reposicionado a la CPU como un cuello de botella crítico y un motor de crecimiento clave, donde la capacidad de colaboración entre CPU y GPU será más decisiva que el rendimiento individual de cada chip.

marsbitHace 1 hora(s)

La CPU regresa a la mesa: comienza un 'ascenso' de 170.000 millones de dólares

marsbitHace 1 hora(s)

TechFlow Inteligencia: Director de IA de AMD critica públicamente a Claude Code por "volverse más tonto y perezoso"; Trump anuncia alto al fuego en el estrecho de Ormuz, pero quedan 80 minas sin despejar

Resumen de TechFlow Intelligence: **IA y Tecnología:** - El Director de IA de AMD critica que Claude Code se ha vuelto "más torpe y perezoso". - SK Telecom, socio de Anthropic, bajo escrutinio de control de exportaciones de EE.UU. por posible transferencia de tecnología del modelo Mythos. - Z.AI lanza GLM-5.2, modelo chino que rivaliza con Claude Opus sin usar chips de Nvidia. - 0G Labs supera el hito de 1000 mil millones de tokens en inferencia de IA descentralizada. - DeepSeek genera gran debate en Zhihu por sus nuevas capacidades visuales. - Investigadores del MIT crean su propio sistema operativo para estudiar chips. **Cripto/Web3:** - Bithumb lista el par comercial de ReProtocol (RE) en won coreano. - Upbit elimina el par de KernelDAO (KERNEL). **Semiconductores/Hardware:** - Disputa entre EE.UU. y ASML sobre si máquinas litográficas EUV de última generación han llegado a China. - Amazon negocia la venta externa de sus chips de IA Trainium/Inferentia. - El A21 Pro de Apple usará exclusivamente el proceso N2P de TSMC. **Empresas Tecnológicas:** - Se descubren 10,000 repositorios en GitHub distribuyendo malware. - Apple parcha una vulnerabilidad crítica de escucha en Beats Studio Buds. - Ingenieros de Amazon investigados por criticar la expansión de centros de datos de IA. - Microsoft y Amazon Web Services, posibles objetivos de una estricta regulación antimonopolio de la UE. **Mercados/Macroeconomía:** - Trump afirma que se logró un "alto al fuego total" en el estrecho de Ormuz, pero la asociación de petroleros Intertanko advierte que aún hay unas 80 minas sin despejar en la ruta principal. - Cerca de 80 superpetroleros, cargados con 80 millones de barriles de petróleo, esperan una "señal de seguridad" para navegar. - Irán pospone viaje diplomático a Suiza, ensombreciendo las perspectivas de las conversaciones de paz. - Trump califica el acuerdo con Irán como "rendición incondicional" y afirma tener "poder ilimitado" como presidente. - Sector semiconductores en auge en bolsa: Intel sube un 10.6%, SpaceX cae un 3.5%. **Línea Subyacente:** Mientras la "paz" geopolítica en Ormuz es temporal y frágil (minas, viajes cancelados, petroleros a la espera), la guerra por los chips y la redefinición de las cadenas de suministro tecnológico (como los modelos chinos sin Nvidia o Amazon vendiendo sus chips) avanza de forma más permanente.

marsbitHace 1 hora(s)

TechFlow Inteligencia: Director de IA de AMD critica públicamente a Claude Code por "volverse más tonto y perezoso"; Trump anuncia alto al fuego en el estrecho de Ormuz, pero quedan 80 minas sin despejar

marsbitHace 1 hora(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar 4

¡Bienvenido a HTX.com! Hemos hecho que comprar 4 (4) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar 4 (4) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu 4 (4)Después de comprar tu 4 (4), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear 4 (4)Tradear fácilmente con 4 (4) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

559 Vistas totalesPublicado en 2025.10.20Actualizado en 2026.06.02

Cómo comprar 4

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de 4 (4).

活动图片