Ejecutar Gemma 4 localmente en iPhone se vuelve viral, ¿qué tan lejos está la era de 0 tokens?

marsbitPublicado a 2026-04-06Actualizado a 2026-04-06

Resumen

El nuevo modelo Gemma 4 de Google, con arquitectura similar a Gemini 3, ha sorprendido al poder ejecutarse localmente en dispositivos móviles como iPhone y Samsung Galaxy, alcanzando velocidades de hasta 40 tokens por segundo. Con versiones compactas (E2B y E4B) y una ventana de contexto de 128K, permite procesar texto, imágenes y audio de forma rápida y segura a través de la app oficial Google AI Edge Gallery. Aunque en tareas complejas como agentes de codificación muestra limitaciones, su rendimiento en consultas cotidianas, generación de código y comprensión multimodal es notable. Esto acerca la posibilidad de que tareas simples se realicen offline, reduciendo la dependencia de APIs pagadas. Si bien los modelos nube aún lideran en razonamiento avanzado, el avance de hardware y optimización sugiere que los modelos locales eventualmente competirán en eficiencia, impulsando un cambio en los modelos de negocio de la IA. Gemma 4 es solo el inicio de esta transición.

Redacción de Machine Heart

El nuevo modelo de código abierto de Google, Gemma 4, presentado hace unos días, dio una gran sorpresa a la industria.

Utiliza una arquitectura técnica de la misma fuente que Gemini 3, es compatible con modalidades completas nativas, obtuvo el tercer lugar global en el ranking Arena AI, y hay varios modelos para elegir. Varios modelos más pequeños — E2B (2.3B de parámetros efectivos) y E4B (4.5B de parámetros efectivos) — se pueden implementar y ejecutar localmente en dispositivos móviles, con una ventana de contexto de 128K, lo que podríamos llamar un "reemplazo de Gemini que cabe en el bolsillo".

Como era de esperar, el modelo se convirtió rápidamente en el nuevo juguete de los usuarios de teléfonos.

Entre ellos, una publicación de un usuario de X fue vista cientos de miles de veces. En la publicación, compartió un video mostrando cómo ejecuta Gemma 4 localmente en su iPhone, incluyendo el procesamiento de imágenes, audio y el control del encendido y apagado de la linterna. Mencionó que Gemma 4 es increíblemente rápido, se siente como magia.

Alguien cuantificó esta velocidad en un iPhone 17 Pro, señalando que si el teléfono utiliza un chip Apple, entonces con la ayuda de MLX (el framework de aprendizaje automático de Apple) optimizado para este chip, la velocidad de inferencia del modelo puede superar los 40 tokens por segundo.

También se lograron velocidades similares en un Samsung Galaxy, incluso con el modo de pensamiento activado. Esto hizo que la gente exclamara "demasiado rápido para ser real".

Estas velocidades convierten la ejecución de modelos de IA en dispositivos móviles en una opción viable para el futuro, y son muy útiles en escenarios sensibles como la atención médica.

La ventana de contexto de 128k también hace que estos modelos pequeños sean más atractivos.

¿Y cómo se ejecuta? En realidad, es muy simple, no es exclusivo para geeks, porque Google lanzó una aplicación oficial: Google AI Edge Gallery. Quienes quieran experimentar en sus teléfonos pueden descargar esta aplicación directamente, luego descargar la versión del modelo que deseen ejecutar, y abrirla para comenzar.

Además, al ser un lanzamiento oficial de Google, naturalmente no hay que preocuparse demasiado por la seguridad.

Además de estos modelos pequeños que se ejecutan en dispositivos móviles, algunos han probado versiones más grandes de Gemma 4 en hardware más potente, como ejecutar Gemma 4 Mixture-of-Experts 26B en una MacBook Pro con chip M5 Pro.

Si es para diálogo directo, la velocidad de este modelo sigue siendo rápida, la generación de texto y la explicación de código son fluidas.

Pero cuando realmente usó Gemma 4 como un agente de codificación, surgieron problemas. Porque ejecutar un agente requiere un contexto grande (Gemma 4 26B tiene una ventana de contexto de 256k), prompts complejos y una invocación de herramientas estable. Gemma 4 claramente no pudo soportar esto, a menudo se trababa, generaba errores o producía una estructura de salida incorrecta.

El punto de inflexión ocurrió cuando cambió el modelo a qwen3-coder. En el mismo entorno, la creación de archivos, la ejecución de comandos y las tareas de múltiples pasos funcionaban normalmente. Considera que el problema no está en el framework del agente, sino en si el modelo en sí ha sido optimizado para "invocación de herramientas + salida estructurada". En este aspecto, Gemma 4 podría no haberlo hecho lo suficiente, o quizás este desarrollador aún no ha encontrado la forma correcta de usarlo.

Además, algunos dicen que el nivel intelectual de Gemma 4 todavía es un poco limitado.

Aun así, la aparición de este "pequeño cañón de rendimiento" que es Gemma 4 no debe subestimarse. Si en el futuro una gran cantidad de consultas diarias, chats, razonamientos simples, generación de código y tareas de comprensión de imágenes se pueden ejecutar localmente, sin necesidad de comprar tokens, ¿no estarán en una situación incómoda los fabricantes que venden tokens?

Por supuesto, la situación actual no es tan pesimista, después de todo, todavía existe una brecha entre los modelos de código abierto disponibles y los modelos cerrados de vanguardia, y la mayoría de los modelos de código abierto potentes todavía están limitados por la capacidad del hardware, y temporalmente no pueden alcanzar un nivel utilizable en el edge.

Pero la tendencia futura es clara. A corto plazo, los modelos cerrados en la nube aún lideran en el razonamiento complejo más avanzado y la colaboración a超大规模超大规模 (gran escala) multiagente; pero a largo plazo, a medida que el hardware continúa avanzando y las técnicas de cuantización continúan optimizándose, los modelos en el edge erosionarán gradualmente las tareas simples y de alta frecuencia de la nube.

Aquellos fabricantes que solo dependen de vender tokens, vender suscripciones API, se verán obligados a competir más ferozmente en las partes "realmente difíciles" — Agentes súper potentes, contextos largos y confiables, y capacidades especializadas que requieren cantidades masivas de datos en tiempo real.

Gemma 4 es solo el comienzo. La siguiente sorpresa podría ser que algún modelo en el edge haga que los usuarios no perciban la diferencia entre "local" y "en la nube" en el uso diario. Cuando llegue ese día, todo el modelo comercial de la industria de la IA experimentará una verdadera reestructuración.

Este artículo proviene del WeChat público "Machine Heart" (ID: almosthuman2014), autor: Machine Heart

Preguntas relacionadas

Q¿Qué es Gemma 4 y por qué ha causado tanto impacto?

AGemma 4 es un nuevo modelo de inteligencia artificial de código abierto de Google, basado en la misma arquitectura técnica que Gemini 3. Es multimodal nativo, ocupa el tercer lugar en el ranking Arena AI y tiene versiones pequeñas (como E2B y E4B) que pueden ejecutarse localmente en teléfonos móviles con una ventana de contexto de 128K, lo que lo convierte en una alternativa portátil a Gemini.

Q¿Cómo de rápido puede funcionar Gemma 4 en un iPhone?

AEn un iPhone 17 Pro con chip Apple y optimizado con el framework de aprendizaje automático MLX, Gemma 4 puede alcanzar velocidades de inferencia superiores a 40 tokens por segundo, lo que se considera sorprendentemente rápido y casi mágico.

Q¿Cómo pueden los usuarios ejecutar Gemma 4 en sus dispositivos móviles?

ALos usuarios pueden descargar la aplicación oficial Google AI Edge Gallery, luego descargar la versión del modelo que deseen ejecutar y abrirla para usarla localmente. Es un proceso sencillo y no está reservado exclusivamente para expertos en tecnología.

Q¿Cuáles son algunas limitaciones de Gemma 4 según las pruebas realizadas?

AAunque Gemma 4 funciona bien en tareas básicas como generación de texto y explicación de código, tiene dificultades en escenarios más complejos, como el uso como agente de codificación con ventanas de contexto grandes (256K), prompts complejos y llamadas a herramientas estables, donde a menudo se bloquea, genera errores o produce salidas mal estructuradas.

Q¿Qué implicaciones podría tener Gemma 4 para el futuro de los modelos de IA y la industria?

AGemma 4 representa el inicio de una tendencia hacia modelos locales que pueden manejar tareas cotidianas sin depender de tokens o APIs en la nube. A largo plazo, esto podría llevar a que los modelos en dispositivos locales reemplacen gradualmente a los servicios en la nube para tareas frecuentes y simples, obligando a los proveedores de servicios en la nube a centrarse en áreas más complejas como agentes avanzados, contextos largos y confiables, y capacidades especializadas que requieren datos en tiempo real.

Lecturas Relacionadas

El Movimiento de Ripple hacia la Privacidad: Cómo una Reorganización del Libro Mayor de XRP Afectará a la Red

El director de tecnología emérito de Ripple, David Schwartz, analizó cómo la red XRP Ledger (XRPL) podría responder ante una posible presión o ataque por parte de un actor estatal, como un régimen autoritario. Aunque reconoció que tales actores podrían causar interrupciones temporales, destacó que el daño a largo plazo sería limitado si la comunidad mantiene una respuesta activa. Schwartz explicó que, en caso de un ataque serio, el XRPL podría reorganizarse alrededor de una estructura de validadores más resistente. Propuso un posible modelo de consenso de dos capas: una capa interna para la operación diaria, con validadores fácilmente reemplazables si son atacados, y una capa externa que solo intervendría para modificar la lista de nodos únicos (UNL). Esta capa externa sería más ligera, operaría de forma intermitente y podría utilizar servicios de anonimización como Tor o I2P, lo que dificultaría su objetivo. Enfatizó que, dado que los validadores de Ripple representan menos del 20% de la red, un ataque concentrado en su infraestructura no comprometería el conjunto total de validadores. La supervivencia del XRPL dependería de la capacidad de la red para reemplazar operadores comprometidos, y solo sería crítica si los actores hostiles lograran disuadir por completo la ejecución de validadores.

bitcoinistHace 1 hora(s)

El Movimiento de Ripple hacia la Privacidad: Cómo una Reorganización del Libro Mayor de XRP Afectará a la Red

bitcoinistHace 1 hora(s)

Revisión de mitad de año de Fidelity: las 6 tendencias clave de los activos digitales para 2026

Repaso interanual de Fidelity: los 6 grandes temas para los activos digitales en 2026 A mitad de año, el panorama de los activos digitales en 2026 presenta un equilibrio entre las presiones a corto plazo y los avances estructurales a largo plazo. 1. **Integración acelerada con los mercados de capitales**: La fusión con los mercados tradicionales avanza, incluso más rápido de lo esperado en áreas como los ETPs de Bitcoin al contado y la tokenización. La claridad regulatoria también está aumentando. 2. **Derechos de los poseedores de tokens**: Se están probando mecanismos como recompras y nuevas estructuras de gobernanza, pero una "prima por derechos" aún no se refleja plenamente en los precios del mercado. 3. **IA y posible cambio en la minería**: El crecimiento del hashrate de Bitcoin se ha desacelerado, posiblemente debido a que los mineros reasignan energía e infraestructura hacia la rentable demanda de computación para IA. 4. **Bitcoin en un nuevo punto de inflexión**: El aumento del límite de datos para OP_RETURN no ha sobrecargado la red. La atención se centra ahora en la dinámica de los nodos (posible actividad Sybil en Knots) y en las mejoras de seguridad a largo plazo frente a la computación cuántica. 5. **Los bajistas controlan temporalmente**: El escenario bajista ha predominado, con Bitcoin cayendo un 13% debido a la desapalancamiento y la incertidumbre macro. Sin embargo, los fundamentos estructurales positivos, como la adopción institucional, persisten. 6. **El oro se mantiene fuerte**: El oro ha tenido un rendimiento sólido, respaldado por la demanda de los bancos centrales y las tendencias de desdolarización. El rendimiento posterior esperado de Bitcoin aún no se ha materializado. En conclusión, para los inversores, es clave mirar más allá de la volatilidad de precios a corto plazo y centrarse en cómo se están consolidando estos cambios estructurales subyacentes.

marsbitHace 3 hora(s)

Revisión de mitad de año de Fidelity: las 6 tendencias clave de los activos digitales para 2026

marsbitHace 3 hora(s)

Fidelity realiza un balance interanual: 6 tendencias clave para los activos digitales en 2026

Revisión de mitad de año de Fidelity: 6 tendencias clave sobre activos digitales para 2026 A mitad de año, el panorama de los activos digitales equilibra las presiones a corto plazo con avances estructurales. Varias tendencias clave avanzan según lo previsto, mientras que otras aún están en desarrollo. 1. **Integración acelerada con los mercados de capital**: Se mantiene la demanda de exposición a activos digitales a través de canales financieros tradicionales. Los contratos de opciones sobre ETF de Bitcoin al contango rivalizan con las opciones nativas, mostrando una mayor adopción institucional. El sector del tokenización gana fuerza con más productos de inversión basados en blockchain. El marco regulatorio en EE.UU. se aclara. 2. **Derechos de los tenedores de tokens**: Aunque continúan los experimentos en el ecosistema (como recompra de tokens y reestructuraciones de gobernanza), aún no se observa una "prima" clara en los precios del mercado por los derechos de los tenedores. La tendencia avanza, pero está en etapa temprana. 3. **IA y posible cambio en la minería**: La competencia por recursos energéticos de la IA parece estar ralentizando el crecimiento de la tasa de hash de Bitcoin, ya que algunos mineros podrían estar reasignando infraestructura hacia actividades más rentables. El crecimiento del hash ha sido más lento que en años anteriores. 4. **Bitcoin en un nuevo punto de inflexión**: El aumento del límite de datos en OP_RETURN no ha causado una expansión significativa de la cadena de bloques. La atención se centra en dinámicas de red más amplias, como la fluctuación en los nodos Bitcoin Knots, que presenta un riesgo de división bajo pero no nulo. Avanzan las investigaciones sobre actualizaciones de seguridad a largo plazo (post-cuánticas). 5. **Los bajistas controlan temporalmente**: El escenario bajista ha predominado en 2026, con Bitcoin cayendo un 13% debido a desapalancamiento e incertidumbre macroeconómica. Sin embargo, los fundamentos estructurales positivos (adopción institucional, claridad regulatoria) persisten. Bitcoin mostró cierta resiliencia como activo neutral durante tensiones geopolíticas recientes. 6. **El oro mantiene fuerza**: El rendimiento del oro, apoyado por la demanda de los bancos centrales y las tendencias de desdolarización, ha sido sólido, alineándose con las expectativas. La posible superación posterior de Bitcoin prevista aún no se ha materializado. **Conclusión**: Los cimientos para la próxima fase de crecimiento se están fortaleciendo bajo la superficie, a pesar de la volatilidad a corto plazo. Los inversores deben observar estos cambios estructurales en formación.

链捕手Hace 3 hora(s)

Fidelity realiza un balance interanual: 6 tendencias clave para los activos digitales en 2026

链捕手Hace 3 hora(s)

La crisis de la mediana edad de los GP de Crypto: Sin PMF, no hay el próximo cheque de los LP

**Crisis de la mediana edad de los GP de cripto: Sin PMF, no hay próximo cheque de los LP** Los inversores institucionales (LP) ya no compran sueños; los gestores de fondos (GP) deben vender productos concretos. El mercado de cripto ha pasado de la fase de "comprar una visión futura" a la de "comprar un producto específico". Los LP han perdido la paciencia y la confianza tras el ciclo anterior, donde muchos no obtuvieron rendimientos excesivos y la narrativa del "próximo ciclo" se desvaneció. Para sobrevivir, la mayoría de los GP de cripto deben demostrar un "Product-Market Fit" (PMF), ya sea encontrando un nicho donde puedan generar alfa (rendimientos superiores) o resolviendo problemas específicos para los LP. El acceso a la beta (exposición general al mercado) ahora es fácil mediante ETF, ETPs u otros productos líquidos, reduciendo el valor de los fondos de capital riesgo (VC) cripto de "grupo ciego" (blind pool). Las razones tradicionales para invertir en VC cripto se han debilitado: acceso al sector, acceso a acuerdos (deals), juicio superior de los GP y capacidad de "construir la mesa" (networking/exit). Solo los fondos muy grandes con capital paciente (como endowments), family offices, o aquellos que demostraron récords excepcionales en este ciclo, pueden mantenerse en la mesa principal (primary market). Los demás deben reconstruir la confianza desde cero en un nicho específico.

marsbitHace 4 hora(s)

La crisis de la mediana edad de los GP de Crypto: Sin PMF, no hay el próximo cheque de los LP

marsbitHace 4 hora(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar 4

¡Bienvenido a HTX.com! Hemos hecho que comprar 4 (4) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar 4 (4) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu 4 (4)Después de comprar tu 4 (4), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear 4 (4)Tradear fácilmente con 4 (4) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

537 Vistas totalesPublicado en 2025.10.20Actualizado en 2026.06.01

Cómo comprar 4

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de 4 (4).

活动图片