L'exécution locale de Gemma 4 sur iPhone fait sensation : à quelle distance se trouve l'ère du zéro token ?

marsbitPublié le 2026-04-06Dernière mise à jour le 2026-04-06

Résumé

Le nouveau modèle Gemma 4 de Google, récemment open-source, permet une exécution locale sur smartphone avec des performances remarquables. Les versions allégées (E2B et E4B) offrent une fenêtre contextuelle de 128K et atteignent une vitesse de traitement dépassant 40 tokens par seconde sur iPhone 17 Pro et appareils Android compatibles, grâce à des optimisations logicielles comme MLX d'Apple. Bien que simple à utiliser via l'application officielle Google AI Edge Gallery, Gemma 4 montre des limites dans des tâches complexes comme l'appel d'outils structurés ou le codage agent, où des modèles comme Qwen3-coder restent supérieurs. Malgré une intelligence parfois jugée "limite", sa capacité à traiter localement requêtes, discussions et génération de code ouvre la voie à une réduction de la dépendance aux APIs cloud. Cette avancée annonce un changement de paradigme : les modèles locaux pourraient à terme remplacer les solutions cloud pour les tâches courantes, poussant les fournisseurs de tokens à se concentrer sur des capacités plus avancées comme les agents complexes ou le traitement de données massives. Gemma 4 n'est qu'un début ; la frontière entre local et cloud s'estompera bientôt.

Rédaction de Machine Heart

Le nouveau modèle open source de Google, Gemma 4, a offert une belle surprise au secteur il y a quelques jours.

Il adopte une architecture technologique homologue à celle de Gemini 3, prend en charge le multimodal natif, a obtenu la troisième place mondiale au classement Arena AI, et propose plusieurs modèles. Les plus petits modèles — E2B (2,3 milliards de paramètres effectifs) et E4B (4,5 milliards de paramètres effectifs) — peuvent être déployés et exécutés localement sur un téléphone portable, avec une fenêtre contextuelle atteignant 128K. On peut dire que c'est un « substitutif à Gemini qui tient dans la poche ».

Sans surprise, le modèle est rapidement devenu un nouveau jouet pour les utilisateurs de mobiles.

Un post d'un utilisateur de X a notamment été vu des centaines de milliers de fois. Il y a partagé une vidéo montrant comment il exécutait Gemma 4 localement sur son iPhone, y compris le traitement d'images, d'audio et le contrôle de l'interrupteur de la lampe torche. Il a déclaré que Gemma 4 était incroyablement rapide, comme par magie.

Quelqu'un a quantifié cette vitesse sur un iPhone 17 Pro, indiquant que si le téléphone utilise une puce Apple, alors avec l'aide de MLX (le framework d'apprentissage automatique d'Apple) optimisé pour cette puce, la vitesse d'inférence du modèle peut dépasser 40 tokens par seconde.

D'autres ont également obtenu des vitesses similaires sur un Samsung Galaxy, et ce même avec le mode de réflexion activé. Ce qui pousse à s'exclamer que c'est « trop rapide pour être vrai ».

Une telle vitesse fait de l'exécution de modèles d'IA sur appareil mobile une option viable pour l'avenir, et elle est très utile dans des scénarios sensibles comme la santé.

La fenêtre contextuelle de 128k rend également ces petits modèles plus attractifs.

Alors, comment l'exécuter ? C'est en fait très simple, ce n'est pas réservé aux geeks, car Google a publié une application officielle — Google AI Edge Gallery. Les personnes souhaitant l'expérimenter sur leur téléphone peuvent simplement télécharger cette application, puis télécharger la version du modèle qu'ils souhaitent exécuter, l'ouvrir et c'est parti.

De plus, comme c'est une publication officielle de Google, les problèmes de sécurité ne sont pas vraiment à craindre.

Outre ces petits modèles exécutés sur mobile, certains ont testé des versions plus grandes de Gemma 4 sur du matériel plus puissant, comme l'exécution de Gemma 4 Mixture-of-Experts 26B sur un MacBook Pro version M5 Pro.

Pour une conversation directe, ce modèle est encore rapide, la génération de texte et l'explication de code sont fluides.

Mais lorsqu'il a vraiment utilisé Gemma 4 comme agent de codage, les problèmes sont apparus. Car exécuter un agent nécessite un grand contexte (Gemma 4 26B a une fenêtre contextuelle de 256k), des prompts complexes et des appels d'outils stables. Gemma 4 a clairement du mal à tenir le coup sur ces aspects, plantant souvent, générant des erreurs, ou produisant une structure de sortie incorrecte.

Le point de basculement est survenu lorsqu'il a remplacé le modèle par qwen3-coder. Dans le même environnement, la création de fichiers, l'exécution de commandes et les tâches à plusieurs étapes fonctionnaient normalement. Il estime que le problème ne vient pas du framework d'agent, mais du modèle lui-même et de son éventuelle optimisation pour les « appels d'outils + sortie structurée ». Sur ce point, Gemma 4 n'est peut-être pas encore assez abouti, ou peut-être que ce développeur n'a tout simplement pas encore trouvé la bonne méthode.

De plus, certains disent que le niveau intellectuel de Gemma 4 est encore un peu limité.

Malgré cela, l'émergence de Gemma 4, cette « petite bombe de performances », ne doit pas être sous-estimée. Si à l'avenir, une grande partie des requêtes quotidiennes, des discussions, des raisonnements simples, de la génération de code et des tâches de compréhension d'images peuvent être exécutées localement, sans avoir à acheter de tokens, les vendeurs de tokens ne se retrouveraient-ils pas dans une position délicate ?

Bien sûr, la situation actuelle n'est pas encore si pessimiste, car il existe encore un écart entre les modèles open source disponibles et les modèles propriétaires de pointe, et la plupart des modèles open source performants sont encore limités par les capacités matérielles, ne pouvant temporairement pas atteindre un niveau utilisable sur les appareils.

Mais la tendance future est claire. À court terme, les modèles propriétaires cloud conservent leur avance sur le raisonnement complexe de pointe et la collaboration multi-agents à très grande échelle ; mais à long terme, avec la progression du matériel et l'optimisation continue des techniques de quantification, les modèles on-device grignoteront progressivement les tâches simples et fréquentes du cloud.

Les acteurs qui ne vivent que de la vente de tokens et d'abonnements API devront se concentrer plus intensément sur les parties « vraiment difficiles » — les agents ultra-puissants, les contextes longs et fiables, et les capacités spécialisées nécessitant des données massives en temps réel.

Gemma 4 n'est qu'un début. La prochaine surprise pourrait bien être qu'un modèle on-device rende l'utilisateur totalement incapable de sentir la différence entre « local » et « cloud » lors d'une utilisation quotidienne. Le jour où cela arrivera, l'ensemble du modèle économique de l'industrie de l'IA connaîtra un véritable bouleversement.

Cet article provient du compte WeChat officiel « Machine Heart » (ID: almosthuman2014), auteur : Machine Heart

Questions liées

QQu'est-ce que Gemma 4 et pourquoi est-il considéré comme une surprise dans l'industrie ?

AGemma 4 est un nouveau modèle open-source de Google, basé sur la même architecture technique que Gemini 3. Il prend en charge le multimodal natif, se classe troisième au classement Arena AI et propose plusieurs modèles, dont des versions plus petites conçues pour fonctionner localement sur les téléphones. Il est considéré comme une surprise en raison de ses performances élevées et de son accessibilité sur les appareils mobiles.

QQuelle est la vitesse de traitement de Gemma 4 sur un iPhone 17 Pro avec la puce Apple ?

ASur un iPhone 17 Pro équipé d'une puce Apple et optimisé avec MLX (le framework d'apprentissage automatique d'Apple), la vitesse d'inférence de Gemma 4 peut dépasser 40 tokens par seconde.

QComment peut-on exécuter Gemma 4 localement sur un téléphone mobile ?

APour exécuter Gemma 4 localement sur un téléphone, les utilisateurs peuvent télécharger l'application officielle Google AI Edge Gallery, puis télécharger la version du modèle qu'ils souhaitent exécuter. Une fois installé, le modèle peut être exécuté directement depuis l'application.

QQuelles sont les limitations de Gemma 4 lorsqu'il est utilisé comme agent de codage ?

ALorsqu'il est utilisé comme agent de codage, Gemma 4 rencontre des problèmes avec les grands contextes (fenêtre contextuelle de 256k pour la version 26B), les invites complexes et les appels d'outils stables. Il a tendance à planter, à générer des erreurs ou à produire des structures de sortie incorrectes, contrairement à d'autres modèles comme qwen3-coder qui fonctionnent mieux dans ces scénarios.

QQuel impact Gemma 4 pourrait-il avoir sur l'avenir des modèles d'IA et les entreprises qui vendent des tokens ?

AGemma 4 pourrait permettre à de nombreuses tâches quotidiennes (requêtes, discussions, raisonnements simples, génération de code, compréhension d'images) d'être exécutées localement sans avoir à acheter des tokens. Cela pourrait menacer les entreprises qui dépendent de la vente de tokens ou d'abonnements API, les obligeant à se concentrer sur des capacités plus avancées comme les agents ultra-performants, les contextes longs et fiables, et les compétences spécialisées nécessitant des données massives en temps réel.

Lectures associées

Claude Code lance des workflows dynamiques : faire en sorte que l'IA apprenne à travailler en équipe

Claude Code introduit des flux de travail dynamiques, permettant à l'IA de créer des cadres d'exécution sur mesure pour des tâches complexes. Ces workflows coordonnent plusieurs agents Claude indépendants, chacun avec son propre contexte, pour décomposer les missions, traiter en parallèle, valider de manière antagoniste et synthétiser les résultats. Cette approche vise à résoudre des problèmes courants des modèles linguistiques sur de longues tâches : la paresse agentique (arrêt prématuré), le biais d'auto-préférence (favoriser ses propres conclusions) et la dérive d'objectifs. Les flux de travail dynamiques s'appliquent au-delà du code, pour la recherche approfondie, la vérification des faits, le tri de CV, l'enquête sur les causes profondes, le brainstorming de noms ou l'examen de plans d'affaires. L'article présente des modèles pratiques comme la classification et l'exécution, l'éventail et la synthèse, la validation antagoniste, les tournois et les boucles jusqu'à l'achèvement. Il souligne que les workflows, bien que consommant généralement plus de jetons, ne sont pas une solution universelle mais représentent une direction importante : la future concurrence des outils d'IA pourrait reposer sur leur capacité à orchestrer des processus d'exécution fiables et réutilisables pour des objectifs complexes.

marsbitIl y a 14 mins

Claude Code lance des workflows dynamiques : faire en sorte que l'IA apprenne à travailler en équipe

marsbitIl y a 14 mins

Hyperliquid, le dépanneur de Wall Street ouvert 24h/24

Le samedi de février où son téléphone a annoncé les frappes aériennes de Trump contre l'Iran, Vala Zeinali, trader dans un fonds spéculatif, s'est immédiatement rendu sur Hyperliquid. Cette plateforme de trading décentralisée, ouverte 24h/24 et 7j/7, est devenue un repaire pour les traders de Wall Street cherchant à anticiper les marchés hors des heures d'ouverture. Zeinali y a clôturé des positions sur le pétrole pour un gain de 243%. Fondée il y a trois ans par Jeff Yan, ancien trader quantitatif, Hyperliquid répond au besoin de garder le contrôle de ses actifs, renforcé après la chute de FTX. Avec seulement 11 employés, la plateforme et sa blockchain ont généré environ 8 milliards de dollars de revenus l'an dernier. Son jeton natif, HYPE, a vu sa valeur exploser. Hyperliquid symbolise la fusion entre la finance traditionnelle et les cryptos, proposant des contrats perpétuels sur des actifs variés : Bitcoin, S&P 500, pétrole, ou même des entreprises non cotées comme SpaceX. Bien que les utilisateurs américains soient officiellement interdits, beaucoup contournent la restriction via des VPN, attirés par l'interface simple, la diversité des produits et l'absence de vérification d'identité rigoureuse. La plateforme cultive une forte communauté. Les utilisateurs interagissent directement avec l'équipe sur Discord et animent l'espace en ligne avec le mème "Hypurr". Cependant, les contrats perpétuels, avec leur effet de levier, sont très risqués. Lors d'un krach en octobre dernier, les liquidations sur Hyperliquid ont atteint 10 milliards de dollars, révélant à la fois les risques et la robustesse technique de la plateforme qui est restée opérationnelle. L'objectif ultime d'Hyperliquid est d'héberger toute activité financière. La plateforme prévoit maintenant de s'étendre aux marchés de prédiction et aux options.

marsbitIl y a 16 mins

Hyperliquid, le dépanneur de Wall Street ouvert 24h/24

marsbitIl y a 16 mins

Strategy vend 32 bitcoins, un véritable revirement de stratégie ?

L’entreprise MicroStrategy a vendu 32 bitcoins (BTC) entre le 26 et le 31 mai, réalisant environ 2,5 millions de dollars. Cette vente, représentant seulement 0,004 % de ses réserves totales (214 400 BTC), a été officialisée dans un dépôt 8-K distinct, une première pour la société. Le marché a initialement interprété cette opération comme un signal négatif, faisant temporairement chuter le prix du BTC sous 72 000 $. Cependant, l'analyse suggère qu'il s'agit moins d'un changement de conviction que d'une démonstration stratégique de sa structure financière. L'objectif principal est de rassurer les agences de notation et les analystes de crédit. En vendant une infime partie de ses bitcoins pour honorer les distributions de ses actions privilégiées permanentes (STRC), MicroStrategy montre sa volonté et sa capacité à monétiser une fraction de ses réserves pour protéger ses instruments de financement prioritaires. Cette démarche vise à renforcer la crédibilité de ses outils d'emprunt, comme l'a souligné l'analyste Mark Moss. Cette action fait suite aux avertissements de S&P Global concernant les échéances de dette à venir à partir de 2028. En traitant proactivement cette « muraille de dette » – notamment via le rachat de 1,5 milliard de dollars de convertibles fin mai – et en démontrant sa discipline financière, MicroStrategy se positionne pour sécuriser de futures levées de fonds. Le fondateur Michael Saylor a lui-même évoqué la logique : vendre un bitcoin aujourd'hui pourrait permettre d'en racheter 10 à 20 demain. Ainsi, loin d'affaiblir sa stratégie, cette vente symbolique vise à consolider sa position pour continuer à accumuler des bitcoins à plus long terme.

marsbitIl y a 35 mins

Strategy vend 32 bitcoins, un véritable revirement de stratégie ?

marsbitIl y a 35 mins

Le fonds de la "Reine d'Internet" mène un tour de table, valorisant la licorne de l'IA musicale à 5,4 milliards de dollars

La société de tête du secteur de la génération musicale par IA, Suno, a annoncé mercredi une levée de fonds de série D de 400 millions de dollars, portant sa valorisation post-investissement à 5,4 milliards de dollars. Ce tour de table a été mené par Bond Capital, fondé par "la reine d'Internet" Mary Meeker. Seulement sept mois après un précédent financement évaluant Suno à 24,5 milliards de dollars, ce doublement de valorisation témoigne de l'optimisme des investisseurs pour le secteur "IA + musique", faisant de Suno l'entreprise la mieux valorisée du domaine. Suno, un outil populaire sur des plateformes comme YouTube et Bilibili, permet aux utilisateurs de créer de la musique à partir de zéro via des invites textuelles, en spécifiant style, instruments et paroles. L'entreprise compte désormais plus de 2 millions d'abonnés et s'oriente vers un chiffre d'affaires annuel récurrent (ARR) de 300 millions de dollars. L'évolution de Suno reflète aussi un changement d'attitude de l'industrie musicale traditionnelle. Après avoir été poursuivi pour violation de droits d'auteur par les trois grands labels en 2024, Suno a conclu un accord avec Warner Music fin 2023, obtenant une licence et planifiant un outil collaboratif. Pour justifier sa valorisation croissante, Suno vise à la fois les professionnels et les amateurs. L'entreprise, qui emploie environ 200 personnes, prévoit d'augmenter ses effectifs de 70 % d'ici fin 2024, afin d'accélérer le recrutement, de développer de nouveaux produits et de poursuivre sa forte croissance.

marsbitIl y a 37 mins

Le fonds de la "Reine d'Internet" mène un tour de table, valorisant la licorne de l'IA musicale à 5,4 milliards de dollars

marsbitIl y a 37 mins

Qui finance les agents ?

En mars, OpenAI a fermé une fonctionnalité permettant à des agents IA d’effectuer des achats pour les utilisateurs, mettant en lumière les défis de gouvernance dans l’économie des agents IA. Bien que les infrastructures de paiement existent, le manque de règles claires concernant les achats autorisés, la fraude, les retours ou la fiscalité entrave l’adoption. Les transactions d’agents IA représentent actuellement des montants modestes (moyenne de 0,31 $), rendant les frais de traitement traditionnels prohibitifs. Cela favorise l’émergence de solutions basées sur la blockchain et les stablecoins pour la couche de règlement. La véritable valeur se situe cependant au niveau de la gouvernance : contrôle des dépenses, vérification d’identité, politiques d’exécution et gestion des risques. Des acteurs comme Stripe (via l’acquisition de Privy) et Coinbase (avec x402 et Base) construisent des piles technologiques verticales intégrant portefeuilles, règlement et règles de gouvernance. D’après McKinsey, le volume des transactions commerciales par agents IA pourrait atteindre 3 000 à 5 000 milliards de dollars d’ici 2030. La maîtrise de la couche de gouvernance, qui permet de monétiser la confiance et le contrôle, pourrait générer des revenus annuels de l’ordre de plusieurs milliards de dollars, dépassant potentiellement les revenus actuels de certaines grandes plateformes. La course à la domination passe par l’intégration verticale sur l’ensemble de la pile de paiement des agents.

marsbitIl y a 42 mins

Qui finance les agents ?

marsbitIl y a 42 mins

Trading

Spot
Futures

Articles tendance

Comment acheter 4

Bienvenue sur HTX.com ! Nous vous permettons d'acheter 4 (4) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément 4 (4).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos 4 (4)Après avoir acheté vos 4 (4), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des 4 (4)Tradez facilement 4 (4) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

425 vues totalesPublié le 2025.10.20Mis à jour le 2026.06.02

Comment acheter 4

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de 4 (4) sont présentées ci-dessous.

活动图片