Google tue Google avec l'IA : cette keynote vous a donné le souffle coupé

marsbitPublié le 2026-05-20Dernière mise à jour le 2026-05-20

Résumé

Lors du Google I/O, Sundar Pichai a dévoilé des chiffres impressionnants pour Gemini, désormais intégré dans tous les produits Google. La conférence a présenté deux avancées majeures : Gemini Omni, un modèle multimodal visant à devenir un "modèle du monde" capable de générer et d'éditer des vidéos de manière avancée, et Gemini 3.5 Flash, optimisé pour la vitesse et le codage agentique, alimentant l'outil de développement Antigravity 2.0. La recherche Google évolue vers une expérience AI unifiée sous Gemini 3.5, introduisant des agents d'information personnalisables et des interfaces génératives. Le nouvel agent personnel Gemini Spark, fonctionnant en arrière-plan, et la refonte majeure de l'application Gemini avec son design Neural Expressive et son résumé quotidien "Daily Brief" ont également été annoncés. Google a présenté une suite d'outils créatifs (Pics, Stitch, Flow) et de nouvelles lunettes intelligentes audio sous Android XR. La conférence a souligné la transition de Google vers un modèle économique basé sur les abonnements AI, cherchant à monétiser des services d'assistant avancés face aux coûts de calcul élevés du raisonnement par IA.

L'application Gemini dépasse les 900 millions d'utilisateurs actifs mensuels,traite 3200 billions de tokens par mois, et Nano Banana a généré plus de 50 milliards d'images...

Ces chiffres ont été présentés d'emblée par Sundar Pichai, le PDG de Google, lors de la conférence Google I/O qui s'est achevée tôt ce matin.

Au cours de l'année écoulée, l'IA est devenue le thème principal de tous les secteurs, et le rôle de Gemini chez Google a évolué : d'une application unique, il est devenu la capacité d'IA fondamentale la plus importante intégrée dans tous les produits Google.

Cette conférence a également commencé par les modèles, avant d'aborder les produits de développement et d'agent.

Gemini Omni oriente la génération vidéo de Google vers un « modèle mondial », tandis que Gemini 3.5 Flash est, avec les outils de programmation IA, poussé vers une plateforme de développement d'agents.

Ces deux capacités s'intègrent ensuite dans l'écosystème complet de Google : recherche, application Gemini, Flow, Spark, Chrome, lunettes XR et scénarios de commerce électronique.

Gemini Omni fait son apparition, le moment « Nano Banana » arrive pour la vidéo

Le premier point largement développé lors de la conférence a été Gemini Omni. Nous avons réalisé une vidéo comparative avec Seedance 2.0 pour observer les différences.

Google décrit Gemini Omni comme un nouveau modèle capable de « créer tout type de contenu à partir de n'importe quelle entrée ».

Il combine les capacités de raisonnement de Gemini avec les modèles médias génératifs existants de Google, dans le but d'améliorer la compréhension du monde par le modèle, ses capacités de génération multimodale et d'édition.

Google souligne que les modèles comme Veo, Nano Banana, Genie peuvent déjà générer des vidéos, des images et des simulations interactives, mais que Gemini Omni va plus loin, en commençant à traiter des problèmes plus proches du monde physique comme la cinétique ou la gravité.

Un exemple présenté en direct lors de la conférence était une vidéo explicative sur le repliement des protéines. L'utilisateur n'a qu'à saisir une instruction comme « génère une animation en pâte à modeler expliquant le repliement des protéines », et Omni peut transformer un concept scientifique abstrait en contenu vidéo.

Il prend également en charge une édition vidéo plus naturelle. Les utilisateurs peuvent télécharger leur propre vidéo, puis en modifier le style, ajouter des éléments, ajuster les détails de manière conversationnelle, voire transformer un simple cercle en un trou noir, ou une scène de promenade nocturne en un plan plus dramatique.

Google indique que Gemini Omni commence par la vidéo, puis évoluera progressivement vers « n'importe quelle entrée vers n'importe quelle sortie ». C'est aussi la raison pour laquelle Google a toujours conçu Gemini comme un modèle multimodal.

Le premier modèle de la famille Omni, Gemini Omni Flash, est déjà déployé dans les produits Google, tandis que des informations supplémentaires sur Omni Pro seront communiquées ultérieurement. Les fonctionnalités Omni dans l'application Gemini sont également ouvertes aux abonnés Google AI Plus, Pro et Ultra.

Cela signifie que Gemini Omni n'est pas seulement un modèle de génération vidéo. Google souhaite l'inscrire dans le récit du « modèle mondial » : le modèle ne génère pas seulement des images, il doit comprendre les relations physiques, les mouvements et la logique des scènes qu'elles représentent.

Une fois intégré dans des applications comme Gemini App, Google Flow et YouTube Shorts, Omni étendra également les outils de création générative de Google de l'édition d'images à l'édition vidéo.

Gemini 3.5 Flash est disponible, la programmation par IA passe en mode ultra-rapide

Si Gemini Omni correspond à la génération et l'édition, Gemini 3.5 Flash correspond à la vitesse, au coût et à la capacité d'exécution.

Google a présenté Gemini 3.5 Flash lors de la conférence, le décrivant comme l'un des premiers modèles de la série Gemini 3.5, orienté vers le codage agentique, les tâches à long terme et les flux de travail réels.

Par rapport au 3.1 Pro, le 3.5 Flash montre des améliorations significatives dans presque tous les tests de référence, en particulier pour les capacités de codage, ainsi que dans des évaluations plus proches des tâches économiques réelles comme GDPVal.

Outre de bonnes performances aux tests de référence, le 3.5 Flash est 4 fois plus rapide que les autres modèles de pointe en termes de vitesse de sortie des tokens, et après optimisation spécifique dans Antigravity, cette vitesse peut atteindre 12 fois.

Il est intéressant de noter qu'en mars dernier, les tâches de développement internes de Google traitaient environ 500 milliards de tokens par jour, doublant ensuite toutes les quelques semaines, pour dépasser désormais les 3 billions de tokens par jour. Google appelle cela une boucle de rétroaction, utilisant une utilisation réelle à grande échelle pour continuer à améliorer le 3.5 Flash.

Lancé en même temps que le modèle, Antigravity 2.0 passe d'un IDE avec agent intégré à une application de bureau indépendante, se recentrant sur l'agent. L'utilisateur ne se contente plus de faire assister l'IA dans l'éditeur pour écrire du code, mais utilise la conversation avec l'Agent, les productions d'Agent et la collaboration multi-agents pour accomplir des tâches de développement.

Antigravity 2.0 intègre un CLI complet, l'Antigravity SDK, une prise en charge vocale native du modèle audio Gemini, et des services comme Android, Firebase, Google AI Studio. Antigravity 2.0, en tant qu'application de bureau indépendante, est désormais ouverte aux utilisateurs du monde entier.

Google a expliqué la direction d'Antigravity 2.0 avec une démonstration intensive en direct : faire construire un système d'exploitation fonctionnel à partir de zéro par un Agent. Cette tâche a été exécutée en parallèle par 93 sous-agents, pendant 12 heures, initiant plus de 15 000 requêtes modèles, traitant 2,6 milliards de tokens, et générant les modules clés comme l'ordonnanceur, la gestion mémoire, le système de fichiers à partir d'un projet vide.

Google affirme que cela n'aurait pas été possible avec Gemini 3.1 Pro, tandis qu'avec Gemini 3.5 Flash, cela a consommé moins de 1000 dollars de crédits API.

La démonstration en direct a également montré ce système exécutant le programme du petit train SL et Doom. Comme le système manquait initialement de pilotes vidéo et clavier, Antigravity a continué à générer le code correspondant et à corriger les erreurs, permettant à Doom de fonctionner. Google ajoute que des projets comme des suites d'édition photo, des applications de messagerie en temps réel, des plateformes de collaboration multi-utilisateurs ont été testés de manière similaire, réduisant des travaux d'ingénierie de plusieurs jours à quelques heures, voire moins.

Gemini 3.5 Flash est ouvert à tous les utilisateurs, couvrant les produits Google et l'API. Gemini 3.5 Pro est encore en usage et amélioration interne, son ouverture est prévue le mois prochain.

De la barre de recherche à l'agent d'information, Google refait la recherche IA

Après les modèles et les outils de développement, Google s'est concentré sur la recherche. La recherche Google, c'est maintenant la recherche IA.

Google indique que le mode IA dépasse le milliard d'utilisateurs actifs mensuels, et que le volume de requêtes double chaque trimestre depuis son lancement.

À partir d'aujourd'hui, le mode IA passe à Gemini 3.5. La nouvelle barre de recherche intelligente commence également à être déployée le jour même. Elle prend en charge la saisie de texte, d'images, de fichiers et de vidéos, et propose des suggestions d'IA lorsque l'utilisateur saisit une question.

Les Aperçus IA et le mode IA sont également fusionnés en une expérience de recherche IA plus continue. L'utilisateur peut d'abord voir une réponse IA sur la page principale des résultats, puis passer en mode IA pour poser des questions de suivi, le contexte étant préservé. Cette nouvelle expérience de recherche est disponible dès le jour de la conférence sur le bureau et les appareils mobiles dans le monde entier.

Le changement le plus important est l'agent de recherche. Cet été, les utilisateurs pourront créer un agent d'information dans la Recherche pour suivre en permanence un certain type d'informations.

Par exemple, un utilisateur peut lui demander de surveiller les actions de biotechnologie de grande capitalisation avec un ratio cours/bénéfice inférieur à 15, une trésorerie positive et un faible niveau d'endettement ; il peut aussi lui faire suivre à long terme des informations de location, des collaborations de sneakers ou le lancement de nouveaux produits. Lorsque les conditions changent, l'Agent enverra une mise à jour synthétique à l'utilisateur.

Google intègre également les capacités de codage agentique d'Antigravity dans la recherche.

À l'avenir, la recherche ne se contentera plus de renvoyer des pages web, des résumés ou des cartes, elle pourra également générer des interfaces interactives pour des questions spécifiques. Par exemple, si un utilisateur demande « comment un trou noir affecte-t-il l'espace-temps », la Recherche peut générer un composant visuel interactif ; en poursuivant avec « comment deux trous noirs génèrent-ils des ondes gravitationnelles », la Recherche regénérera une interface dynamique avec des paramètres ajustables. L'interface utilisateur générative avec Antigravity sera lancée gratuitement pour tous les utilisateurs cet été.

Des expériences personnalisées plus complexes sont également en route.

Google a présenté en direct un planificateur de week-end : la Recherche combinera des informations comme la météo, les cartes, les préférences de l'utilisateur, Gmail, Calendar, pour générer un petit outil que l'on peut continuer à modifier, partager et synchroniser avec le calendrier. Ce type d'expérience personnalisée sera d'abord ouvert aux abonnés dans les prochains mois.

Fonctionne même éteint, Gemini Spark déplace les capacités d'agent dans la vie personnelle

Le nouveau produit le plus important pour les consommateurs est Gemini Spark.

Gemini Spark est un agent IA personnel, fonctionnant sur une machine virtuelle dédiée dans Google Cloud, capable d'exécuter des tâches 24h/24. Il est alimenté par Gemini 3.5 et Antigravity harness, prenant en charge les tâches de fond de longue durée.

Même après avoir éteint l'ordinateur, Spark peut continuer à travailler. Il s'intègre d'abord aux outils de Google, et dans les prochaines semaines, il s'intégrera à des outils tiers via MCP.

La conférence a montré plusieurs scénarios typiques pour Spark.

Un utilisateur peut lui demander de résumer les lancements et avancées de Gemini Live de la semaine écoulée, d'extraire des informations de Docs, Gmail et des historiques de chat, puis de générer un e-mail d'équipe dans son style d'écriture personnel.

Il peut aussi lui faire gérer une fête de quartier, maintenir une feuille Google Sheets des RSVP, suivre qui apporte quoi, générer un brouillon d'e-mail de rappel pour les voisins non-inscrits, et automatiquement créer une page de présentation Google Slides.

Spark prend également en charge la saisie vocale sur mobile.

Les utilisateurs peuvent énoncer plusieurs tâches en une seule fois, comme marquer toutes les réunions avec Sundar en rose vif, écrire une lettre d'invitation aux nouveaux voisins, créer un document de choses à faire avant la fin de l'année scolaire des enfants. Spark divisera ces demandes en plusieurs tâches indépendantes et les exécutera en arrière-plan, les résultats étant synchronisés entre le téléphone et l'ordinateur.

Gemini Spark est ouvert cette semaine à certains testeurs, et sera lancé en version bêta la semaine prochaine pour les abonnés américains Google AI Ultra.

Google lance également un nouveau plan Ultra à 100 dollars par mois, et abaisse le plan Ultra le plus élevé de 250 à 200 dollars par mois.

Plus tard cet été, Spark entrera dans Chrome, devenant un navigateur agent intelligent capable d'exécuter des tâches dans les pages web.

Refonte majeure de l'application Gemini, et le « briefing matinal IA » de Google

L'application Gemini elle-même a également connu une refonte complète.

Google a introduit un nouveau langage de design Neural Expressive, ajoutant des animations fluides, des couleurs vives, de nouvelles polices et un retour haptique.

La nouvelle version de Gemini App ne présente plus les réponses sous forme de longs paragraphes de texte, mais génère en temps réel une mise en page plus adaptée à la lecture et à l'interaction, incluant des images interactives, des frises chronologiques, des vidéos intégrées, etc. Neural Expressive est désormais déployé mondialement sur Android, iOS et le web.

Gemini Live a également été refait, permettant d'entrer directement dans une conversation en temps réel lorsqu'on l'ouvre. La sélection d'accents régionaux sera proposée dans les prochaines semaines.

L'application Gemini ajoute aussi Daily Brief. C'est un agent de résumé personnalisé pour le matin, qui synthétise les informations de Gmail, Calendar, Tasks, etc., pour organiser les éléments à surveiller dans la journée et fournir des entrées pour les prochaines actions.

Daily Brief est lancé dès aujourd'hui pour les abonnés américains Google AI Plus, Pro et Ultra.

Au-delà du récit plus large de Gemini, Google a également mis à jour plusieurs produits du quotidien.

Google Maps vient de connaître sa plus grande mise à jour en dix ans, et intègre désormais Ask Maps. Il permet aux utilisateurs de poser des questions plus longues et complexes. Par exemple, la conférence a présenté un scénario : un enfant tombe dans un étang à canards, un mariage commence dans 30 minutes, l'utilisateur veut savoir où il peut acheter une nouvelle robe à pied.

Docs reçoit également une nouvelle capacité de création vocale. L'utilisateur n'a pas besoin de saisir des instructions précises, il peut simplement exprimer ses idées à l'oral, demander à Gemini d'extraire un CV de Drive, de trouver des informations sur un événement dans Gmail, puis de générer un brouillon Google Docs. Cette capacité sera lancée cet été pour les abonnés Pro et Ultra, des capacités vocales similaires arriveront également dans Gmail.

Avec l'amélioration des capacités de génération, l'identification des sources de contenu devient de plus en plus importante.

Google déclare que depuis son lancement il y a trois ans, SynthID a ajouté des filigranes invisibles à plus de 100 milliards d'images et vidéos, ainsi qu'à l'équivalent de 60 000 années de contenu audio. Prochainement, SynthID et la vérification des contenus s'étendront à la Recherche et à Chrome.

Les utilisateurs pourront effectuer une recherche par cadre, ou cliquer avec le bouton droit dans Chrome pour demander si un contenu a été généré par IA, le système indiquant si le contenu provient de l'IA, d'une caméra, ou a été édité par des outils d'IA générative.

Google annonce également qu'OpenAI, Kakao et ElevenLabs adopteront SynthID 2. Nvidia avait précédemment rejoint l'écosystème SynthID. Pour Google, SynthID n'est pas seulement une fonctionnalité de sécurité, mais aussi une partie de la lutte pour des standards de transparence du contenu IA.

La suite créative de Google commence à assaillir les images, le design et la vidéo

Dans le domaine des outils créatifs, Google a lancé de manière intensive plusieurs produits majeurs.

Google Pics est un nouveau produit de création et d'édition d'images dans Google Workspace, destiné à des scénarios comme des affiches de fête, des infographies, des visuels promotionnels. Les utilisateurs peuvent partir d'une image de base, supprimer des éléments, redimensionner des objets, éditer et traduire du texte. Le contenu généré par Pics portera un filigrane SynthID. Google Pics sera lancé cet été.

Le produit de design Stitch est également mis à jour. L'utilisateur peut générer une interface de site web ou d'application avec une seule instruction, puis continuer à la modifier par texte ou voix, par exemple pour agrandir un titre, ajuster un menu, mettre en avant plus d'options de pizza. Stitch permet d'exporter le design en code, ou de publier directement le site, les mises à jour correspondantes sont désormais disponibles.

Les mises à jour de Google Flow sont particulièrement remarquées. Une fois Gemini Omni intégré à Flow, les utilisateurs pourront modifier l'environnement d'une vidéo originale, ajouter des effets visuels, intégrer de nouveaux personnages, tout en préservant au maximum la performance d'origine.

Flow ajoute également un nouvel Agent, capable d'exécuter plusieurs actions en une fois. Par exemple, générer 16 vidéos avec des angles de vue différents à partir d'une seule image, ou transformer un ensemble de scènes matinales en scènes nocturnes par lots.

Flow Tools permet aux utilisateurs de créer leurs propres outils créatifs dans Flow, comme des effets vidéo, des animations dessinées à la main et des outils de superposition de texte, avec prise en charge du partage et du remix.

Google Flow Music peut étendre un riff de piano en une démo musicale avec une orientation stylistique. Ces nouvelles fonctionnalités de Google Flow et Google Flow Music sont désormais disponibles.

Parier sur les lunettes intelligentes, Google tente à nouveau la prochaine interface

Dans la partie matériel, Google étend également Android XR, cette plateforme de niveau système d'exploitation, des casques et appareils XR aux lunettes intelligentes.

Android XR est une plateforme développée par Google en collaboration avec Samsung et optimisée pour Qualcomm Snapdragon.

Google indique que les lunettes IA se diviseront en deux catégories : l'une avec de petites lentilles d'affichage, l'autre des lunettes audio. Les lunettes d'affichage avaient été présentées l'année dernière lors de l'I/O, et cette année, les premiers développeurs ont commencé à créer des expériences d'affichage, le programme de testeurs de confiance sera étendu plus tard dans l'année.

Les lunettes audio arriveront plus tôt sur le marché.

Les premières lunettes audio seront lancées cet automne, avec Samsung participant à la construction du matériel et des expériences, et Warby Parker et Gentle Monster en charge de la conception des lunettes. Ces lunettes se connectent au téléphone et prennent en charge Android et iOS. Les réponses de Gemini sont diffusées de manière privée via des écouteurs, et non affichées sur les verres.

Lors de la conférence, le démonstrateur pouvait demander à Gemini, via les lunettes, de le guider vers l'endroit où il avait rencontré des amis la semaine dernière, avec un arrêt café en cours de route ; il pouvait aussi demander à Gemini d'ouvrir DoorDash pour commander automatiquement un café, en attendant la confirmation de l'utilisateur ;

il pouvait également lui demander de résumer les messages silencieux et d'écrire un dîner familial dans le calendrier. Les lunettes peuvent aussi fonctionner avec une montre, permettant à l'utilisateur de prendre une photo sur place, de générer une image cartoonesque avec Nano Banana, puis de la prévisualiser sur la montre.

À la fin de la conférence, les cas d'utilisation de Gemini se sont également étendus à la cybersécurité.

Google a présenté CodeMender. C'est un agent de sécurité du code, capable de détecter et de corriger automatiquement les vulnérabilités critiques des logiciels. Google invitera un groupe d'experts à tester l'API CodeMender, avant de le proposer plus largement.

Dans l'ensemble, la quantité d'informations présentée lors de cette conférence était telle qu'elle en donnait presque le souffle coupé. Mais lorsque ces fonctionnalités IA seront réellement ouvertes à des dizaines, voire des centaines de millions d'utilisateurs, la question la plus concrète se posera directement : Comment Google va-t-il rentabiliser cette énorme dépense en puissance de calcul ?

Au cours des vingt dernières années, Google représentait un modèle typique d'Internet gratuit. Les utilisateurs échangent leur attention et leurs données contre des services, et Google gagne de l'argent grâce à la publicité et la distribution. Ce modèle a fait de Google l'entreprise d'infrastructure la plus puissante de l'ère d'Internet.

Cependant, le coût de l'inférence des grands modèles n'est absolument pas du même ordre de grandeur qu'une simple requête de recherche.

La mémoire contextuelle longue, la génération multimodale, les agents inter-applications, l'automatisation de niveau entreprise, toutes ces capacités nécessitent une consommation de puissance de calcul en fonctionnement continu. Plus l'IA s'approfondit, plus il est difficile pour Google de continuer à absorber les coûts via des « mises à niveau gratuites ».

C'est pourquoi, tout au long de la conférence, Google I/O semblait parler d'améliorations d'expérience, mais pointait en réalité vers des abonnements, des contrats d'entreprise, des factures de calcul et des frais de service à long terme.

Les portes d'entrée gratuites ne disparaîtront bien sûr pas, car elles restent la base pour que Google obtienne des utilisateurs, des données et une position dans l'écosystème. Mais au-dessus de ces portes d'entrée, Google superpose une nouvelle couche de services intelligents : des modèles plus puissants, une mémoire plus longue, des autorisations système plus profondes, une exécution de tâches plus complexes, et des services de niveau entreprise plus stables.

En d'autres termes, Google est en train de passer d'une entreprise de services Internet gratuits à une entreprise d'infrastructure d'abonnement IA.

Mais une question se pose alors : les utilisateurs sont-ils prêts à payer pour la recherche ? En règle générale, non.

Cependant, si c'est un « assistant super polyvalent » qui peut gérer vos e-mails 24h/24, coordonner vos tâches, analyser vos rapports, prendre en charge votre domotique, et même vous aider à coder et développer des applications ? Seriez-vous prêt à dépenser plusieurs dizaines, voire une centaine de dollars par mois pour cela ?

C'est précisément la proposition commerciale centrale que Google I/O de cette année cherche désespérément à valider. Et en regardant le marché actuel en pleine effervescence, la réponse semble déjà aller de soi.

Cet article provient du compte public WeChat « APPSO », auteur : Découvrir les produits de demain

Questions liées

QQuelles sont les principales caractéristiques de Gemini Omni présentées lors du Google I/O ?

AGemini Omni est présenté comme un modèle capable de « créer du contenu à partir de n'importe quelle entrée ». Il combine les capacités de raisonnement de Gemini avec les modèles génératifs multimédia existants de Google pour améliorer la compréhension du monde, la génération multimodale et l'édition. Il se concentre d'abord sur la vidéo (comme la génération d'explications animées ou l'édition conversationnelle) et vise à évoluer vers une approche « entrée quelconque vers sortie quelconque », s'inscrivant dans le récit d'un « modèle du monde ».

QQuels sont les avantages de Gemini 3.5 Flash par rapport aux versions précédentes ?

AGemini 3.5 Flash est présenté comme plus rapide, moins cher et plus performant pour le codage agentique et les tâches longues. Il surpasse Gemini 3.1 Pro dans la plupart des tests, surtout en génération de code. Il génère des tokens jusqu'à 4 fois plus vite que d'autres modèles de pointe (voire 12 fois avec l'optimisation Antigravity). Google l'a utilisé pour qu'un Agent construise un système d'exploitation fonctionnel à un coût inférieur à 1000 dollars de crédits API, une tâche impossible avec la version 3.1 Pro.

QQu'est-ce que Gemini Spark et quelle est sa fonction principale ?

AGemini Spark est un Agent IA personnel qui fonctionne sur des machines virtuelles dédiées dans Google Cloud. Sa caractéristique principale est de pouvoir exécuter des tâches en arrière-plan de manière continue, même lorsque l'ordinateur de l'utilisateur est éteint. Piloté par Gemini 3.5, il peut gérer des tâches complexes comme résumer des informations, organiser des événements ou rédiger des emails en puisant dans les outils Google (et bientôt des outils tiers).

QComment Google intègre-t-il l'IA dans sa fonction de recherche (Search) ?

AGoogle intègre profondément l'IA dans sa recherche : le « AI Mode » utilise désormais Gemini 3.5. La nouvelle expérience fusionne les « AI Overviews » et le « AI Mode » pour une interaction continue. Surtout, Google présente un « Agent d'information » dans Search, permettant aux utilisateurs de créer des agents pour suivre en continu des sujets (comme des actions ou des annonces immobilières). De plus, via Antigravity, la recherche peut générer des interfaces interactives (Generative UI) pour expliquer des concepts complexes.

QQuel défi commercial majeur Google doit-il relever avec le déploiement massif de ces fonctionnalités IA avancées ?

ALe défi majeur est le coût exorbitant de l'inférence des grands modèles de langage, bien supérieur à celui d'une requête de recherche traditionnelle. Pour rentabiliser ces capacités gourmandes en calcul (contexte long, agents, automatisation), Google évolue d'un modèle basé sur la publicité et les services gratuits vers un modèle d'abonnement et de services payants pour les couches d'IA les plus avancées (comme Gemini Spark, les expériences personnalisées). L'enjeu est de convaincre les utilisateurs de payer pour des assistants IA complets plutôt que pour une simple recherche.

Lectures associées

Trois ans plus tard : Retour sur mon jugement de 2023 concernant ChatGPT

Trois ans après ses prédictions sur ChatGPT en mars 2023, Wang Jianshuo revient sur ses vingt affirmations initiales, évaluées en mai 2026 par des agents IA. Sur les vingt points, la majorité des tendances de fond étaient correctes : l'essor du RAG comme architecture dominante pour l'injection de connaissances, le rôle central de l'interface utilisateur en langage naturel (LUI), l'émergence de protocoles pour un "réseau d'agents", et le rattrapage technologique rapide des modèles chinois. Des erreurs notables portent sur des chiffres précis, comme les 100 billions de paramètres supposés de GPT-4 (en réalité environ 1,8 billion) ou une estimation trop basse des coûts de formation des grands modèles. Certaines prévisions se sont révélées trop absolues ("l'IA ne fera jamais de mathématiques pures") ou ont négligé les disparités (aucune vague de chômage massif, mais un impact sévère sur les jeunes diplômés). L'analyse révèle que les intuitions sur les mécanismes et les directions se sont avérées bien plus fiables que les prédictions numériques ou temporelles, souvent trop optimistes à court terme. La prudence dans les formulations et la reconnaissance des incertitudes se sont montrées précieuses avec le recul. Ce bilan offre des leçons pour les futurs pronostics : privilégier les tendances aux chiffres, anticiper les effets distributifs et accepter que certaines questions demandent plus de trois ans pour être tranchées.

marsbitIl y a 7 h

Trois ans plus tard : Retour sur mon jugement de 2023 concernant ChatGPT

marsbitIl y a 7 h

Trois ans plus tard : un retour sur mes prédictions de 2023 concernant ChatGPT

Trois ans après ses prédictions sur le ChatGPT en mars 2023, Wang Jianshuo revient sur ses 20 affirmations initiales. Évaluées en mai 2026 par des agents IA, la plupart de ses intuitions sur les grandes tendances se sont révélées justes : le RAG est devenu l'architecture standard pour intégrer des connaissances, l'Interface Utilisateur en Langage Naturel (LUI) a créé un nouvel écosystème, et les modèles chinois ont presque rattrapé les leaders mondiaux. Des concepts comme les réseaux d'agents et la nature limitée du test de Turing se sont également matérialisés. Cependant, les prévisions quantitatives et les affirmations trop absolues ont souvent échoué. Le paramétrage supposé du GPT-4 (100T) était inexact, et les coûts de développement des modèles ont dépassé les estimations. Il a sous-estimé la vitesse de personnalisation des IA et l'impact distribué sur l'emploi des jeunes. La capture de valeur a surtout bénéficié à la couche matérielle (comme Nvidia), et non aux seules applications. Les leçons clés sont que les mécanismes et les directions sont plus fiables que les chiffres précis, que l'optimisme à court terme doit être tempéré, et que les nuances ("peut-être", "pour l'instant") rendent les prédictions plus robustes. Cette rétrospective souligne l'importance de distinguer les tendances confirmées des questions toujours ouvertes.

链捕手Il y a 10 h

Trois ans plus tard : un retour sur mes prédictions de 2023 concernant ChatGPT

链捕手Il y a 10 h

Du Token à la main-d'œuvre machine : l'IA passe d'outil à « travailleur »

Alors que l'IA écrit du code, traite des tickets clients et révise des documents juridiques, elle ne se contente plus d'être un outil mais devient une source directe de travail. La commercialisation de l'IA évolue ainsi d'un marché de « jetons » (tokens) ou d'heures de GPU vers un nouveau marché : celui de la « main-d'œuvre machine ». Dans ce marché, le jeton n'est qu'une unité de mesure, le GPU un intrant, et le modèle un outil de production. L'objet véritablement tarifé et échangé est le travail économique accompli directement par le logiciel. Le mécanisme de prix de l'IA devrait évoluer des jetons bruts vers des capacités de modèles standardisées, puis vers une main-d'œuvre sectorielle, et enfin vers un marché de résultats programmables. À l'avenir, les entreprises pourraient ne plus se soucier du modèle ou du GPU spécifique utilisé, mais uniquement du fait que la tâche soit livrée dans des délais, avec un taux de précision, une fiabilité et un coût conformes aux standards. Ce changement ne signifie pas un simple remplacement du travail humain. Alors que la machine assume des tâches standardisées et vérifiables, le rôle humain pourrait se déplacer vers la supervision, la responsabilité finale, la gestion du contexte et les jugements critiques. Dans certains cas, les 1% de jugement humain final pourraient gagner en valeur, car ils permettent de débloquer les 99% d'automatisation à grande échelle. Le marché évolue donc vers une couche où le « travail » lui-même devient l'unité stable, standardisée, vérifiable et négociable. La prochaine phase de concurrence ne portera pas seulement sur la puissance des modèles ou le prix du calcul, mais sur la capacité à standardiser, vérifier et tarifer le « travail » accompli, faisant de la main-d'œuvre machine une nouvelle ressource productive que l'on peut acheter, facturer et échanger.

marsbitIl y a 11 h

Du Token à la main-d'œuvre machine : l'IA passe d'outil à « travailleur »

marsbitIl y a 11 h

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

Dans un article intitulé "La réduction de 99% du prix de MiMo de Xiaomi n'est pas du marketing ! Luo Fuli répond aux détracteurs sur X", Luo Fuli, responsable de MiMo, a publié un billet de blog technique de 5000 mots pour expliquer la baisse drastique des prix de l'API MiMo-V2.5. Contrairement aux interprétations initiales d'une guerre des prix ou d'une stratégie de perte, cette réduction de 99% concerne spécifiquement le coût des entrées en cache ("Input Cache Hit"), c'est-à-dire la relecture du contexte historique dans les conversations longues. Le billet détaille six piliers d'ingénierie ayant permis cette réduction : 1. **Architecture Hybride SWA** : Réduction du volume de la mémoire cache (KVCache) à 1/7 grâce à une attention par fenêtre glissante sur 60 des 70 couches du modèle. 2. **Gestion en double pool** : Allocation efficace de la mémoire pour matérialiser les gains théoriques du SWA, multipliant par 5 le nombre d'utilisateurs simultanés par GPU. 3. **Cache de préfixe optimisé** : Augmentation du taux de réussite du cache à 93-95% en moyenne, évitant de recalculer les contextes répétés. 4. **Système de cache distribué GCache** : Stockage des données sur les SSD des machines GPU existantes, réduisant les coûts de stockage additionnels à zéro. 5. **Système de routage LLM-Router** : Optimisation de l'acheminement des requêtes pour maximiser l'utilisation du cache et améliorer les performances. 6. **Prédiction Multi-Token (MTP)** : Accélération de la génération des réponses du modèle, réduisant également les coûts de sortie. Cette chaîne d'optimisations systémiques a réduit le temps GPU par requête d'un ordre de grandeur, permettant une baisse de prix de 99% tout en maintenant une marge positive. Luo Fuli souligne qu'il s'agit d'un accomplissement d'ingénierie validé en production, et non d'une simple manœuvre marketing, offrant une référence pour réduire les coûts dans le secteur de l'IA.

marsbitIl y a 13 h

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

marsbitIl y a 13 h

Trading

Spot
Futures

Articles tendance

Comment acheter PEOPLE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter ConstitutionDAO (PEOPLE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément ConstitutionDAO (PEOPLE).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos ConstitutionDAO (PEOPLE)Après avoir acheté vos ConstitutionDAO (PEOPLE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des ConstitutionDAO (PEOPLE)Tradez facilement ConstitutionDAO (PEOPLE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

544 vues totalesPublié le 2024.12.12Mis à jour le 2025.03.21

Comment acheter PEOPLE

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de PEOPLE (PEOPLE) sont présentées ci-dessous.

活动图片