6 Changements de Paradigme de l'IA en 2025 : Du RLVR au Vibe Coding en passant par la Nano banana

marsbitPublié le 2025-12-22Dernière mise à jour le 2025-12-22

Résumé

En 2025, l'évolution des grands modèles de langage (LLM) a connu plusieurs transformations majeures. Andrej Karpathy met en avant six changements de paradigme notables : 1. Le **RLVR (Renforcement Learning with Verifiable Rewards)** a remplacé le RLHF comme méthode centrale d’entraînement, optimisant les modèles via des récompenses automatisées (ex: mathématiques, code), favorisant un raisonnement étape par étape. 2. La distinction entre **l’intelligence « fantôme » des LLM** et l’intelligence biologique : les modèles présentent des capacités en dents de scie — excellents dans certains domaines, mais fragiles dans d’autres. 3. **Cursor** incarne une nouvelle catégorie d’applications LLM verticales, organisant plusieurs appels de modèles et offrant des interfaces adaptées à des métiers spécifiques. 4. **Claude Code** fonctionne localement, s’intègre aux environnements privés et démontre comment un agent LLM peut résoudre des problèmes complexes en utilisant des outils avec persistance. 5. Le **Vibe Coding** (programmation intuitive) permet de créer des logiciels par simple description en langage naturel, démocratisant la programmation et accélérant le prototypage. 6. **Nano banana** de Google esquisse l’avenir des interfaces graphiques pour LLM, combinant texte, images et connaissances pour une interaction plus visuelle et humaine. Ces avancées redéfinissent les capacités des LLM, leur déploiement et leur interaction avec les utilisateurs.

Auteur : Andrej Karpathy

Compilation : Tim, PANews

2025 a été une année de développement rapide et de changements pour les grands modèles de langage (LLM), avec des résultats fructueux. Voici ce que je considère personnellement comme des « changements de paradigme » dignes d'intérêt et quelque peu surprenants, qui ont modifié le paysage et m'ont, au moins sur le plan conceptuel, impressionné.

1. Apprentissage par Renforcement basé sur des Récompenses Vérifiables (RLVR)

Début 2025, la pile de production des LLM dans tous les laboratoires d'IA ressemblait grosso modo à ceci :

Pré-entraînement (GPT-2/3 de 2020) ;
Micro-ajustement supervisé (InstructGPT de 2022) ;
et l'Apprentissage par Renforcement basé sur les Retours Humains (RLHF, 2022).

Pendant longtemps, cela a été une pile technologique stable et mature pour entraîner des LLM de qualité production. En 2025, l'Apprentissage par Renforcement basé sur des Récompenses Vérifiables (RLVR) est devenu une technologie centrale largement adoptée. En entraînant les LLM dans des environnements où les récompenses peuvent être automatiquement vérifiées (par exemple, la résolution de problèmes mathématiques ou de programmation), ces modèles développent spontanément des stratégies que les humains perçoivent comme de la « raisonnement ». Ils apprennent à décomposer la résolution de problèmes en étapes de calcul intermédiaires et maîtrisent diverses stratégies pour résoudre les problèmes par essais et vérifications (voir les exemples dans l'article DeepSeek-R1). Dans l'ancienne pile, ces stratégies étaient difficiles à réaliser car le chemin de raisonnement optimal et les mécanismes de rétroaction n'étaient pas évidents pour les LLM ; ils devaient explorer leurs propres solutions via l'optimisation des récompenses.

Contrairement aux phases de micro-ajustement supervisé et de RLHF (qui sont relativement courtes et nécessitent moins de calculs), le RLVR implique un long entraînement d'optimisation sur des fonctions de récompense objectives et non « trichables ». Il s'est avéré que l'exécution du RLVR apporte des gains significatifs en capacités par unité de coût, consommant massivement les ressources de calcul initialement prévues pour le pré-entraînement. Ainsi, les progrès des capacités des LLM en 2025 se sont principalement manifestés par la digestion par les grands labos d'IA de cette énorme demande de calcul. Globalement, nous avons des modèles de taille similaire, mais avec un temps d'entraînement par renforcement considérablement allongé. Un autre aspect unique de cette nouvelle technologie est l'obtention d'un tout nouveau degré de contrôle (et des lois d'échelle correspondantes), où la capacité du modèle est contrôlée en fonction du calcul au moment du test en générant des traces de raisonnement plus longues, en augmentant le « temps de réflexion ». Le modèle o1 d'OpenAI (fin 2024) a été la première démonstration d'un modèle RLVR, et la sortie d'o3 (début 2025) a été un tournant évident, offrant un saut qualitatif palpable.

2. Intelligence Fantôme vs. Intelligence Animale en Dents de Scie

2025 m'a fait comprendre (et je pense à toute l'industrie) pour la première fois de manière plus intuitive la « forme » de l'intelligence des LLM. Nous ne « faisons pas évoluer ou élever un animal », nous « invoquons un fantôme ». Toute la pile technique des LLM (architecture neuronale, données d'entraînement, algorithmes d'entraînement, et surtout les objectifs d'optimisation) est radicalement différente, il n'est donc pas surprenant que nous obtenions des entités très différentes de l'intelligence biologique, et il est inapproprié de les voir à travers le prisme animal. D'un point de vue informationnel supervisé, les réseaux neuronaux humains sont optimisés pour la survie tribale dans un environnement de jungle, tandis que les réseaux neuronaux des LLM sont optimisés pour imiter le texte humain, obtenir des récompenses sur des puzzles mathématiques, et gagner des « likes » humains dans des arènes. Alors que les domaines vérifiables permettent le RLVR, les capacités des LLM près de ces domaines « augmentent par à-coups », présentant globalement une caractéristique de performance intéressante et en dents de scie. Ils peuvent être à la fois des génies érudits et des écoliers perplexes et cognitivement difficiles, prêts à divulguer vos données sous un prompt d'injection.

Intelligence humaine : bleu, Intelligence IA : rouge. J'aime cette version du meme (désolé, je ne retrouve pas le post original sur Twitter) car elle souligne que l'intelligence humaine est aussi, à sa manière, une vague en dents de scie.

En rapport avec cela, en 2025, j'ai développé une indifférence et une méfiance généralisées envers les benchmarks. Le problème central est que les benchmarks sont par nature des environnements presque toujours vérifiables, et donc extrêmement sensibles au RLVR et aux formes plus faibles de génération de données synthétiques. Dans le processus typique de « maximisation du score », les équipes LLM construisent inévitablement des environnements d'entraînement près des petits sous-espaces embarqués des benchmarks, et les couvrent avec des « dents de scie » de capacités. « S'entraîner sur l'ensemble de test » est devenu la nouvelle norme.

Balayer tous les benchmarks mais toujours ne pas atteindre l'AGI, et alors ?

3. Cursor : Un Nouveau Niveau d'Application LLM

Ce qui m'a le plus impressionné avec Cursor (outre son ascension rapide cette année), c'est qu'il a révélé de manière convaincante un nouveau niveau d'« application LLM », car les gens ont commencé à parler du « Cursor du domaine XX ». Comme je l'ai souligné dans mon discours à Y Combinator cette année, des applications LLM comme Cursor consistent essentiellement à intégrer et orchestrer des appels LLM pour un domaine vertical spécifique :

Elles s'occupent de l'« ingénierie du contexte » ;
Orchestrent en sous-main plusieurs appels LLM en graphes acycliques dirigés de plus en plus complexes, équilibrant finement performance et coût ;
Fournissent une interface graphique spécifique à l'application pour le personnel « dans la boucle » ;
Et offrent un « curseur d'autonomie ».

En 2025, il y a eu beaucoup de discussions sur l'espace de développement autour de cette nouvelle couche applicative. Les plateformes LLM vont-elles tout manger, ou reste-t-il de la place pour les applications LLM ? Je suppose personnellement que le positionnement des plateformes LLM se rapprochera de celui de « diplômés universitaires généralistes », tandis que les applications LLM seront chargées d'organiser ces « diplômés », de les affiner, et de les rendre opérationnels dans des domaines verticaux spécifiques en fournissant des données privées, des capteurs, des actionneurs et des boucles de feedback.

4. Claude Code : l'IA Fonctionnant en Local

L'émergence de Claude Code a démontré pour la première fois de manière convaincante la forme que peuvent prendre les agents LLM, combinant de manière itérative l'utilisation d'outils et le processus de raisonnement pour permettre une résolution de problèmes complexes plus persistante. De plus, ce qui m'a impressionné avec Claude Code, c'est qu'il fonctionne sur l'ordinateur personnel de l'utilisateur, intégré profondément avec son environnement, ses données et son contexte privés. Je pense qu'OpenAI s'est trompé dans son approche ici, car ils ont concentré le développement d'assistants de code et d'agents sur un déploiement dans le cloud, c'est-à-dire des environnements conteneurisés orchestrés par ChatGPT, plutôt que sur l'environnement local (localhost). Bien que les clusters d'agents fonctionnant dans le cloud semblent être la « forme ultime vers l'AGI », nous sommes actuellement dans une phase de transition où les capacités sont inégales et les progrès relativement lents. Dans ces conditions, déployer des agents directement sur l'ordinateur local, en étroite collaboration avec le développeur et son environnement de travail spécifique, est une voie plus raisonnable. Claude Code a saisi cette priorité et l'a emballée dans une forme élégante et convaincante d'outil en ligne de commande, redéfinissant ainsi la façon dont l'IA est présentée. Ce n'est plus juste un site web comme Google à visiter, mais un petit esprit ou fantôme qui « habite » votre ordinateur. C'est une nouvelle façon unique d'interagir avec l'IA.

5. Vibe Coding (Programmation à l'Ambiance)

En 2025, l'IA a franchi un seuil de capacité critique, permettant de construire toutes sortes de programmes étonnants simplement en les décrivant en anglais, sans que les gens n'aient à se soucier du code sous-jacent. Fait intéressant, j'avais inventé le terme « Vibe Coding » dans un tweet improvisé sous la douche, sans imaginer qu'il prendrait une telle ampleur. Dans le paradigme du Vibe Coding, la programmation n'est plus strictement réservée à des professionnels hautement formés, mais devient accessible à tous. De ce point de vue, c'est un autre exemple du phénomène que j'ai décrit dans « Empowering Humans : How LLMs Change the Pattern of Technology Diffusion ». Contrairement à toutes les autres technologies jusqu'à présent, les personnes ordinaires bénéficient plus des LLM que les professionnels, les entreprises ou les gouvernements. Mais le Vibe Coding n'autonomise pas seulement les gens ordinaires pour coder, il permet aussi aux développeurs professionnels d'écrire plus de logiciels qui « n'auraient jamais été réalisés ». En développant nanochat, j'ai utilisé le Vibe Coding pour écrire un tokenizer BPE personnalisé et efficace en Rust, sans dépendre de bibliothèques existantes ou d'un apprentissage approfondi de Rust. Cette année, j'ai aussi rapidement prototypé plusieurs projets via le Vibe Coding juste pour vérifier si certaines idées étaient viables. J'ai même écrit des applications entières jetables pour localiser un bug spécifique, car le code est soudainement devenu gratuit, éphémère, malléable et jetable. Le Vibe Coding remodelera l'écosystème du développement logiciel et redéfinira profondément les frontières des carrières.

6. Nano banana : L'Interface Graphique des LLM

Le Gemini Nano banana de Google a été l'un des changements de paradigme les plus disruptifs de 2025. À mon avis, les LLM sont le prochain grand paradigme informatique après l'informatique des années 1970-80. Par conséquent, nous verrons des innovations similaires pour des raisons fondamentales analogues, semblables à l'évolution de l'informatique personnelle, des microcontrôleurs et même d'Internet. En particulier dans l'interaction homme-machine, le mode actuel de « conversation » avec les LLM est, dans une certaine mesure, similaire à la saisie de commandes dans un terminal informatique dans les années 1980. Le texte est la représentation de données la plus brute pour les ordinateurs (et les LLM), mais ce n'est pas le mode préféré des humains (surtout pour la saisie). Les humains détestent en fait lire du texte, c'est lent et laborieux. Au contraire, les humains préfèrent recevoir des informations par des dimensions visuelles et spatiales, ce qui a conduit à la naissance de l'interface utilisateur graphique dans l'informatique traditionnelle. De même, les LLM devraient communiquer avec nous sous la forme que les humains préfèrent, via des images, des infographies, des diapositives, des tableaux blancs, des animations, des vidéos, des applications web, etc. Les premières formes actuelles le font déjà via des émoticônes et des « décorations de texte visuelles » comme le Markdown (titres, gras, listes, tableaux, etc.). Mais qui va réellement construire l'interface graphique des LLM ? De ce point de vue, nano banana est une première ébauche de cette vision future. Il est important de noter que la percée de nano banana ne réside pas seulement dans sa capacité de génération d'images, mais dans la capacité combinée de la génération de texte, de la génération d'images et des connaissances mondiales entrelacées dans les poids du modèle.

Questions liées

QQu'est-ce que le RLVR (Apprentissage par Renforcement basé sur Récompenses Vérifiables) et en quoi diffère-t-il du RLHF ?

ALe RLVR (Reinforcement Learning with Verifiable Rewards) est une méthode d'entraînement où les modèles linguistiques sont optimisés via des récompenses automatiquement vérifiables (ex: résolution de problèmes mathématiques ou de programmation). Contrairement au RLHF (Reinforcement Learning from Human Feedback), qui repose sur des préférences humaines subjectives, le RLVR utilise des fonctions de récompense objectives et non exploitables, permettant aux modèles de développer des stratégies de raisonnement complexes et de généralisation.

QComment Cursor représente-t-il une nouvelle catégorie d'applications LLM ?

ACursor incarne une nouvelle catégorie d'applications LLM en se spécialisant dans l'ingénierie contextuelle, l'orchestration d'appels LLM via des graphes acycliques, et l'intégration d'interfaces graphiques spécifiques. Il agit comme un 'chef d'orchestre' pour les LLM, les transformant en équipes spécialisées pour des domaines verticaux, plutôt que de simplement fournir un accès générique aux modèles.

QQu'est-ce que le 'Vibe Coding' et comment change-t-il le paysage du développement logiciel ?

ALe 'Vibe Coding' (programmation intuitive) désigne la capacité à créer des programmes complexes via des descriptions en langage naturel, sans écrire de code manuel. Il démocratise la programmation en permettant à des non-spécialistes de développer des logiciels et aide les développeurs à prototyper rapidement, rendant le code 'gratuit, éphémère et jetable', ce qui redéfinit les frontières professionnelles dans le développement logiciel.

QPourquoi Claude Code est-il considéré comme une innovation majeure dans l'exécution locale des IA ?

AClaude Code permet à un agent IA de fonctionner localement sur l'ordinateur de l'utilisateur, s'intégrant profondément à son environnement privé et à ses données. Contrairement aux approches cloud (comme ChatGPT), il offre une collaboration directe et contextuelle, transformant l'IA en un 'esprit résidant localement' plutôt qu'un service distant, ce qui est crucial dans une phase de transition vers des agents plus autonomes.

QEn quoi nano banana de Google représente-t-il l'avenir des interfaces utilisateur pour les LLM ?

Anano banana introduit une interface visuelle pour les LLM, combinant génération de texte, d'images et de connaissances mondiales. Il dépasse le simple dialogue textuel en privilégiant des supports visuels (diagrammes, animations, applications web), similaires à l'évolution des interfaces graphiques en informatique traditionnelle, pour mieux s'adapter aux préférences humaines de traitement de l'information.

Lectures associées

Polymarket coincé : le véritable examen après avoir profité de l'effet de flux est arrivé

Polymarket, la principale plateforme de marchés prédictifs, fait face à de sérieux problèmes de performance et de latence qui dégradent l'expérience utilisateur. L'équipe, dirigée par le vice-président de l'ingénierie DeFi Josh Stevens, a reconnu que sa croissance a dépassé la capacité de son infrastructure actuelle, basée sur Polygon. La solution envisagée est une migration de la chaîne de base ("chain migration") et une refonte complète du système, notamment la reconstruction du carnet d'ordres (CLOB V2). L'objectif est d'obtenir plus d'espace bloc, des frais de gaz réduits et des temps de bloc plus rapides pour supporter une activité de trading plus fréquente et complexe, incluant bientôt des produits dérivés perpétuels ("Perps"). Cette annonce a déclenché une compétition entre plusieurs blockchains (Solana, Sui, Algorand, etc.) qui cherchent à accueillir Polymarket, un acteur majeur générant des revenus substantiels en frais. Pour Polygon, le départ potentiel de Polymarket représenterait une perte significative. Le véritable défi pour Polymarket n'est plus de prouver la demande pour son marché, mais de construire une infrastructure stable et fiable capable de retenir les utilisateurs et de supporter un trading intensif.

Odaily星球日报Il y a 15 h

Polymarket coincé : le véritable examen après avoir profité de l'effet de flux est arrivé

Odaily星球日报Il y a 15 h

Le principal obstacle à la nomination de Warsh à la présidence de la Fed le 15 mai est levé après le « revirement » d'un sénateur clé

L'obstacle clé à la nomination de Kevin Warsh comme président de la Fed a été levé après que le sénateur républicain Thom Tillis a retiré son opposition. Tillis, membre influent de la commission bancaire du Sénat, a justifié sa décision par la clôture de l'enquête criminelle visant le président sortant Jerome Powell, garantissant selon lui l'indépendance de la Fed. Le vote en commission est prévu le 29 avril, avec une confirmation finale attendue vers le 15 mai, date à laquelle le mandat de Powell expire. Warsh, largement soutenu par les républicains, prévoit des réformes majeures incluant l'abolition du "dot plot" et une révision des mécanismes de forward guidance, ce qui pourrait fondamentalement transformer le cadre de pricing des actifs globaux. Bien que l'enquête criminelle soit close, Powell reste sous scrutiny concernant des dépenses de rénovation, et sa position au conseil de la Fed (jusqu'en 2028) n'est pas encore assurée. Les marchés devront anticiper une refonte des outils de communication de la Fed, potentiellement source de volatilité et de réévaluation des modèles de prix.

marsbitIl y a 15 h

Le principal obstacle à la nomination de Warsh à la présidence de la Fed le 15 mai est levé après le « revirement » d'un sénateur clé

marsbitIl y a 15 h

Réduire les attentes pour le prochain cycle haussier du BTC

L'auteur Alex Xu, anciennement grand détenteur de Bitcoin, a réduit sa position à 30% malgré une vision à long terme positive. Il explique cette décision par six raisons principales : 1. L'énergie potentielle pour une nouvelle hausse cyclique est moindre, car le Bitcoin a déjà conquis les investisseurs institutionnels via les ETF. La prochaine étape nécessiterait une adoption par les banques centrales ou les fonds souverains, ce qui semble improbable à court terme. 2. Son coût d'opportunité a augmenté avec la découverte d'autres investissements attractifs. 3. L'industrie crypto dans son ensemble est en déclin, avec peu de modèles économiques viables (seul le DeFi génère des profits), ce qui réduit la base de détenteurs de BTC. 4. Le principal acheteur de BTC, Strategy, voit son coût de financement augmenter (11,5%), ce qui pourrait ralentir ses achats et exercer une pression vendeuse. 5. L'or tokenisé, un concurrent direct, offre désormais les mêmes avantages de divisibilité et de transférabilité que le Bitcoin. 6. Le problème du budget de sécurité du Bitcoin s'aggrave avec le halving, les nouvelles sources de frais (comme les inscriptions) ayant échoué. Malgré cette réduction, l'auteur conserve une exposition significative au Bitcoin et reste ouvert à racheter si les conditions évoluent favorablement.

marsbitIl y a 15 h

Réduire les attentes pour le prochain cycle haussier du BTC

marsbitIl y a 15 h

Les marchés prédictifs dépendent des délits d'initiés, mais les délits d'initiés sont en train de les tuer

L'article de Nic Carter explore le paradoxe central des marchés prédictifs : ils dépendent des initiés partageant des informations privilégiées pour générer des prix précis, mais cette même pratique d'initiés, comme le récent scandale d'un militaire américain ayant gagné 400 000 $ sur Polymarket, risque de détruire la confiance des petits investisseurs. L'auteur explique que la valeur sociale de ces marchés réside dans leur capacité à motiver la divulgation d'informations, mais un excès de trading d'initiés peut conduire les particuliers à se retirer, réduisant ainsi la liquidité. À l'inverse, une réglementation trop stricte étoufferait le flux d'informations précieuses. Le texte conclut sur le dilemme de trouver un équilibre entre l'efficacité informationnelle et une perception d'équité pour assurer la survie à long terme de ces plateformes.

marsbitIl y a 15 h

Les marchés prédictifs dépendent des délits d'initiés, mais les délits d'initiés sont en train de les tuer

marsbitIl y a 15 h

Le détroit d’Ormuz, l’Iran peut-il le « contrôler » ?

L'Iran a annoncé un projet global pour contrôler le détroit d'Ormuz, incluant l'exigence d'autorisations de transit, des frais de passage (payables de préférence en rials), et l'interdiction absolue des navires israéliens. Les analystes y voient une manœuvre pour exercer une pression économique sur les États-Unis et Israël, obtenir de nouvelles sources de revenus et lier le transit à des demandes d'indemnisation de guerre. Cependant, la mise en œuvre reste incertaine en raison des défis pratiques, des contestations juridiques internationales, de l'opposition mondiale et des contre-mesures américaines, dont le blocus des ports iraniens. Le projet pourrait surtout servir de monnaie d'échange dans de futures négociations.

marsbitIl y a 16 h

Le détroit d’Ormuz, l’Iran peut-il le « contrôler » ?

marsbitIl y a 16 h

Trading

Spot

Futures

Articles tendance

Comment acheter BANANA

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Banana Gun (BANANA) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Banana Gun (BANANA).Solde ：utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers ：pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P ：tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Banana Gun (BANANA)Après avoir acheté vos Banana Gun (BANANA), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Banana Gun (BANANA)Tradez facilement Banana Gun (BANANA) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

136 vues totalesPublié le 2024.12.11Mis à jour le 2025.03.21

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de BANANA (BANANA) sont présentées ci-dessous.

6 Changements de Paradigme de l'IA en 2025 : Du RLVR au Vibe Coding en passant par la Nano banana

Résumé

1. Apprentissage par Renforcement basé sur des Récompenses Vérifiables (RLVR)

2. Intelligence Fantôme vs. Intelligence Animale en Dents de Scie

3. Cursor : Un Nouveau Niveau d'Application LLM

4. Claude Code : l'IA Fonctionnant en Local

5. Vibe Coding (Programmation à l'Ambiance)

6. Nano banana : L'Interface Graphique des LLM

Questions liées

Lectures associées

Polymarket coincé : le véritable examen après avoir profité de l'effet de flux est arrivé

Le principal obstacle à la nomination de Warsh à la présidence de la Fed le 15 mai est levé après le « revirement » d'un sénateur clé

Réduire les attentes pour le prochain cycle haussier du BTC

Les marchés prédictifs dépendent des délits d'initiés, mais les délits d'initiés sont en train de les tuer

Le détroit d’Ormuz, l’Iran peut-il le « contrôler » ?

Trading

Articles tendance

Comment acheter BANANA

Discussions

Catégories populaires

Tags tendances