6 Changements de Paradigme de l'IA en 2025 : Du RLVR au Vibe Coding en passant par la Nano banana

marsbit发布于2025-12-22更新于2025-12-22

文章摘要

En 2025, l'évolution des grands modèles de langage (LLM) a connu plusieurs transformations majeures. Andrej Karpathy met en avant six changements de paradigme notables : 1. Le **RLVR (Renforcement Learning with Verifiable Rewards)** a remplacé le RLHF comme méthode centrale d’entraînement, optimisant les modèles via des récompenses automatisées (ex: mathématiques, code), favorisant un raisonnement étape par étape. 2. La distinction entre **l’intelligence « fantôme » des LLM** et l’intelligence biologique : les modèles présentent des capacités en dents de scie — excellents dans certains domaines, mais fragiles dans d’autres. 3. **Cursor** incarne une nouvelle catégorie d’applications LLM verticales, organisant plusieurs appels de modèles et offrant des interfaces adaptées à des métiers spécifiques. 4. **Claude Code** fonctionne localement, s’intègre aux environnements privés et démontre comment un agent LLM peut résoudre des problèmes complexes en utilisant des outils avec persistance. 5. Le **Vibe Coding** (programmation intuitive) permet de créer des logiciels par simple description en langage naturel, démocratisant la programmation et accélérant le prototypage. 6. **Nano banana** de Google esquisse l’avenir des interfaces graphiques pour LLM, combinant texte, images et connaissances pour une interaction plus visuelle et humaine. Ces avancées redéfinissent les capacités des LLM, leur déploiement et leur interaction avec les utilisateurs.

Auteur : Andrej Karpathy

Compilation : Tim, PANews

2025 a été une année de développement rapide et de changements pour les grands modèles de langage (LLM), avec des résultats fructueux. Voici ce que je considère personnellement comme des « changements de paradigme » dignes d'intérêt et quelque peu surprenants, qui ont modifié le paysage et m'ont, au moins sur le plan conceptuel, impressionné.

1. Apprentissage par Renforcement basé sur des Récompenses Vérifiables (RLVR)

Début 2025, la pile de production des LLM dans tous les laboratoires d'IA ressemblait grosso modo à ceci :

Pré-entraînement (GPT-2/3 de 2020) ;
Micro-ajustement supervisé (InstructGPT de 2022) ;
et l'Apprentissage par Renforcement basé sur les Retours Humains (RLHF, 2022).

Pendant longtemps, cela a été une pile technologique stable et mature pour entraîner des LLM de qualité production. En 2025, l'Apprentissage par Renforcement basé sur des Récompenses Vérifiables (RLVR) est devenu une technologie centrale largement adoptée. En entraînant les LLM dans des environnements où les récompenses peuvent être automatiquement vérifiées (par exemple, la résolution de problèmes mathématiques ou de programmation), ces modèles développent spontanément des stratégies que les humains perçoivent comme de la « raisonnement ». Ils apprennent à décomposer la résolution de problèmes en étapes de calcul intermédiaires et maîtrisent diverses stratégies pour résoudre les problèmes par essais et vérifications (voir les exemples dans l'article DeepSeek-R1). Dans l'ancienne pile, ces stratégies étaient difficiles à réaliser car le chemin de raisonnement optimal et les mécanismes de rétroaction n'étaient pas évidents pour les LLM ; ils devaient explorer leurs propres solutions via l'optimisation des récompenses.

Contrairement aux phases de micro-ajustement supervisé et de RLHF (qui sont relativement courtes et nécessitent moins de calculs), le RLVR implique un long entraînement d'optimisation sur des fonctions de récompense objectives et non « trichables ». Il s'est avéré que l'exécution du RLVR apporte des gains significatifs en capacités par unité de coût, consommant massivement les ressources de calcul initialement prévues pour le pré-entraînement. Ainsi, les progrès des capacités des LLM en 2025 se sont principalement manifestés par la digestion par les grands labos d'IA de cette énorme demande de calcul. Globalement, nous avons des modèles de taille similaire, mais avec un temps d'entraînement par renforcement considérablement allongé. Un autre aspect unique de cette nouvelle technologie est l'obtention d'un tout nouveau degré de contrôle (et des lois d'échelle correspondantes), où la capacité du modèle est contrôlée en fonction du calcul au moment du test en générant des traces de raisonnement plus longues, en augmentant le « temps de réflexion ». Le modèle o1 d'OpenAI (fin 2024) a été la première démonstration d'un modèle RLVR, et la sortie d'o3 (début 2025) a été un tournant évident, offrant un saut qualitatif palpable.

2. Intelligence Fantôme vs. Intelligence Animale en Dents de Scie

2025 m'a fait comprendre (et je pense à toute l'industrie) pour la première fois de manière plus intuitive la « forme » de l'intelligence des LLM. Nous ne « faisons pas évoluer ou élever un animal », nous « invoquons un fantôme ». Toute la pile technique des LLM (architecture neuronale, données d'entraînement, algorithmes d'entraînement, et surtout les objectifs d'optimisation) est radicalement différente, il n'est donc pas surprenant que nous obtenions des entités très différentes de l'intelligence biologique, et il est inapproprié de les voir à travers le prisme animal. D'un point de vue informationnel supervisé, les réseaux neuronaux humains sont optimisés pour la survie tribale dans un environnement de jungle, tandis que les réseaux neuronaux des LLM sont optimisés pour imiter le texte humain, obtenir des récompenses sur des puzzles mathématiques, et gagner des « likes » humains dans des arènes. Alors que les domaines vérifiables permettent le RLVR, les capacités des LLM près de ces domaines « augmentent par à-coups », présentant globalement une caractéristique de performance intéressante et en dents de scie. Ils peuvent être à la fois des génies érudits et des écoliers perplexes et cognitivement difficiles, prêts à divulguer vos données sous un prompt d'injection.

Intelligence humaine : bleu, Intelligence IA : rouge. J'aime cette version du meme (désolé, je ne retrouve pas le post original sur Twitter) car elle souligne que l'intelligence humaine est aussi, à sa manière, une vague en dents de scie.

En rapport avec cela, en 2025, j'ai développé une indifférence et une méfiance généralisées envers les benchmarks. Le problème central est que les benchmarks sont par nature des environnements presque toujours vérifiables, et donc extrêmement sensibles au RLVR et aux formes plus faibles de génération de données synthétiques. Dans le processus typique de « maximisation du score », les équipes LLM construisent inévitablement des environnements d'entraînement près des petits sous-espaces embarqués des benchmarks, et les couvrent avec des « dents de scie » de capacités. « S'entraîner sur l'ensemble de test » est devenu la nouvelle norme.

Balayer tous les benchmarks mais toujours ne pas atteindre l'AGI, et alors ?

3. Cursor : Un Nouveau Niveau d'Application LLM

Ce qui m'a le plus impressionné avec Cursor (outre son ascension rapide cette année), c'est qu'il a révélé de manière convaincante un nouveau niveau d'« application LLM », car les gens ont commencé à parler du « Cursor du domaine XX ». Comme je l'ai souligné dans mon discours à Y Combinator cette année, des applications LLM comme Cursor consistent essentiellement à intégrer et orchestrer des appels LLM pour un domaine vertical spécifique :

Elles s'occupent de l'« ingénierie du contexte » ;
Orchestrent en sous-main plusieurs appels LLM en graphes acycliques dirigés de plus en plus complexes, équilibrant finement performance et coût ;
Fournissent une interface graphique spécifique à l'application pour le personnel « dans la boucle » ;
Et offrent un « curseur d'autonomie ».

En 2025, il y a eu beaucoup de discussions sur l'espace de développement autour de cette nouvelle couche applicative. Les plateformes LLM vont-elles tout manger, ou reste-t-il de la place pour les applications LLM ? Je suppose personnellement que le positionnement des plateformes LLM se rapprochera de celui de « diplômés universitaires généralistes », tandis que les applications LLM seront chargées d'organiser ces « diplômés », de les affiner, et de les rendre opérationnels dans des domaines verticaux spécifiques en fournissant des données privées, des capteurs, des actionneurs et des boucles de feedback.

4. Claude Code : l'IA Fonctionnant en Local

L'émergence de Claude Code a démontré pour la première fois de manière convaincante la forme que peuvent prendre les agents LLM, combinant de manière itérative l'utilisation d'outils et le processus de raisonnement pour permettre une résolution de problèmes complexes plus persistante. De plus, ce qui m'a impressionné avec Claude Code, c'est qu'il fonctionne sur l'ordinateur personnel de l'utilisateur, intégré profondément avec son environnement, ses données et son contexte privés. Je pense qu'OpenAI s'est trompé dans son approche ici, car ils ont concentré le développement d'assistants de code et d'agents sur un déploiement dans le cloud, c'est-à-dire des environnements conteneurisés orchestrés par ChatGPT, plutôt que sur l'environnement local (localhost). Bien que les clusters d'agents fonctionnant dans le cloud semblent être la « forme ultime vers l'AGI », nous sommes actuellement dans une phase de transition où les capacités sont inégales et les progrès relativement lents. Dans ces conditions, déployer des agents directement sur l'ordinateur local, en étroite collaboration avec le développeur et son environnement de travail spécifique, est une voie plus raisonnable. Claude Code a saisi cette priorité et l'a emballée dans une forme élégante et convaincante d'outil en ligne de commande, redéfinissant ainsi la façon dont l'IA est présentée. Ce n'est plus juste un site web comme Google à visiter, mais un petit esprit ou fantôme qui « habite » votre ordinateur. C'est une nouvelle façon unique d'interagir avec l'IA.

5. Vibe Coding (Programmation à l'Ambiance)

En 2025, l'IA a franchi un seuil de capacité critique, permettant de construire toutes sortes de programmes étonnants simplement en les décrivant en anglais, sans que les gens n'aient à se soucier du code sous-jacent. Fait intéressant, j'avais inventé le terme « Vibe Coding » dans un tweet improvisé sous la douche, sans imaginer qu'il prendrait une telle ampleur. Dans le paradigme du Vibe Coding, la programmation n'est plus strictement réservée à des professionnels hautement formés, mais devient accessible à tous. De ce point de vue, c'est un autre exemple du phénomène que j'ai décrit dans « Empowering Humans : How LLMs Change the Pattern of Technology Diffusion ». Contrairement à toutes les autres technologies jusqu'à présent, les personnes ordinaires bénéficient plus des LLM que les professionnels, les entreprises ou les gouvernements. Mais le Vibe Coding n'autonomise pas seulement les gens ordinaires pour coder, il permet aussi aux développeurs professionnels d'écrire plus de logiciels qui « n'auraient jamais été réalisés ». En développant nanochat, j'ai utilisé le Vibe Coding pour écrire un tokenizer BPE personnalisé et efficace en Rust, sans dépendre de bibliothèques existantes ou d'un apprentissage approfondi de Rust. Cette année, j'ai aussi rapidement prototypé plusieurs projets via le Vibe Coding juste pour vérifier si certaines idées étaient viables. J'ai même écrit des applications entières jetables pour localiser un bug spécifique, car le code est soudainement devenu gratuit, éphémère, malléable et jetable. Le Vibe Coding remodelera l'écosystème du développement logiciel et redéfinira profondément les frontières des carrières.

6. Nano banana : L'Interface Graphique des LLM

Le Gemini Nano banana de Google a été l'un des changements de paradigme les plus disruptifs de 2025. À mon avis, les LLM sont le prochain grand paradigme informatique après l'informatique des années 1970-80. Par conséquent, nous verrons des innovations similaires pour des raisons fondamentales analogues, semblables à l'évolution de l'informatique personnelle, des microcontrôleurs et même d'Internet. En particulier dans l'interaction homme-machine, le mode actuel de « conversation » avec les LLM est, dans une certaine mesure, similaire à la saisie de commandes dans un terminal informatique dans les années 1980. Le texte est la représentation de données la plus brute pour les ordinateurs (et les LLM), mais ce n'est pas le mode préféré des humains (surtout pour la saisie). Les humains détestent en fait lire du texte, c'est lent et laborieux. Au contraire, les humains préfèrent recevoir des informations par des dimensions visuelles et spatiales, ce qui a conduit à la naissance de l'interface utilisateur graphique dans l'informatique traditionnelle. De même, les LLM devraient communiquer avec nous sous la forme que les humains préfèrent, via des images, des infographies, des diapositives, des tableaux blancs, des animations, des vidéos, des applications web, etc. Les premières formes actuelles le font déjà via des émoticônes et des « décorations de texte visuelles » comme le Markdown (titres, gras, listes, tableaux, etc.). Mais qui va réellement construire l'interface graphique des LLM ? De ce point de vue, nano banana est une première ébauche de cette vision future. Il est important de noter que la percée de nano banana ne réside pas seulement dans sa capacité de génération d'images, mais dans la capacité combinée de la génération de texte, de la génération d'images et des connaissances mondiales entrelacées dans les poids du modèle.

你可能也喜欢

TradingView分析师警告：比特币必须守住6万美元，否则面临重大破位风险

比特币目前正处在一个被交易员视为心理和技术关键价位的位置。分析师weslad在6月20日的分析中指出，BTCUSDT已触及一个新的需求区，这可能决定其下一波主要走势。该区域被视为买盘已经介入，但也绝不能失守的防线。图表分析显示，只要比特币能守住当前需求区，反弹至81,000美元供应区域的概率仍然很高。这将意味着价格回归近期跌势的起点，若买盘能维持压力，可能引发流动性争夺。跌破6万美元将严重损害看涨前景。该水位被视作多头的底线，若收盘价明确跌破，将破坏看涨结构，并可能导致更深度的下跌。该价位的重要性不仅在于其是整数心理关口，还在于许多交易者都在关注同一支撑位，一旦失守可能触发止损盘、强制平仓和市场情绪转变。反之，若能守住该区域，则能为多头提供有力论据，表明近期抛售已达衰竭点。上行目标81,000美元固然诱人，但比特币仍需为此创造条件。多头需要捍卫60,000美元，收复附近阻力位，并证明需求足够强劲，能将防御性反弹转变为趋势反转。在此之前，市场格局最好被理解为一个二元化的支撑测试：守住区域，则复苏希望犹存；明确失守，则市场可能开始为更深度的调整定价。

bitcoinist18分钟前

bitcoinist18分钟前

Venus Protocol 在BNB Chain上将代币化股票集成作为借贷抵押品

Venus协议已在BNB Chain上整合代币化股票作为借贷抵押品，将现实世界资产用例引入DeFi借贷市场。 **核心要点：** - Venus现已支持苹果、特斯拉和微软股票代币等代币化股票资产。 - 这些资产由受监管托管机构持有的真实股票1:1支持。 - 用户可将符合条件的代币化股票存入隔离借贷池。 - 存款人可抵押这些资产借入稳定币或BNB。此举将传统股票以代币化形式引入DeFi借贷，使用户无需出售底层股票即可获得链上流动性，类似传统市场的融资融券。这显示了BNB Chain争夺现实世界资产生态的努力。然而，代币化股票的风险不同于原生加密资产。其价值依赖于链下的托管机构、法律结构和赎回流程，且面临传统市场交易时段与DeFi全天候运行之间的价格预言机挑战。总体来看，这是DeFi拓展加密资产外抵押品类型、吸引更广泛用户的重要一步。其长期发展需关注实际流动性增长、托管可靠性以及清算机制等关键因素。

bitcoinist1小时前

Venus Protocol 在BNB Chain上将代币化股票集成作为借贷抵押品

bitcoinist1小时前

不可能三角根本就是伪问题

加密行业构建了强大的密码学系统，但默认状态下却无法保护用户资金的隐私，所有交易和持仓都公开可查，这成为大规模资金入场的主要障碍。文章认为，区块链本质上是一台无人拥有的慢速、昂贵计算机，其核心价值在于提供无需许可的准入和去中心化信任。资金（尤其是稳定币）是天然适合上链的资产，因为账本记录即资产本身。然而，行业长期关注的“不可能三角”（去中心化、可扩展性、安全性）并非真正瓶颈。实际阻碍在于两大设计缺陷：合法性与隐私。合法性方面，无许可特性导致监管灰色地带，但随着美国《GENIUS法案》等监管框架落地，合规环境正在改善。更关键的缺陷是“透明度税”。链上所有交易公开，导致用户面临MEV（矿工可提取价值）被抢跑、夹击等风险，这实质上是一种持续的成本。对于家族办公室、大型机构等严肃资本而言，公开资产负债表是无法接受的。隐私并非与合规对立，现代密码学（如零知识证明）允许在不泄露具体数据的情况下证明合规性（如偿付能力、KYC），实现“可证明的合规隐私”。作者指出，为链上交易添加隐私保护是一次纯粹升级，它将把加密系统从“公开的谷歌表格”转变为能保守秘密的共享机器，从而吸引数万亿规模的机构资金，真正释放区块链的潜力。

链捕手11小时前

链捕手11小时前

光芯片，集体扩产

近日，全球光芯片产业链密集出现扩产、投资与供应链绑定动作，以满足AI数据中心对光互连能力激增的需求。美国方面，Coherent获政府资助扩建德州6英寸磷化铟（InP）产线，产能将提升至4倍，NVIDIA已对其战略投资并锁定未来产能。Lumentum在北卡罗来纳州新建激光器工厂，Nokia则在宾夕法尼亚扩建光子芯片先进测试与封装产能。日本材料商JX Advanced Metals计划大幅投资，将InP衬底产能提升7-10倍。欧洲方面，IQE与Tower Semiconductor达成InP外延片供应协议，推动硅光平台与III-V材料集成；ST计划在法国大幅提升300mm硅光产能；Sivers Semiconductors与格芯合作开发集成激光器的硅光方案。国内光芯片产业链同样迅猛发展。东山精密旗下索尔思光电宣布投资12亿美元在常州扩建光芯片及光模块产能。三安光电已具备6英寸InP光芯片量产能力，云南锗业亦启动磷化铟单晶片扩产项目。产业链正从模块组装向材料、芯片、封测等全环节延伸。行业分析指出，无论未来采用可插拔、CPO（共封装光学）还是其他架构，AI算力增长对带宽的需求将持续推高光芯片用量。目前CPO面临技术挑战，可能放缓落地，但光源路线呈现多元化（如硅光+连续波激光器、VCSEL、MicroLED等），将在不同应用场景分层并存。这场全球扩产竞赛实质是各国对AI数据中心光互连时代的关键布局，光子产业链已进入白热化竞争阶段。

marsbit14小时前

marsbit14小时前

稳定币终于找到真实收益：链上再保险 Re 详解｜对话 Re 创始人 Karan Saroya

本文介绍了链上再保险平台Re如何为稳定币提供真实收益。Re吸收链上稳定币作为资本，为美国保险公司提供再保险抵押，收取的保费收益返还给存款人，目前承保业务达5亿美元，目标7个月内突破10亿美元。核心机制在于利用监管允许的杠杆：每1美元抵押可支撑5-7美元保费，使底层资本能获得约12%-14%的年化收益。存款人获得凭证代币后，还可通过DeFi协议进行循环质押，进一步提升收益率。 Re通过智能合约极大提升了传统再保险的运营效率，仅用不到12人即可运作，挑战了需万人员工的传统巨头。其架构是“DeFi Mullet”：前端是受监管的再保险公司，后端连接链上资本市场。平台还发行了RE治理代币，参考劳合社模型，让持币者参与关键决策。讨论指出，这为万亿美元级的稳定币资金提供了与加密市场无关的真实收益来源，将链上资本引入了实体经济，标志着DeFi从基础设施建设转向真实需求驱动的阶段。未来，随着更多稳定币上链，链上资本市场或将成为主流。

链捕手15小时前

稳定币终于找到真实收益：链上再保险 Re 详解｜对话 Re 创始人 Karan Saroya

链捕手15小时前

交易

现货

合约

6 Changements de Paradigme de l'IA en 2025 : Du RLVR au Vibe Coding en passant par la Nano banana

文章摘要

1. Apprentissage par Renforcement basé sur des Récompenses Vérifiables (RLVR)

2. Intelligence Fantôme vs. Intelligence Animale en Dents de Scie

3. Cursor : Un Nouveau Niveau d'Application LLM

4. Claude Code : l'IA Fonctionnant en Local

5. Vibe Coding (Programmation à l'Ambiance)

6. Nano banana : L'Interface Graphique des LLM

热门币种推荐

相关问答

你可能也喜欢

TradingView分析师警告：比特币必须守住6万美元，否则面临重大破位风险

Venus Protocol 在BNB Chain上将代币化股票集成作为借贷抵押品

不可能三角根本就是伪问题

光芯片，集体扩产

稳定币终于找到真实收益：链上再保险 Re 详解｜对话 Re 创始人 Karan Saroya

交易

热门文章

如何购买BANANA

相关讨论

热门问答

热门分类

热门标签