2025年6大AI范式变革：从RLVR训练、Vibe Coding到Nano banana

marsbit發佈於 2025-12-22更新於 2025-12-22

文章摘要

2025年AI领域出现六大范式变革： 1. **RLVR（可验证奖励的强化学习）** 成为核心训练方式，模型通过数学、编程等可验证环境自发形成推理策略，显著提升能力，但消耗大量计算资源。 2. **智能形态转变**：AI智能呈“锯齿状”，在可验证领域表现突出，但整体不平衡；基准测试因易被针对性优化而失去公信力。 3. **Cursor代表的新应用层**：垂直领域LLM应用通过编排多模型调用、上下文工程和自主性调节，形成专业级解决方案。 4. **Claude Code本地化AI**：智能体在用户本地环境运行，与私有数据和上下文深度结合，提供更高效的协作体验。 5. **氛围编程（Vibe Coding）**：通过自然语言描述即可生成代码，降低编程门槛，赋能普通用户和专业开发者快速实现创意。 6. **Nano banana的图形界面**：LLM输出超越文本，转向图像、图表等视觉化形式，更符合人类信息接收习惯，预示下一代交互范式。总体而言，AI技术正从集中训练向本地化、视觉化、平民化发展，重塑开发流程与智能形态。

作者:Andrej Karpathy

编译:Tim,PANews

2025年是大语言模型飞速发展且充满变数的一年,我们取得了丰硕的成果。以下是我个人认为值得关注且稍感意外的“范式变革”,这些变革改变了格局,至少在概念层面让我印象深刻。

1.基于可验证奖励的强化学习(RLVR)

2025年初,所有AI实验室的LLM生产堆栈大致呈现为以下形态:

预训练(2020年的GPT-2/3);
监督微调(2022年的InstructGPT);
以及基于人类反馈的强化学习(RLHF,2022年)

长期以来,这是训练生产级大语言模型的稳定且成熟的技术堆栈。到了2025年,基于可验证奖励的强化学习已成为主要采用的核心技术。通过让大语言模型在多种可自动验证奖励的环境中进行训练(例如数学、编程解题),这些模型能自发形成在人类看来类似“推理”的策略。它们学会将问题解决分解为中间计算步骤,并掌握多种通过反复推演来解决问题的策略(可参考DeepSeek-R1论文中的案例)。在之前的堆栈中,这些策略很难实现,因为对于大语言模型而言,最优的推理路径和回溯机制并不明确,必须通过奖励优化来探索适合自身的解决方案。

与监督微调阶段和基于人类反馈的强化学习阶段(这两个阶段相对简短,属于计算量较小的微调)不同,基于可验证奖励的强化学习涉及对客观、不可博弈的奖励函数进行长时间优化训练。事实证明,运行基于可验证奖励的强化学习在单位成本内能带来显著的能力提升,这大量消耗了原本计划用于预训练的计算资源。因此,2025年大语言模型能力的进步主要体现在,各大AI实验室消化了这一新技术带来的巨大计算需求。总体而言,我们看到模型的规模大致相当,但强化学习训练的时间大幅延长。这个新技术的另一个独特之处在于,我们获得了一个全新的调控维度(以及相应的Scaling定律),即通过生成更长的推理轨迹、增加“思考时间”,将模型能力作为测试时计算量的函数进行控制。OpenAI的o1模型(2024年底发布)是首个基于可验证奖励的强化学习模型的演示,而o3的发布(2025年初)则是一个明显的转折点,让人能直观感受到质的飞跃。

2.幽灵智能 vs. 动物锯齿状智能

2025年让我(以及我认为整个行业)第一次开始从更直观的角度,去理解大语言模型智能的“形态”。我们并非在“演化、培育动物”,而是在“召唤幽灵”。大语言模型的整个技术栈(神经架构、训练数据、训练算法,尤其是优化目标)都截然不同,因此我们在智能领域得到与生物智能迥异的实体,这毫不意外,用动物的视角去审视它们并不恰当。从监督信息的角度看,人类神经网络是为了在丛林环境中实现部落生存而优化的,而大语言模型神经网络则是为了模仿人类文本、在数学难题中获取奖励、在竞技场上赢得人类的点赞而优化的。随着可验证领域为基于可验证奖励的强化学习提供了条件,大语言模型在这些领域附近的能力会“突增”,总体上呈现出一种有趣的、锯齿状的性能特征。它们可能同时是博学的天才,也是困惑且认知困难的小学生,随时可能在破解诱导下泄露你的数据。

人类智能:蓝色,AI智能:红色。我喜欢这个版本的梗图(抱歉我找不到推特上的原帖出处),因为它指出了人类智能其实也以其特有的方式呈现出锯齿状的波浪。

与此相关的是,2025年我对各类基准测试普遍产生了漠然和不信任感。核心问题在于,基准测试本质上几乎都是可验证的环境,因此极易受到基于可验证奖励的强化学习以及通过合成数据生成的较弱形式的影响。在典型的“刷分最大化”过程中,大语言模型团队不可避免地会在基准测试所在的小块嵌入空间附近构造训练环境,并通过“能力锯齿”覆盖这些区域。“在测试集上训练”已成为一种新常态。

横扫所有基准测试却依然未能实现通用人工智能,那又怎么样呢?

3.Cursor:LLM应用的新层级

Cursor最让我印象深刻的一点(除了它今年迅速崛起之外),是它令人信服地揭示了一个新的“LLM应用”层级,因为人们开始谈论“XX领域的Cursor”。正如我今年在Y Combinator演讲中所强调的,像Cursor这样的LLM应用,其核心在于为特定垂直领域整合与编排LLM调用:

它们负责“上下文工程”;
在底层将多个LLM调用编排成日益复杂的有向无环图,精细权衡性能与成本的平衡;为处于“人在回路”中的人员提供应用特定的图形界面;
并提供一个“自主性调节滑块”。

2025年,围绕这个新兴应用层的发展空间已有大量讨论。大语言模型平台会通吃所有应用,还是大语言模型应用仍存有广阔天地?我个人推测,大语言模型平台的定位将逐渐趋近于培养“通才型大学毕业生”,而大语言模型应用则负责把这些“毕业生”组织起来、进行精调,并通过提供私有数据、传感器、执行器及反馈回路,使其真正成为特定垂直领域中可以投入实战的“专业团队”。

4.Claude Code:运行于本地的AI

Claude Code的出现,首次令人信服地展示了LLM智能体的形态,它以一种循环往复的方式,将工具使用与推理过程结合起来,从而实现更持久的复杂问题解决。此外,Claude Code让我印象深刻之处在于,它运行在用户的个人电脑上,与用户的私有环境、数据与上下文深度结合。我认为OpenAI在此方向上的判断有所偏差,因为他们将代码助手、智能体的研发重点放在了云端部署,即由ChatGPT编排的容器化环境,而非localhost本地环境。尽管云端运行的智能体集群似乎是“通往通用人工智能的终极形态”,但我们目前身处一个能力发展不均衡、且进展相对缓慢的过渡阶段。在这样的现实条件下,将智能体直接部署在本地计算机上,与开发者及其特定工作环境紧密协同,是更为合理的路径。Claude Code准确把握了这一优先顺序,并将其封装成一个简洁、优雅、极具吸引力的命令行工具形式,从而重塑了AI的呈现方式。它不再只是一个像谷歌那样需要访问的网站,而是“居住”在你电脑中的一个小小精灵或幽灵。这是一种全新的、独特的与AI互动范式。

5. Vibe Coding氛围编程

2025年,AI跨越了一个关键的能力门槛,使得仅通过英语描述就能构建各种令人惊叹的程序成为可能,人们甚至无需关心底层代码。有趣的是,我曾在一次洗澡时的随想推文中创造了“Vibe Coding氛围编程”这个词,当时完全没想到它会发展到如今的程度。在氛围编程的范式下,编程不再是严格限定于高度训练的专业人士的领域,而成为人人都能参与的事情。从这个角度看,它正是我在《赋能于人:大语言模型如何改变技术扩散模式》一文中所描述现象的又一例证。与迄今为止所有其他技术形成鲜明对比的是,普通人与专业人士、企业和政府相比,从大语言模型中获益更多。但氛围编程不仅赋能普通人接触编程,也赋能专业开发者编写出更多“本不会被实现”的软件。在开发nanochat时,我就通过氛围编程用Rust编写了自定义的高效BPE分词器,而不必依赖现有库或深入学习Rust。今年,我还用氛围编程快速实现了多个项目原型,只为验证某些构想是否可行。我甚至编写过整个一次性应用,只为定位一个具体的漏洞,因为代码突然变得免费、短暂、可塑、用后即弃。氛围编程将重塑软件开发的生态,并深刻改变职业定义的边界。

6.Nano banana:LLM图形界面

谷歌的Gemini Nano banana是2025年最具颠覆性的范式转换之一。在我看来,大语言模型是继1970、80年代计算机之后的下一个重大计算范式。因此,我们将看到基于相似根本原因的同类创新,类似于个人计算、微控制器乃至互联网的演进形态。特别是在人机交互层面,当前与LLM的“对话”模式,某种程度上类似于1980年代向计算机终端输入指令。文本是计算机(及LLM)最原始的数据表征形式,却并非人类(尤其是输入时)的首选方式。人类实际上厌恶阅读文字,它缓慢且费力。相反,人类更倾向于通过视觉和空间维度接收信息,这也正是传统计算中图形用户界面诞生的原因。同理,大语言模型应当以人类偏好的形式与我们交流,通过图像、信息图、幻灯片、白板、动画、视频、网页应用等载体。当前的早期形态已通过表情符号和Markdown等“视觉化文本装饰”实现(如标题、加粗、列表、表格等排版元素)。但究竟谁会真正构建出大语言模型的图形界面?从这个视角看,nano banana正是这一未来蓝图的早期雏形。值得注意的是,nano banana的突破性不仅在于图像生成能力本身,更在于文本生成、图像生成与世界知识在模型权重中交织形成的综合能力。

你可能也喜歡

被卡住的Polymarket：走过流量红利的真正大考来了

Polymarket作为预测市场龙头近期面临交易体验明显下降的问题，包括价格延迟、订单无法提交和交易确认缓慢等。其DeFi工程副总裁Josh Stevens承认，增长已超出基础设施承载能力，并宣布将进行“链迁移”（chain migration），同时重建核心订单簿系统（CLOB）、降低数据延迟、修复交易问题、提升网站性能，并计划推出永续合约（Perps）。 Polymarket早期选择Polygon链是因成本低且轻量，但随着用户交易行为变得高频，Polygon逐渐成为增长瓶颈。此次换链不仅是底层公链的变更，更是整套交易系统的升级，旨在适应更接近交易所的运营需求。多个公链（如Solana、Sui等）已向Polymarket抛出橄榄枝，强调其高性能和低费用优势。而Polygon作为当前主要链，面临重要生态应用流失的风险，正积极合作解决痛点。 Polymarket的真正考验在于：从验证需求阶段转向规模运营后，必须证明其系统能稳定承接高频交易，确保用户留存和持续交易信心。

Odaily星球日报13 小時前

Odaily星球日报13 小時前

关键议员「松口」，沃什5月15日接任美联储主席「最大障碍」已清

阻碍凯文·沃什出任美联储主席的关键政治障碍已消除，北卡罗来纳州共和党参议员蒂利斯宣布撤回对沃什提名的阻挠立场，为4月29日的委员会提名投票扫清道路。此前司法部撤销对现任主席鲍威尔的刑事调查，蒂利斯对美联储独立性受威胁的顾虑得以缓解。沃什若获确认，预计于5月15日鲍威尔任期届满时接任，并可能推动废除“点阵图”等前瞻指引机制，重构全球资产定价逻辑。尽管沃什提名进程加速，鲍威尔去留仍存变数，特朗普未对其全面放行。沃什的政策立场可能移除市场利率预期工具，引发股债汇市场系统性重估。

marsbit14 小時前

marsbit14 小時前

调低 BTC 下一轮牛市的预期

作者Alex Xu分享了他对比特币下一轮牛市预期的调整，并解释了减仓BTC的原因。他曾在7万美元时卸掉杠杆，在10-12万美元时将仓位从满仓降至三成，近期又在78000-79000美元进一步减仓。主要原因包括： 1. 驱动BTC大涨的潜在能量减弱，如难以进入主权国家央行储备； 2. 个人机会成本上升，发现更具吸引力的投资标的； 3. 加密行业整体萎缩，影响BTC需求和共识； 4. 最大买家MicroStrategy融资成本持续攀升，可能抑制买入能力； 5. 代币化黄金等竞品在功能性上拉近与BTC的差距； 6. 比特币减半后安全预算问题日益严峻。尽管减仓，他仍持有部分BTC并希望其上涨，但会根据环境变化调整策略。本文仅为个人观点，供参考。

marsbit14 小時前

marsbit14 小時前

预测市场离不开内幕交易，但内幕交易正在杀死它

预测市场面临根本矛盾：依赖内幕交易产生准确价格，却因内幕交易吓退散户。最新案例显示，美军特种兵利用机密信息在Polymarket获利40万美元，引发法律和道德争议。类似内幕交易丑闻频发，暴露市场核心问题——信息效率与公平感知难以兼得。若内幕交易过松，散户感觉被操纵而离场；若限制过严，市场失去关键信息源，沦为情绪聚合器。平台需在监管与流动性间寻找平衡，但监管趋严或迫使平台放弃匿名交易，加强监控。最终，预测市场的存续取决于能否协调这一矛盾。

marsbit14 小時前

marsbit14 小時前

霍尔木兹海峡，伊朗能“管住”吗？

伊朗迈赫尔通讯社报道，伊朗已就管理霍尔木兹海峡形成综合方案，内容包括：海峡主权归伊朗所有；过航船只须获许可并缴纳费用，优先以里亚尔支付；禁止以色列船只及被认定为敌对国家船只通行；索赔未解决国家船只不予放行。分析认为，伊朗意在加强对美以施压、获取稳定收入并为美伊谈判留余地。然而，该方案面临国际法争议及多国反对，美国已采取封锁反制。实际操作难度大，且可能引发外交压力，方案能否实施仍存不确定性。

marsbit15 小時前

marsbit15 小時前

交易

現貨

合約

2025年6大AI范式变革：从RLVR训练、Vibe Coding到Nano banana

文章摘要

1.基于可验证奖励的强化学习(RLVR)

2.幽灵智能 vs. 动物锯齿状智能

3.Cursor:LLM应用的新层级

4.Claude Code:运行于本地的AI

5. Vibe Coding氛围编程

6.Nano banana:LLM图形界面

相關問答

你可能也喜歡

被卡住的Polymarket：走过流量红利的真正大考来了

关键议员「松口」，沃什5月15日接任美联储主席「最大障碍」已清

调低 BTC 下一轮牛市的预期

预测市场离不开内幕交易，但内幕交易正在杀死它

霍尔木兹海峡，伊朗能“管住”吗？

交易

熱門文章

如何購買BANANA

相關討論

熱門問答

熱門分類

熱門標籤