6 Major AI Paradigm Shifts in 2025: From RLVR Training and Vibe Coding to Nano Banana

marsbitXuất bản vào 2025-12-22Cập nhật gần nhất vào 2025-12-22

Tóm tắt

Summary: In 2025, six key paradigm shifts are redefining the AI landscape. RLVR (Reinforcement Learning with Verifiable Rewards) has become a core training method, enabling models to develop reasoning-like strategies through optimization on objective tasks like math and coding. This has shifted computational focus from pre-training to extended RL training. The concept of "ghost" vs. "animal" intelligence highlights the unique, jagged capability profile of LLMs, which excel in verifiable domains but remain brittle elsewhere, leading to widespread skepticism of benchmark performance. Cursor emerged as a new application-layer paradigm, demonstrating how vertical-specific tools can orchestrate multiple LLM calls into complex workflows. Claude Code redefined local AI by running powerful coding agents directly on user devices, integrating deeply with private data and environments. "Vibe Coding" lowered the barrier to programming, allowing both amateurs and professionals to build software through natural language description. Finally, Google's Nano banana signaled the next major computing paradigm by moving beyond text to a multi-modal, graphical user interface for LLMs, better aligning with human visual and spatial cognition.

Author: Andrej Karpathy

Compiled by: Tim, PANews

2025 has been a year of rapid development and significant changes for large language models, yielding abundant achievements. Below are the "paradigm shifts" that I personally find noteworthy and somewhat surprising—changes that have altered the landscape and, at least on a conceptual level, left a deep impression on me.

1. Reinforcement Learning with Verifiable Rewards (RLVR)

At the beginning of 2025, the LLM production stack at all AI labs generally looked like this:

  • Pre-training (GPT-2/3 from 2020);
  • Supervised Fine-Tuning (InstructGPT from 2022);
  • And Reinforcement Learning from Human Feedback (RLHF, from 2022).

For a long time, this was a stable and mature technical stack for training production-level large language models. By 2025, Reinforcement Learning with Verifiable Rewards had become the core technology widely adopted. By training large language models in various environments with automatically verifiable rewards (such as solving math and programming problems), these models spontaneously develop strategies that humans perceive as "reasoning." They learn to break down problem-solving into intermediate computational steps and master multiple strategies for solving problems through repeated deduction (refer to the DeepSeek-R1 paper for examples). In the previous stack, these strategies were difficult to achieve because the optimal reasoning path and backtracking mechanisms were not explicit for large language models—they had to explore solutions suitable for themselves through reward optimization.

Unlike the Supervised Fine-Tuning and RLHF stages (which are relatively short and involve less computational fine-tuning), RLVR involves long-term optimization training on objective, non-gameable reward functions. It has been proven that running RLVR brings significant capability improvements per unit cost, consuming a large portion of the computational resources originally allocated for pre-training. Therefore, the progress in large language model capabilities in 2025 is mainly reflected in how major AI labs have absorbed the enormous computational demands of this new technology. Overall, we see models of roughly similar scales but with significantly extended RL training times. Another unique aspect of this new technology is that we gain a new调控 dimension (and corresponding scaling laws), where model capabilities can be controlled as a function of test-time computation by generating longer reasoning trajectories and increasing "thinking time." OpenAI's o1 model (released in late 2024) was the first demonstration of an RLVR model, and the release of o3 (early 2025) marked a clear turning point, allowing people to intuitively feel a qualitative leap.

2. Ghost Intelligence vs. Animal Jagged Intelligence

2025 was the year when I (and I believe the entire industry) began to intuitively understand the "form" of large language model intelligence. We are not "evolving or nurturing animals" but "summoning ghosts." The entire technical stack of large language models (neural architecture, training data, training algorithms, and especially optimization objectives) is entirely different, so it is no surprise that we obtain entities in the intelligence domain that are vastly different from biological intelligence. It is inappropriate to examine them from an animal perspective. From the perspective of supervisory information, human neural networks are optimized for survival in tribal jungle environments, while large language model neural networks are optimized for imitating human text, earning rewards in math puzzles, and winning human likes in arenas. As verifiable domains provide conditions for RLVR, the capabilities of large language models in these areas experience "sudden jumps," overall presenting an interesting, jagged performance characteristic. They can simultaneously be erudite geniuses and confused, cognitively struggling elementary students,随时可能 leaking your data under诱导 prompts.

Human intelligence: blue, AI intelligence: red. I like this version of the meme (sorry, I can't find the original Twitter post) because it points out that human intelligence also has its own jagged waves in its own way.

Related to this, in 2025, I developed a general sense of indifference and distrust towards various benchmarks. The core issue is that benchmarks are essentially verifiable environments, making them highly susceptible to RLVR and weaker forms of influence through synthetic data generation. In the typical "score maximization" process, LLM teams inevitably construct training environments near the small embedded spaces of benchmarks and cover these areas with "capability jaggedness." "Training on the test set" has become a new norm.

So what if we sweep all benchmarks but still fail to achieve artificial general intelligence?

3. Cursor: A New Tier of LLM Applications

What impressed me about Cursor (besides its rapid rise this year) is that it convincingly revealed a new "LLM application" tier, as people began talking about "the Cursor of XX field." As I emphasized in my Y Combinator speech this year, LLM applications like Cursor focus on integrating and orchestrating LLM calls for specific vertical domains:

  • They handle "context engineering";
  • Orchestrate multiple LLM calls into increasingly complex directed acyclic graphs at the底层, finely balancing performance and cost;
  • Provide application-specific graphical interfaces for personnel in the "human-in-the-loop";
  • And offer an "autonomy adjustment slider."

In 2025, there has been extensive discussion about the development space around this emerging application layer. Will LLM platforms dominate all applications, or is there still broad room for LLM applications? I personally speculate that LLM platforms will gradually position themselves as cultivating "generalist university graduates," while LLM applications will be responsible for organizing these "graduates," fine-tuning them, and making them实战-ready professional teams in specific vertical domains by providing private data, sensors, actuators, and feedback loops.

4. Claude Code: AI Running Locally

The emergence of Claude Code convincingly demonstrated for the first time the form of LLM agents, which combine tool use and reasoning in a cyclical manner to achieve more persistent complex problem-solving. Additionally, what impressed me about Claude Code is that it runs on the user's personal computer, deeply integrated with the user's private environment, data, and context. I believe OpenAI misjudged this direction by focusing their development of code assistants and agents on cloud deployment—i.e., containerized environments orchestrated by ChatGPT—rather than the localhost environment. Although cloud-run agent clusters seem like the "ultimate form towards AGI," we are currently in a过渡阶段 with uneven capability development and relatively slow progress. Under these realistic conditions, deploying agents directly on local computers, closely collaborating with developers and their specific work environments, is a more reasonable path. Claude Code accurately grasped this priority order and packaged it into a concise, elegant, and highly attractive command-line tool form, thereby reshaping how AI is presented. It is no longer just a website like Google that needs to be visited but a little精灵 or ghost "living" in your computer. This is a全新的, unique paradigm for interacting with AI.

5. Vibe Coding

In 2025, AI crossed a critical capability threshold, making it possible to build various amazing programs solely through English descriptions, without even caring about the underlying code. Interestingly, I coined the term "Vibe Coding" in a casual shower thought tweet, never expecting it to develop to its current extent. Under the paradigm of vibe coding, programming is no longer strictly confined to highly trained professionals but becomes something everyone can participate in. From this perspective, it is another example of the phenomenon I described in "Empowering People: How Large Language Models Change the Mode of Technology Diffusion." In stark contrast to all other technologies so far, ordinary people benefit more from large language models than professionals, businesses, and governments. But vibe coding not only empowers ordinary people to access programming but also enables professional developers to write more "software that would never have been implemented." While developing nanochat, I used vibe coding to write a custom efficient BPE tokenizer in Rust without relying on existing libraries or深入学习 Rust. This year, I also used vibe coding to quickly prototype multiple projects just to verify whether certain ideas were feasible. I even wrote entire one-off applications just to locate a specific bug because code suddenly becomes free, ephemeral, malleable, and disposable. Vibe coding will reshape the software development ecosystem and profoundly change the boundaries of职业 definitions.

6. Nano Banana: LLM Graphical Interface

Google's Gemini Nano Banana was one of the most disruptive paradigm shifts of 2025. In my view, large language models are the next major computing paradigm after computers in the 1970s and 80s. Therefore, we will see innovations of the same kind for similar fundamental reasons, akin to the evolution of personal computing, microcontrollers, and even the internet. Especially in human-computer interaction, the current "conversation" mode with LLMs is somewhat similar to inputting commands into computer terminals in the 1980s. Text is the most primitive data representation form for computers (and LLMs) but not the preferred way for humans (especially for input). Humans actually dislike reading text—it is slow and laborious. Instead, humans prefer to receive information through visual and spatial dimensions, which is precisely why graphical user interfaces emerged in traditional computing. Similarly, large language models should communicate with us in forms preferred by humans—through images, infographics, slides, whiteboards, animations, videos, web applications, and other carriers. The current early forms are already realized through "visual text decorations" like emojis and Markdown (such as headings, bold, lists, tables, and other排版 elements). But who will actually build the graphical interface for large language models? From this perspective, nano banana is an early雏形 of this future blueprint. It is worth noting that the breakthrough of nano banana lies not only in its image generation capability itself but also in the comprehensive ability formed by the interweaving of text generation, image generation, and world knowledge within the model weights.

Câu hỏi Liên quan

QWhat is RLVR and how does it differ from previous training methods like RLHF?

ARLVR (Reinforcement Learning with Verifiable Rewards) is a training method where LLMs are optimized in environments with automatically verifiable rewards, such as math or programming problems. Unlike RLHF, which relies on human feedback, RLVR uses objective, non-gameable reward functions and involves long-duration optimization. It allows models to develop reasoning-like strategies and significantly improves capabilities per unit of compute, consuming resources originally allocated for pre-training.

QHow does the concept of 'Ghost Intelligence' contrast with 'Animal Intelligence' in AI?

A'Ghost Intelligence' refers to the unique, non-biological form of intelligence exhibited by LLMs, which is optimized for mimicking human text, solving verifiable problems, and winning human approval. It contrasts with 'Animal Intelligence,' which is evolved for survival in natural environments. LLMs show a jagged performance profile, excelling in specific verifiable domains while potentially failing in others, making them fundamentally different from biological intelligence.

QWhat makes Cursor represent a new layer of LLM applications?

ACursor represents a new layer of LLM applications by specializing in vertical domains through context engineering, orchestrating multiple LLM calls into complex graphs, providing domain-specific GUIs for human-in-the-loop interaction, and offering an 'autonomy slider.' It acts as a specialized team that fine-tunes general-purpose LLMs (like 'university graduates') for practical use cases with private data, sensors, and actuators.

QWhy is Claude Code's local execution significant for AI agents?

AClaude Code's local execution is significant because it runs on the user's computer, deeply integrating with their private environment, data, and context. This approach, which prioritizes local deployment over cloud-based containers, allows for more effective collaboration with developers in their specific workflows. It presents AI as a 'local ghost' or assistant, offering a new paradigm of interaction distinct from cloud-centric models.

QWhat is 'Vibe Coding' and how does it change software development?

A'Vibe Coding' is a paradigm where programs are built through natural English descriptions, eliminating the need for deep coding expertise. It democratizes programming, enabling non-experts to create software and professionals to rapidly prototype or implement ideas that would otherwise be unfeasible. This approach makes code 'free, ephemeral, malleable, and disposable,' reshaping software development landscape and blurring the lines of professional boundaries.

Nội dung Liên quan

BingX Giới Thiệu Tính Năng Tự Động Kiếm Lãi Cho Tài Sản Hợp Đồng Tương Lai Đầu Tiên Trong Ngành Dành Cho Thành Viên VIP BingX

BingX, một sàn giao dịch tiền mã hóa và công ty Web3-AI hàng đầu, đã chính thức ra mắt sự kiện Futures Asset Auto Earn dành riêng cho người dùng VIP từ cấp 3 trở lên. Chương trình đầu tiên trong ngành này cho phép các nhà giao dịch đủ điều kiện kiếm thu nhập thụ động từ các vị thế hợp đồng vĩnh viễn USDT-M mà không ảnh hưởng đến giao dịch, với thao tác kích hoạt tức thì chỉ bằng một cú nhấp chuột. Cơ chế mới, có hiệu lực từ ngày 12/6 đến ngày 12/8/2026, biến số tiền ký quỹ hợp đồng nhàn rỗi thành nguồn thu lãi hàng ngày mà không yêu cầu người dùng khóa vốn, thay đổi chiến lược hoặc bỏ lỡ cơ hội thị trường. Với Futures Asset Auto Earn, người dùng VIP được chọn của BingX được hưởng các lợi ích: Kích hoạt một lần nhấp, lãi suất được tính toán và tín dụng tự động hàng ngày vào tài khoản hợp đồng, không có thời gian khóa vốn và mức thưởng lãi suất phân cấp theo cấp VIP (lên tới 4%). Sự kiện này bổ sung vào bộ đặc quyền BingX VIP, khẳng định cam kết của sàn trong việc mang lại giá trị và đổi mới hàng đầu cho cộng đồng giao dịch. BingX, được thành lập năm 2018, phục vụ hơn 40 triệu người dùng toàn cầu và là đối tác chính thức của Chelsea FC (từ 2024) và Scuderia Ferrari HP (từ 2026).

TheNewsCrypto42 phút trước

BingX Giới Thiệu Tính Năng Tự Động Kiếm Lãi Cho Tài Sản Hợp Đồng Tương Lai Đầu Tiên Trong Ngành Dành Cho Thành Viên VIP BingX

TheNewsCrypto42 phút trước

SEC Mỹ muốn bãi bỏ một quy định cũ năm 2005, cổ phiếu token hóa nhìn thấy điều gì

Ngày 11/6, Ủy ban Chứng khoán và Giao dịch Mỹ (SEC) đã đề xuất bãi bỏ Quy tắc 611 và 610(e) thuộc Quy định Hệ thống Thị trường Quốc gia (Regulation NMS). Động thái này thu hút sự chú ý của cộng đồng Web3 vì trong bối cảnh đề xuất, SEC đề cập cụ thể đến công nghệ sổ cái phân tán (DLT), tài sản mã hóa và các phương thức giao dịch mới như hợp đồng thông minh và AMM. Quy tắc 611 (quy tắc "không bỏ qua giá tốt hơn") yêu cầu các trung tâm giao dịch phải ưu tiên thực hiện lệnh tại mức giá mua/bán tốt nhất hiện có trên toàn thị trường. SEC nhận định quy tắc năm 2005 này nay đã làm tăng chi phí tuân thủ, hạn chế lựa chọn xử lý lệnh, góp phần chia cắt thị trường và thúc đẩy việc theo đuổi tốc độ khớp lệnh cực nhanh. Quy tắc 610(e) hạn chế việc hiển thị "giá chốt" (giá mua bằng giá bán) và "giá chéo" (giá mua cao hơn giá bán). SEC cho rằng việc bãi bỏ nó có thể thu hẹp chênh lệch giá, giảm chi phí giao dịch và giảm độ phức tạp của hệ thống. Tuy nhiên, nó cũng có thể gây nhầm lẫn cho nhà đầu tư. Liên quan đến cổ phiếu mã hóa, đề xuất này được xem như một bước nới lỏng khả năng có thể xảy ra đối với cấu trúc thị trường chứng khoán tập trung truyền thống. Nó mở ra không gian thử nghiệm lớn hơn cho các cơ chế khớp lệnh mới (như AMM, đấu giá) tại các sàn giao dịch hoặc hệ thống giao dịch thay thế (ATS), vốn có thể tương thích hơn với đặc điểm giao dịch 24/7 và trên chuỗi của tài sản mã hóa. Tuy nhiên, đề xuất chưa giải quyết các vấn đề cốt lõi khác như đăng ký phát hành, lưu ký, quyền cổ đông hay tuân thủ. SEC ước tính việc bãi bỏ hai quy tắc này có thể giúp các bên tham gia thị trường tiết kiệm từ 54,2 đến 77 triệu USD chi phí tuân thủ hàng năm. Mục tiêu cuối cùng là giảm bớt sự phức tạp do quy định mang lại, thúc đẩy cạnh tranh thông qua chất lượng khớp lệnh và thiết kế cơ chế, từ đó tạo điều kiện cho các hình thức giao dịch sáng tạo hơn phát triển.

Foresight News2 giờ trước

SEC Mỹ muốn bãi bỏ một quy định cũ năm 2005, cổ phiếu token hóa nhìn thấy điều gì

Foresight News2 giờ trước

Sự Chuyển Đổi Của Ethena Và Nỗi Lo Của Phố Wall

Đồng tiền ổn định Ethena (USDe) đã có bước chuyển mình lớn khi công bố hợp tác chiến lược với gã khổng lồ quản lý tài sản truyền thống Janus Henderson (4800 tỷ USD) vào tháng 6/2026. Thỏa thuận bao gồm bốn tầng: Janus Henderson cung cấp tài sản RWA (quỹ CLO) cho dự trữ của USDe, đầu tư vào token quản trị ENA, sử dụng USDe làm công cụ quản lý tiền mặt và lên kế hoạch phát hành sản phẩm ETP để phân phối USDe cho khách hàng tổ chức. Đây là bước đi quan trọng trong quá trình chuyển đổi của Ethena từ một giao thức DeFi thuần túy sang mô hình ổn định lai. Sau khi gặp khủng hoảng vì phụ thuộc vào cơ chế Delta-neutral (lệnh vĩnh viễn) trong đợt sụt giảm thị trường 2025, Ethena đã đa dạng hóa tài sản dự trữ cho USDe, bổ sung trái phiếu kho bạc, tín dụng doanh nghiệp và RWA, giảm tỷ trọng lệnh phái sinh xuống chỉ còn khoảng 20%. Hợp tác này phản ánh sự lo ngại mang tính cấu trúc từ phố Wall. Sau khi khung pháp lý rõ ràng (đạo luật GENIUS 2025), cạnh tranh trong lĩnh vực stablecoin chuyển sang việc xây dựng mạng lưới phân phối. Các định chế tài chính truyền thống như Janus Henderson lo sợ bị đứng ngoài cuộc trong nền tảng hạ tầng tài chính mới, nơi stablecoin đang trở thành tầng thanh toán cốt lõi với khối lượng giao dịch khổng lồ. Bằng cách hợp tác với Ethena, họ chấp nhận vai trò "phân phối" để đổi lấy vị thế và chia sẻ lợi nhuận, đảm bảo mình không bị bỏ lại phía sau trong xu hướng tích hợp giữa tài chính truyền thống (TradFi) và tài chính phi tập trung (DeFi).

Foresight News3 giờ trước

Sự Chuyển Đổi Của Ethena Và Nỗi Lo Của Phố Wall

Foresight News3 giờ trước

Không phải chain nào cũng đỡ được cơ chế, vì sao Canton làm được

**Tóm tắt** Không phải mọi blockchain đều có thể đáp ứng nhu cầu của các tổ chức tài chính lớn. Canton Network (phát triển bởi Digital Asset) nhắm mục tiêu trở thành lớp cơ sở hạ tầng phối hợp cho các quy trình nghiệp vụ chuyên nghiệp, cho phép các định chế tiếp tục vận hành hệ thống riêng nhưng vẫn tương tác và thanh toán trên một mạng lưới chung an toàn. Điều này thu hút sự đồng thuận chiến lược hiếm có từ một liên minh các gã khổng lồ tài chính toàn cầu (như Citadel Securities, Goldman Sachs, BNP Paribas, HSBC, Apollo, S&P Global...), thể hiện qua các vòng gọi vốn thành công với tổng cộng khoảng 8.05 tỷ USD. Sức hấp dẫn của Canton nằm ở kiến trúc thiết kế phù hợp với logic vận hành của tài chính truyền thống: 1. **Quyền riêng tư & Kiểm soát Truy cập:** Quản lý quyền hiển thị dữ liệu ở cấp độ giao dịch phụ (sub-transaction), đảm bảo thông tin chỉ được chia sẻ có chọn lọc. 2. **Hợp đồng thông minh Daml với Quyền kiểm soát gốc:** Mã hóa các quy tắc nghiệp vụ, tuân thủ và quản trị trực tiếp vào logic hợp đồng. 3. **Khả năng Thanh toán Nguyên tử & Đồng bộ Toàn cầu:** Đảm bảo giao dịch (ví dụ: chứng khoán và tiền mặt) được hoàn tất đồng thời, tránh rủi ro đối tác, và cho phép các quy trình phức tạp được đồng bộ xuyên suốt nhiều ứng dụng, mạng con. Canton Coin (CC) đóng vai trò là công cụ kinh tế nền tảng cho mạng lưới, dùng để thanh toán phí sử dụng mạng (thông qua "traffic credits") và khuyến khích những người tham gia vận hành, cung cấp dịch vụ. Mạng lưới đã cho thấy tác động thực tế với gần 300 đối tác, hơn 760 trình xác thực, xử lý hàng chục triệu giao dịch mỗi tháng và hỗ trợ khối lượng tài sản token hóa và giao dịch repo trái phiếu kho bạc khổng lồ. Tóm lại, trong khi nhiều blockchain tập trung vào "mở trước, xây trật tự sau", Canton đi theo hướng ngược lại: xây dựng một "nền tảng trật tự" vững chắc, có khả năng phối hợp cho các hoạt động tài chính nghiêm túc nhất, từ đó mở đường cho làn sóng các tổ chức chuyển dịch lên chain.

Foresight News3 giờ trước

Không phải chain nào cũng đỡ được cơ chế, vì sao Canton làm được

Foresight News3 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua BANANA

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Banana Gun (BANANA) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Banana Gun (BANANA) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Banana Gun (BANANA) của BạnSau khi mua Banana Gun (BANANA), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Banana Gun (BANANA)Giao dịch Banana Gun (BANANA) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 236Xuất bản vào 2024.12.11Cập nhật vào 2026.06.02

Làm thế nào để Mua BANANA

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của BANANA (BANANA) được trình bày dưới đây.

活动图片