6 Transformasi Paradigma AI pada 2025: Dari Pelatihan RLVR, Vibe Coding, hingga Nano Banana

marsbit發佈於 2025-12-22更新於 2025-12-22

文章摘要

2025 menandai enam perubahan paradigma penting dalam pengembangan AI, terutama di bidang Large Language Models (LLM). Pertama, **Reinforcement Learning with Verifiable Rewards (RLVR)** menjadi teknik inti yang memungkinkan model berlatih dalam lingkungan dengan reward yang dapat diverifikasi secara otomatis (seperti matematika dan pemrograman), menghasilkan kemampuan bernalar yang lebih baik. Kedua, muncul pemahaman baru tentang **"Kecerdasan Hantu vs. Kecerdasan Bergigi"**, di mana kecerdasan AI tidak seperti hewan tetapi lebih seperti "hantu" dengan kemampuan yang tidak merata dan mudah dimanipulasi. Ketiga, **Cursor** memperkenalkan lapisan aplikasi LLM baru yang mengintegrasikan dan mengoordinasi panggilan LLM untuk domain tertentu. Keempat, **Claude Code** menunjukkan agen AI yang berjalan di komputer lokal pengguna, berinteraksi dengan data dan konteks pribadi. Kelima, **Vibe Coding** memungkinkan siapa saja membuat program hanya dengan deskripsi bahasa Inggris, mendemokratisasi pemrograman. Terakhir, **Nano banana** dari Google memperkenalkan antarmuka visual untuk LLM, mengubah cara manusia berinteraksi dengan AI dari teks ke visual yang lebih alami. Perubahan ini tidak hanya meningkatkan kemampuan teknis tetapi juga mengubah bagaimana AI diintegrasikan dan digunakan.

Penulis: Andrej Karpathy

Kompilasi: Tim, PANews

Tahun 2025 adalah tahun perkembangan pesat dan penuh perubahan untuk model bahasa besar (LLM), di mana kami telah mencapai hasil yang melimpah. Berikut adalah "transformasi paradigma" yang menurut saya layak diperhatikan dan agak mengejutkan, perubahan-perubahan ini telah mengubah lanskap, setidaknya pada tingkat konseptual membuat saya sangat terkesan.

1. Reinforcement Learning dengan Reward yang Dapat Diverifikasi (RLVR)

Awal 2025, tumpukan produksi LLM di semua lab AI kira-kira berbentuk sebagai berikut:

Pra-pelatihan (GPT-2/3 tahun 2020);
Penyempurnaan Terawasi (InstructGPT tahun 2022);
serta Reinforcement Learning dari Umpan Balik Manusia (RLHF, tahun 2022)

Untuk waktu yang lama, ini adalah tumpukan teknologi yang stabil dan matang untuk melatih model bahasa besar tingkat produksi. Pada tahun 2025, Reinforcement Learning dengan Reward yang Dapat Diverifikasi telah menjadi teknologi inti yang diadopsi secara utama. Dengan melatih model bahasa besar dalam berbagai lingkungan yang reward-nya dapat diverifikasi secara otomatis (misalnya matematika, pemecahan masalah pemrograman), model-model ini dapat secara spontan membentuk strategi yang oleh manusia dilihat sebagai "penalaran". Mereka belajar memecahkan pemecahan masalah menjadi langkah-langkah komputasi perantara, dan menguasai berbagai strategi untuk memecahkan masalah melalui penalaran berulang (dapat merujuk pada kasus dalam makalah DeepSeek-R1). Dalam tumpukan sebelumnya, strategi-strategi ini sulit diwujudkan, karena bagi model bahasa besar, jalur penalaran optimal dan mekanisme backtracking tidak jelas, dan harus dieksplorasi melalui optimisasi reward untuk menemukan solusi yang sesuai untuk diri mereka sendiri.

Berbeda dengan tahap penyempurnaan terawasi dan tahap RLHF (kedua tahap ini relatif singkat, merupakan penyempurnaan dengan komputasi yang relatif kecil), RLVR melibatkan pelatihan optimisasi yang lama terhadap fungsi reward yang objektif dan tidak dapat dimanipulasi. Terbukti bahwa menjalankan RLVR memberikan peningkatan kemampuan yang signifikan per unit biaya, yang banyak menghabiskan sumber daya komputasi yang awalnya direncanakan untuk pra-pelatihan. Oleh karena itu, kemajuan kemampuan model bahasa besar pada tahun 2025 terutama terlihat dari bagaimana lab-lab AI besar mencerna kebutuhan komputasi yang sangat besar yang dibawa oleh teknologi baru ini. Secara keseluruhan, kami melihat skala model kira-kira sama, tetapi waktu pelatihan reinforcement learning diperpanjang secara signifikan. Keunikan lain dari teknologi baru ini adalah bahwa kami mendapatkan dimensi pengaturan baru (serta Hukum Scaling yang sesuai), yaitu dengan menghasilkan jejak penalaran yang lebih panjang, menambah "waktu berpikir", mengontrol kemampuan model sebagai fungsi dari jumlah komputasi pada saat pengujian. Model o1 OpenAI (dirilis akhir 2024) adalah demonstrasi pertama model RLVR, sedangkan rilis o3 (awal 2025) adalah titik balik yang jelas, yang membuat orang dapat merasakan lompatan kualitatif secara intuitif.

2. Kecerdasan Hantu vs. Kecerdasan Bergigi Hewan

Tahun 2025 membuat saya (dan saya pikir seluruh industri) untuk pertama kalinya mulai memahami "bentuk" kecerdasan model bahasa besar dari sudut pandang yang lebih intuitif. Kami bukan "mengembangkan, memelihara hewan", tetapi "memanggil hantu". Seluruh tumpukan teknologi model bahasa besar (arsitektur neural, data pelatihan, algoritma pelatihan, terutama tujuan optimisasi) sangat berbeda, sehingga wajar jika kami mendapatkan entitas yang sangat berbeda dari kecerdasan biologis di bidang kecerdasan, dan tidak tepat untuk melihatnya dari sudut pandang hewan. Dari perspektif informasi pengawasan, jaringan saraf manusia dioptimalkan untuk kelangsungan hidup suku di lingkungan hutan, sedangkan jaringan saraf model bahasa besar dioptimalkan untuk meniru teks manusia, mendapatkan reward dalam teka-teki matematika, dan memenangkan likes manusia di arena. Ketika domain yang dapat diverifikasi menyediakan kondisi untuk RLVR, kemampuan model bahasa besar di sekitar domain-domain ini akan "melonjak", secara keseluruhan menampilkan karakteristik kinerja bergigi yang menarik. Mereka mungkin sekaligus jenius yang berpengetahuan luas, dan juga murid SD yang bingung dan secara kognitif sulit, yang dapat membocorkan data Anda kapan saja di bawah诱导 (induksi) kebocoran.

Kecerdasan manusia: biru, Kecerdasan AI: merah. Saya suka versi meme ini (maaf saya tidak dapat menemukan sumber tweet aslinya), karena ini menunjukkan bahwa kecerdasan manusia sebenarnya juga memiliki caranya sendiri yang bergelombang dan bergigi.

Terkiat dengan ini, pada tahun 2025 saya menjadi acuh tak acuh dan tidak percaya terhadap berbagai jenis pengujian patokan. Masalah intinya adalah bahwa pengujian patokan pada dasarnya hampir semuanya adalah lingkungan yang dapat diverifikasi, sehingga sangat rentan terhadap RLVR dan bentuk yang lebih lemah melalui generasi data sintetis. Dalam proses tipikal "memaksimalkan skor", tim model bahasa besar tidak dapat dihindari akan membangun lingkungan pelatihan di dekat ruang embed kecil tempat pengujian patokan berada, dan menutupi area-area ini dengan "gigi kemampuan". "Melatih pada set pengujian" telah menjadi normal baru.

Menyapu semua pengujian patokan tetapi masih gagal mencapai kecerdasan buatan umum, lalu bagaimana?

3. Cursor: Lapisan Aplikasi LLM Baru

Yang paling membuat saya terkesan tentang Cursor (selain kebangkitannya yang cepat tahun ini) adalah bahwa itu meyakinkan mengungkapkan lapisan "aplikasi LLM" baru, karena orang mulai berbicara tentang "Cursor untuk bidang XX". Seperti yang saya tekankan dalam presentasi Y Combinator tahun ini, inti dari aplikasi LLM seperti Cursor adalah mengintegrasikan dan mengatur panggilan LLM untuk domain vertikal tertentu:

Mereka bertanggung jawab atas "rekayasa konteks";
Di balik layar, mengatur beberapa panggilan LLM menjadi Directed Acyclic Graph yang semakin kompleks, menyeimbangkan performa dan biaya dengan halus; Menyediakan antarmuka grafis khusus aplikasi untuk personel dalam "human-in-the-loop";
Dan menyediakan "slider penyesuaian otonomi".

Tahun 2025, telah ada diskusi luas tentang ruang pengembangan di sekitar lapisan aplikasi yang baru muncul ini. Akankah platform model bahasa besar mengambil alih semua aplikasi, atau apakah masih ada ruang luas untuk aplikasi model bahasa besar? Secara pribadi saya menduga, posisi platform model bahasa besar akan semakin mendekati "lulusan universitas generalis", sedangkan aplikasi model bahasa besar bertanggung jawab untuk mengorganisir "lulusan" ini, menyempurnakannya, dan dengan menyediakan data privat, sensor, aktuator, dan loop umpan balik, membuatnya benar-benar menjadi "tim profesional" yang dapat diterjunkan dalam domain vertikal tertentu.

4. Claude Code: AI yang Berjalan Secara Lokal

Kemunculan Claude Code, untuk pertama kalinya secara meyakinkan menunjukkan bentuk agen LLM, yang dengan cara berulang, menggabungkan penggunaan alat dengan proses penalaran, sehingga mencapai pemecahan masalah kompleks yang lebih persisten. Selain itu, yang membuat saya terkesan dengan Claude Code adalah, ia berjalan di komputer pribadi pengguna, terintegrasi secara mendalam dengan lingkungan, data, dan konteks privat pengguna. Saya pikir OpenAI memiliki penilaian yang salah arah dalam hal ini, karena mereka memfokuskan pengembangan asisten kode, agen pada deployment cloud, yaitu lingkungan yang dikontainerisasi dan diatur oleh ChatGPT, bukan lingkungan localhost. Meskipun cluster agen yang berjalan di cloud sepertinya adalah "bentuk akhir menuju AGI", kami saat ini berada dalam tahap transisi di mana kemampuan berkembang tidak merata dan perkembangannya relatif lambat. Dalam kondisi realitas seperti ini, menempatkan agen langsung di komputer lokal, berkolaborasi erat dengan pengembang dan lingkungan kerja spesifik mereka, adalah jalur yang lebih masuk akal. Claude Code准确把握了这一优先顺序 (tepat menangkap urutan prioritas ini), dan mengemasnya dalam bentuk alat command line yang ringkas, elegan, dan sangat menarik, sehingga membentuk ulang cara AI disajikan. Ia tidak lagi hanya sebuah situs web yang perlu diakses seperti Google, tetapi "tinggal" di komputer Anda seperti peri kecil atau hantu. Ini adalah paradigma interaksi dengan AI yang baru dan unik.

5. Vibe Coding (Pemrograman Suasana)

Tahun 2025, AI melampaui ambang batas kemampuan kunci, sehingga memungkinkan untuk membangun berbagai program yang menakjubkan hanya dengan deskripsi bahasa Inggris, orang tidak perlu peduli dengan kode di baliknya. Yang menarik, saya pernah menciptakan istilah "Vibe Coding" dalam sebuah tweet pemikiran acak saat mandi, sama sekali tidak menyangka akan berkembang sejauh ini. Dalam paradigma pemrograman suasana, pemrograman tidak lagi menjadi domain yang sangat dibatasi untuk para profesional yang sangat terlatih, tetapi menjadi sesuatu yang dapat diikuti oleh semua orang. Dari sudut pandang ini, ini adalah又一例证 (contoh lain) dari fenomena yang saya gambarkan dalam artikel "Memberdayakan Orang: Bagaimana Model Bahasa Besar Mengubah Mode Difusi Teknologi". Berbeda dengan semua teknologi lainnya sejauh ini, orang biasa mendapatkan manfaat lebih banyak dari model bahasa besar dibandingkan dengan profesional, perusahaan, dan pemerintah. Tetapi pemrograman suasana tidak hanya memberdayakan orang biasa untuk mengakses pemrograman, tetapi juga memberdayakan pengembang profesional untuk menulis lebih banyak perangkat lunak yang "tidak akan pernah diwujudkan". Saat mengembangkan nanochat, saya menggunakan pemrograman suasana untuk menulis tokenizer BPE yang efisien dan kustomisasi dengan Rust, tanpa harus bergantung pada library yang ada atau mempelajari Rust secara mendalam. Tahun ini, saya juga menggunakan pemrograman suasana untuk dengan cepat membuat beberapa prototipe proyek, hanya untuk memverifikasi apakah某些构想 (konsep tertentu) layak. Saya bahkan pernah menulis seluruh aplikasi sekali pakai, hanya untuk melokalisasi bug tertentu, karena kode tiba-tiba menjadi gratis, sementara, dapat dibentuk, dan dapat dibuang setelah digunakan. Pemrograman suasana akan membentuk ulang ekosistem pengembangan perangkat lunak, dan secara mendalam mengubah batasan definisi karir.

6. Nano banana: Antarmuka Grafis LLM

Gemini Nano banana dari Google adalah salah satu transformasi paradigma paling disruptif pada tahun 2025. Menurut saya, model bahasa besar adalah paradigma komputasi besar berikutnya setelah komputer tahun 1970, 80-an. Oleh karena itu, kami akan melihat inovasi sejenis berdasarkan alasan mendasar yang serupa, mirip dengan evolusi komputasi pribadi, mikrokontroler, bahkan internet. Terutama dalam interaksi manusia-komputer, mode "percakapan" saat ini dengan LLM, agak某种程度上 (sedikit) mirip dengan memasukkan perintah ke terminal komputer pada tahun 1980-an. Teks adalah bentuk representasi data paling primitif untuk komputer (dan LLM), tetapi bukan cara pilihan utama manusia (terutama saat input). Manusia sebenarnya benci membaca teks, itu lambat dan melelahkan. Sebaliknya, manusia lebih cenderung menerima informasi melalui dimensi visual dan spasial, yang juga正是 (tepatnya) alasan kelahiran antarmuka pengguna grafis dalam komputasi tradisional. Demikian pula, model bahasa besar harus berkomunikasi dengan kami dalam bentuk yang disukai manusia, melalui pembawa seperti gambar, infografis, slide, papan tulis, animasi, video, aplikasi web, dll. Bentuk awal saat ini telah diwujudkan melalui "dekorasi teks visual" seperti emoji dan Markdown (seperti judul, tebal, daftar, tabel, dll. elemen tata letak). Tapi siapa sebenarnya yang akan membangun antarmuka grafis untuk model bahasa besar? Dari perspektif ini, nano banana正是 (tepatnya)雏形 awal (prototipe awal) dari蓝图 masa depan (cetak biru masa depan) ini. Perlu dicatat bahwa, terobosan nano banana tidak hanya terletak pada kemampuan generasi gambar itu sendiri, tetapi lebih pada kemampuan综合 (komprehensif) yang terbentuk dari jalinan generasi teks, generasi gambar, dan pengetahuan dunia dalam bobot model.

你可能也喜歡

亿万富翁雷·达利欧解释他为何更青睐黄金而非比特币

亿万富翁投资者、全球最大对冲基金桥水创始人瑞·达利欧就全球金融体系、经济风险与资产配置发表重要观点。他指出，投资者应在潜在金融危机中转向比特币和黄金等“硬通货”资产，并分享了对加密货币的偏好与担忧。达利欧曾成功预测2008年全球金融危机，他警告市场正因人工智能形成严重泡沫。高债务水平、收入不平等和地缘政治紧张局势正在威胁经济秩序。达利欧强调资本不应因通胀贬值，投资组合需多元化以应对危机。他透露个人投资组合中比特币约占1%，建议投资者将5%-15%的资产配置于央行无法无限印发的“硬通货”。尽管将比特币归类为不可印刷的货币，达利欧认为黄金是比比特币更安全的避险资产。他对比特币持谨慎态度的主要原因包括：政府拥有对比特币征税、限制或控制的权力；央行因隐私与控制担忧不会大量持有比特币；量子计算机等新技术可能威胁加密货币基础设施；以及比特币缺乏隐私性。达利欧指出，黄金拥有千年历史，是最具形体的金融资产，且不依赖于单一方的责任。他主张不应依赖单一资产抵御金融波动，而需通过股票、债券、房地产、黄金和比特币等多资产类别实现平衡的多元化配置。 *本文不构成投资建议。

cryptonews.ru25 分鐘前

cryptonews.ru25 分鐘前

最新消息：迈克尔·塞勒就今日比特币抛售发表声明！ “我说过我永远不会卖掉我的个人比特币”

迈克尔·塞勒领导的上市公司Strategy今日以约1.05亿美元的价格出售了1638枚比特币，平均售价为63,957美元，使其总持有量降至842,138枚BTC，总价值约635亿美元。塞勒对此澄清，其个人长期持有的比特币“从未出售”，哪怕一聪。他强调，自己常说的“永不卖出比特币”是私人投资者间的建议。而Strategy作为上市公司，其比特币交易（包括本次出售）是基于公开披露的财务策略，旨在满足运营资金、股息支付、债务利息或股票回购等需求，此举与公司对比特币的根本信念无关。

cryptonews.ru1 小時前

最新消息：迈克尔·塞勒就今日比特币抛售发表声明！ “我说过我永远不会卖掉我的个人比特币”

cryptonews.ru1 小時前

分析公司揭示比特币（BTC）的关键门槛：“这可能终结熊市！”以下是详细内容

领先加密货币比特币虽维持在6万美元以上，但10x Research创始人Marcus Thielen指出，比特币可能尚未触底。他认为月度收盘价能否站上6.3万美元是关键阈值，若能突破则可能确认熊市结束；但7月收盘低于该水平，表明市场仍未给出最终确认信号。目前价格位于7日和30日移动均线之下，且上周下跌3.2%，短期趋势仍看跌。 Thielen还提及宏观风险：若美国10年期国债收益率持续上升，美联储或被迫在9月重启加息，持续高利率可能对BTC等风险资产构成压力。此外，比特币矿商及持有BTC的机构可能带来抛压，尤其是一些转向AI领域的矿商持有约10万枚BTC，其清算行为可能加剧卖方压力。总之，比特币要重回上涨趋势，既需守住关键技术位，也依赖有利的宏观经济环境。 *本文不构成投资建议。

cryptonews.ru1 小時前

cryptonews.ru1 小時前

XDC Tech整合Bridge稳定币平台，将链上稳定币结算引入自主AI商务

2026年8月3日，XDC Network的美国机构部门XDC Tech宣布与稳定币基础设施平台Bridge（Stripe旗下公司）完成关键集成。此次合作为XDC生态开发者提供了直接接入Bridge合规工具的能力，包括法币与稳定币的兑换通道、虚拟账户及多币种托管服务。核心应用场景是支付。企业可通过Bridge虚拟账户接收美元、欧元等法币，并近乎实时地在XDC网络上以稳定币结算，从而绕开代理行和多日清算流程。该方案已应用于贸易金融，使进出口商能以USDC等稳定币快速结算发票，并扩展到代币化资产领域。此次集成是XDC构建“智能体经济”结算层路线图的重要一环，旨在支持自主AI智能体以机器速度进行交易。其关键价值包括： 1. 为自主智能体提供机器速度的结算（XDC交易2秒最终确认）； 2. 提供受监管的法币通道，覆盖美、欧及拉美地区； 3. 虚拟账户可作为智能体的原生钱包，使其具备独立的经济身份； 4. 多币种托管支持跨境智能体商务； 5. 赋能智能体驱动的贸易金融与代币化资产交易； 6. 集成即合规，满足KYC、反洗钱等监管要求，确保智能体支付的可审计性。 XDC联合创始人Atul Khekade表示，此次合作是面向智能体经济的更广泛建设的一部分。Bridge产品负责人Mai Leduc Blount则认为，稳定币结算网络需要从第一天就为速度和最终性而构建，XDC正是这样的基础。该集成已通过XDC和Bridge的开发者门户开放。

cointelegraph1 小時前

cointelegraph1 小時前

贝莱德推出代币化货币市场基金，旨在为稳定币提供储备资产

全球最大资产管理公司贝莱德推出了两款代币化货币市场产品，旨在作为稳定币的储备资产。第一款产品是"BlackRock Select Treasury Based Liquidity Fund OnChain Shares"（BSTBL），为现有基金在以太坊上的代币化份额。第二款产品是全新设立的"BlackRock Daily Reinvestment Stablecoin Reserve Vehicle"（BRSRV），支持多链且每日自动复投。两款产品均按照2025年7月生效的《GENIUS法案》设计，可作为合规美元支付稳定币的合格储备资产。此举扩大了贝莱德在代币化国债市场的布局，其旗下BUIDL基金目前是该领域规模最大的产品，资产超26亿美元。

cointelegraph2 小時前

cointelegraph2 小時前

交易

現貨

6 Transformasi Paradigma AI pada 2025: Dari Pelatihan RLVR, Vibe Coding, hingga Nano Banana

文章摘要

1. Reinforcement Learning dengan Reward yang Dapat Diverifikasi (RLVR)

2. Kecerdasan Hantu vs. Kecerdasan Bergigi Hewan

3. Cursor: Lapisan Aplikasi LLM Baru

4. Claude Code: AI yang Berjalan Secara Lokal

5. Vibe Coding (Pemrograman Suasana)

6. Nano banana: Antarmuka Grafis LLM

熱門幣種推薦

相關問答

你可能也喜歡

亿万富翁雷·达利欧解释他为何更青睐黄金而非比特币

最新消息：迈克尔·塞勒就今日比特币抛售发表声明！ “我说过我永远不会卖掉我的个人比特币”

分析公司揭示比特币（BTC）的关键门槛：“这可能终结熊市！”以下是详细内容

XDC Tech整合Bridge稳定币平台，将链上稳定币结算引入自主AI商务

贝莱德推出代币化货币市场基金，旨在为稳定币提供储备资产

交易

熱門文章

如何購買BANANA

相關討論

熱門問答

熱門分類

熱門標籤