Dalam beberapa tahun terakhir di mana AI berkembang pesat, industri hampir sepenuhnya didominasi oleh satu logika: daya komputasi menentukan batas atas, dan GPU adalah inti dari daya komputasi.
Namun, memasuki tahun 2026, logika ini mulai berubah: inferensi model bukan lagi satu-satunya hambatan, kinerja sistem semakin ditentukan oleh kemampuan eksekusi dan penjadwalan. GPU tetap penting, tetapi kunci yang menentukan apakah AI 'dijalankan' secara bertahap beralih ke CPU yang lama diabaikan.
Pada 9 April waktu setempat AS, Google dan Intel mencapai kesepakatan multi-tahun, untuk melakukan deploy prosesor 'Xeon' Intel secara global dalam skala data center AI, tepatnya untuk memecahkan hambatan ini. CEO Intel, Patrick Gelsinger, secara terbuka menyatakan bahwa AI berjalan di seluruh sistem, CPU dan IPU-lah yang menjadi kunci kinerja, efisiensi, dan fleksibilitas. Dengan kata lain, CPU yang selama dua tahun terakhir dianggap sebagai 'figuran', kini mulai 'mencekik' ekspansi AI.
CEO Intel Patrick Gelsinger menyatakan di media sosial: Intel sedang memperdalam kolaborasi dengan Google, dari CPU tradisional hingga infrastruktur AI (seperti IPU), bersama-sama memajukan kemampuan AI dan komputasi awan.
CPU tidak lagi hanya menjadi komponen pendukung pasif, tetapi sedang menjadi salah satu variabel kunci dalam infrastruktur AI.
01
Krisis Pasokan yang 'Sunyi'
Saat semua orang memantau siklus pengiriman GPU, ketegangan di pasar CPU telah penuh secara diam-diam.
Menurut laporan terbaru dari beberapa distributor IT, pada kuartal keempat tahun 2025, harga rata-rata server CPU naik sekitar 30%. Kenaikan seperti ini di pasar CPU yang relatif matang sangat langka.
Kepala Data Center AMD, Forrest Norrod, mengungkapkan bahwa dalam tiga kuartal terakhir, pertumbuhan permintaan CPU melampaui bayangan. Saat ini, siklus pengiriman AMD telah diperpanjang dari delapan minggu menjadi lebih dari sepuluh minggu, beberapa model bahkan menghadapi penundaan hingga enam bulan.
Kelangkaan ini terutama disebabkan oleh 'efek sekunder' yang memicu perebutan sumber daya. Beberapa orang dalam industri menyatakan bahwa karena lini produksi 3nm TSMC sangat ketat, kapasitas wafer yang awalnya dialokasikan untuk CPU, terus-terusan digusur oleh pesanan GPU yang lebih menguntungkan. Hal ini menyebabkan situasi yang sangat ironis: lab AI memiliki GPU yang cukup, tetapi menemukan bahwa tidak dapat membeli CPU kelas atas yang cukup di pasar untuk 'menggerakkan' kartu grafis ini.
Dalam gelombang perburuan CPU ini, ada juga Elon Musk.
CEO Intel Patrick Gelsinger mengonfirmasi di platform sosial bahwa Musk telah mempercayakan Intel untuk merancang dan memproduksi chip khusus untuk proyek 'Terafab'-nya di Texas. Proyek besar ini bertujuan untuk menyediakan dasar komputasi terpadu untuk xAI, SpaceX, dan Tesla.
Kepercayaan Musk pada Intel, sebagian besar karena Intel berusaha menanamkan dirinya di setiap lapisan, dari data center darat hingga komputasi orbit luar angkasa.
Bagi Intel, ini无疑是 adalah suntikan semangat. Beberapa analis industri memprediksi pangsa pendapatan AMD di pasar server CPU akan melampaui Intel pada tahun 2026, tetapi kelembaman mendalam Intel dalam ekosistem x86 dan kemampuan manufaktur, tetap menjadi jaminan yang tidak dapat diabaikan oleh pelanggan besar seperti Musk.
Ikatan mendalam lintas industri ini, membuat persaingan pasar CPU meningkat dari sekadar pertarungan parameter, menjadi permainan ekosistem dan stabilitas rantai pasokan.
02
Mengapa CPU Menjadi 'Penghambat'?
CPU tiba-tiba menjadi hambatan, intinya adalah pekerjaan yang perlu ditanggungnya, di era agen cerdas mengalami perubahan fundamental.
Dalam model chatbot tradisional, CPU terutama bertanggung jawab untuk penjadwalan dan pemrosesan data, GPU menanggung komputasi inferensi inti. Karena link komputasi intensif terkonsentrasi di sisi GPU, penundaan keseluruhan biasanya didominasi oleh GPU, CPU jarang menjadi hambatan kinerja.
Namun, beban kerja agen cerdas sangat berbeda. Sebuah agen cerdas perlu melakukan penalaran multi-langkah, memanggil API, membaca dan menulis database, menyusun alur bisnis yang kompleks, dan mengintegrasikan hasil intermediate menjadi output akhir. Tugas seperti pencarian, panggilan API, eksekusi kode, I/O file, dan penyusunan hasil, sebagian besar jatuh di sisi CPU dan sistem host. GPU bertanggung jawab untuk pembuatan token (yaitu 'berpikir'), sedangkan CPU bertanggung jawab untuk mengubah hasil 'pemikiran' menjadi tindakan nyata.
Para akademisi dari Georgia Institute of Technology dalam makalah yang diterbitkan pada November 2025 'A CPU-Centric Perspective on Agentic AI' (Perspektif Berpusat pada CPU untuk AI Agen), menganalisis distribusi penundaan dalam beban kerja agen cerdas secara kuantitatif. Penelitian menemukan bahwa waktu yang diambil oleh pemrosesan alat di sisi CPU, menempati 50% hingga 90,6% dari total penundaan. Dalam beberapa skenario, GPU telah siap untuk memproses batch tugas berikutnya, sementara CPU masih menunggu panggilan alat kembali.
Faktor kunci lainnya adalah ekspansi cepat jendela konteks. Pada tahun 2024, model utama sebagian besar mendukung 128K hingga 200K token. Memasuki tahun 2025, Gemini 2.5 Pro, GPT-4.1, Llama 4 Maverick dan model lainnya mulai mendukung lebih dari 1 juta token. Cache KV (Key-Value Cache, digunakan untuk mempercepat proses inferensi model Transformers) tumbuh linear dengan jumlah token, pada 1 juta token sekitar 200GB, jauh melampaui kapasitas memori 80GB dari satu H100.
Salah satu solusi untuk masalah ini adalah memindahkan sebagian cache KV ke memori CPU. Ini berarti CPU tidak hanya harus mengelola penjadwalan dan panggilan alat, tetapi juga membantu menanggung data yang tidak muat di memori. Kapasitas memori CPU, bandwidth memori, serta kecepatan interkoneksi antara CPU dan GPU, dengan demikian menjadi kunci kinerja sistem.
Oleh karena itu, CPU yang cocok untuk era agen cerdas, lebih membutuhkan kemampuan akses memori latensi rendah dan konsisten, serta kemampuan kolaborasi tingkat sistem yang lebih kuat, bukan ekspansi skala inti tunggal.
03
Apa yang Dilakukan Vendor? Ada yang Merebut Pasar, Ada yang Mengubah Desain
Menghadapi permintaan CPU yang tiba-tiba meledak ini, beberapa vendor besar memiliki pendekatan yang sangat berbeda.
Intel adalah pemain lama di server CPU tradisional. Data dari Mercury Research menunjukkan, pada kuartal keempat tahun 2025, Intel masih menguasai 60% pangsa pasar server CPU, AMD 24,3%, Nvidia 6,2%. Tetapi Intel这些年一直在追赶新技术, kali ini ledakan permintaan CPU bagi mereka既是 peluang也是 ujian.
Strategi Intel sekarang adalah两条腿走路 (berjalan dengan dua kaki). Di satu sisi terus menjual prosesor Xeon, melakukan binding mendalam dengan pelanggan hyperscale seperti Google; di sisi lain bekerja sama dengan SambaNova, meluncurkan solusi kombinasi berdasarkan prosesor Xeon dan akselerator RDU buatannya, menjual keunggulan 'dapat menjalankan inferensi agen cerdas tanpa GPU'. Peta jalan Xeon 6 Granite Rapids dan proses 18A, akan menjadi kunci untuk menguji apakah Intel dapat membalikkan keadaan.
AMD adalah salah satu penerima manfaat terbesar dari ledakan permintaan CPU ini. Pada kuartal keempat tahun 2025, pendapatan data center AMD mencapai 5,4 miliar dolar AS, meningkat 39% year-on-year. EPYC Turin generasi kelima mengambil lebih dari setengah pendapatan server CPU, deployment instance cloud yang menjalankan EPYC meningkat lebih dari 50% year-on-year. Pangsa pendapatan server CPU AMD untuk pertama kalinya突破 40%.
CEO AMD Lisa Su secara langsung mengaitkan alasan pertumbuhan ini dengan perkembangan 'agen cerdas' — beban kerja agen cerdas 'mendorong kembali' tugas ke tugas CPU tradisional.
Pada Februari 2026, AMD juga mengumumkan transaksi potensial dengan Meta, bernilai lebih dari 100 miliar dolar AS, untuk memasok GPU MI450 dan CPU EPYC Venice.
Namun, AMD仍有提升空间 dalam kolaborasi tingkat sistem, kurang memiliki kemampuan interkoneksi CPU-GPU berkecepatan tinggi yang matang seperti NVLink C2C. Seiring dengan meningkatnya persyaratan interaksi data dan efisiensi kolaborasi sistem agen (Agen), pentingnya link ini juga semakin meningkat.
Gagasan desain CPU Nvidia, sepenuhnya berbeda dengan Intel dan AMD.
CPU Grace Nvidia hanya memiliki 72 inti, sedangkan AMD EPYC dan Intel Xeon biasanya 128. Kepala Infrastruktur AI Nvidia, Dion Harris, menjelaskan: "Jika Anda adalah perusahaan hyperscale, Anda ingin memaksimalkan jumlah inti per CPU, yang pada dasarnya akan menurunkan biaya, yaitu biaya dolar per inti. Jadi ini adalah model bisnis."
Dengan kata lain, dalam sistem daya komputasi AI, peran CPU不再是 kekuatan komputasi umum, tetapi 'pusat penjadwalan' yang melayani GPU. Jika CPU tidak dapat mengikuti, GPU yang mahal akan dipaksa menunggu, efisiensi keseluruhan justru turun.
Oleh karena itu, Nvidia dalam desainnya memprioritaskan jaminan kolaborasi efisien antara CPU dan GPU. Misalnya melalui interkoneksi NVLink C2C, meningkatkan bandwidth antara CPU dan GPU menjadi sekitar 1,8TB/s, jauh lebih tinggi dari PCIe tradisional, CPU可以直接访问GPU内存, manajemen cache KV一下子简单了很多.
Saat ini, Nvidia telah menjual CPU Vera sebagai produk independen. CoreWeave adalah pelanggan pertama. Transaksi dengan Meta更夸张, ini adalah第一次大规模 'pure Grace deployment', yaitu CPU melakukan deploy independen skala besar tanpa dipasangkan dengan GPU.
Analis utama Creative Strategies, Ben Bajarin,指出, dalam kolaborasi sistem intensitas tinggi, kemampuan pemrosesan CPU harus能够匹配 kecepatan iterasi akselerator. Jika saluran data出现 bahkan penundaan satu persen,经济效益 seluruh cluster AI就会大打折扣. Pursuit terhadap efisiensi sistem极致 ini, memaksa semua vendor besar untuk memeriksa kembali indikator kinerja CPU.
Wakil Presiden dan Analis Utama Constellation Research, Holger Mueller, menyatakan bahwa seiring dengan pergeseran beban kerja AI ke arsitektur berbasis agen, posisi CPU menjadi semakin inti. Dia指出: "Dalam dunia agen cerdas, agen perlu memanggil API dan berbagai aplikasi bisnis, tugas-tugas ini paling cocok diselesaikan oleh CPU."
Dia juga menambahkan: "Saat ini, belum ada kepastian tentang GPU dan CPU mana yang lebih cocok untuk menangani tugas inferensi. GPU unggul dalam pelatihan model, dan ASIC khusus seperti TPU juga memiliki keahliannya. Tetapi satu hal yang jelas: Google perlu mengadopsi arsitektur prosesor hybrid. Oleh karena itu, keputusan Google untuk bekerja sama dengan Intel adalah masuk akal".
04
Kesimpulan: Era Agen Cerdas, Keseimbangan Daya Komputasi Berayun Kembali
Dalam pengamatan industri terbaru, satu data需要 kita perhatikan. Dalam perjanjian kerja sama senilai 38 miliar dolar AS antara AWS Amazon dan OpenAI, pihak resmi juga明确 menyebutkan skala ekspansi 'puluhan juta CPU'.
Dalam beberapa tahun terakhir, biasanya, fokus perhatian industri总是那 'ratusan ribu GPU'. Namun, lab前沿 seperti OpenAI secara aktif menjadikan skala CPU sebagai variabel perencanaan penting, menyampaikan sinyal yang jelas ke luar: ekspansi beban kerja agen cerdas, harus dibangun di atas infrastruktur CPU yang besar.
Bank of America memprediksi, pada tahun 2030, ukuran pasar CPU global有望 meningkat dua kali lipat dari目前的 27 miliar dolar AS menjadi 60 miliar dolar AS. Tambahan pangsa ini, hampir seluruhnya akan didorong oleh AI.
Kita正在 menyaksikan一种 infrastruktur baru mulai berekspansi: vendor besar不再 hanya menumpuk GPU, tetapi同步 memperluas一整层 'infrastruktur penjadwalan CPU', khusus menyediakan dukungan operasi untuk agen cerdas AI.
Kerjasama Intel dan Google, serta investasi besar-besaran Musk pada chip khusus, semuanya membuktikan satu fakta: titik kemenangan dalam perlombaan AI正在 bergerak maju. Ketika daya komputasi不再 langka, siapa yang paling dulu dapat memecahkan 'hambatan' tingkat sistem, siapa yang dapat tertawa terakhir dalam permainan triliunan dolar ini.
*Kontributor kompilasi khusus Jinlu juga berkontribusi pada artikel ini.
Artikel ini来自微信公众号 "腾讯科技", penulis: Li Hailun, editor: Xu Qingyang








