# Artikel Terkait Inferensi

Pusat Berita HTX menyediakan artikel terbaru dan analisis mendalam mengenai "Inferensi", mencakup tren pasar, pembaruan proyek, perkembangan teknologi, dan kebijakan regulasi di industri kripto.

Melampaui 'Tembok Memori', Revolusi Tingkat Wafer dan Rute Kekuatan Komputasi di Era Inferensi AI

Pada tahun 2026, titik balik global AI muncul: belanja modal *inference* penyedia awan melebihi *training*, menandai pergeseran dari "membuat" ke "menggunakan" model besar. Hambatan utama bergeser dari daya komputasi ke "dinding memori"—bottleneck dalam memindahkan data (seperti berat model dan KV Cache) antara DRAM dan GPU, yang menyebabkan konsumsi energi tinggi dan penundaan. Arsitektur alternatif seperti Cerebras menawarkan solusi radikal melalui Wafer-Scale Engine (WSE). Daripada memotong wafer, Cerebras menggunakannya utuh sebagai satu chip raksasa (WSE-3), menampung 44GB SRAM *on-chip* dengan bandwidth 21 PB/detik—ribuan kali lebih cepat dari HBM tradisional. Ini memungkinkan aliran berat model dari memori eksternal (MemoryX) ke chip dengan latency sangat rendah, meningkatkan kecepatan *token* inferensi hingga 1,5–5x dibandingkan GPU seperti NVIDIA B200. Selain itu, daya interkoneksinya jauh lebih efisien (0,15 pJ/bit vs 10 pJ/bit GPU). Namun, pendekatan ini menghadapi tantangan: skala SRAM terhambat batas fisik, memerlukan sistem pendingin khusus, bandwidth I/O eksternal terbatas, dan ekosistem perangkat lunaknya yang kurang umum. Sementara itu, raksasa teknologi merespons dengan tiga jalur: chip ASIC khusus inferensi (seperti Microsoft Maia), kemasan *wafer-scale* yang semakin umum (misal, TSMC SoW), serta eksplorasi interkoneksi optik. Tekanan komersial juga besar bagi Cerebras, yang kini harus membangun pusat data skala besar untuk memenuhi pesanan. Intinya, tidak ada solusi sempurna. Cerebras mengoptimalkan latency ekstrem untuk beban kerja tertentu, sementara NVIDIA mempertahankan fleksibilitas untuk beban beragam. Pertarungan arsitektur ini masih terbuka dalam lanskap komputasi AI yang terus berubah.

marsbit06/05 11:11

Melampaui 'Tembok Memori', Revolusi Tingkat Wafer dan Rute Kekuatan Komputasi di Era Inferensi AI

marsbit06/05 11:11

CPU, Diam-diam Kembali ke Panggung Utama Komputasi AI

Selama tiga tahun terakhir, narasi kekuatan komputasi AI hampir sepenuhnya berpusat pada GPU, dengan CPU hanya dianggap sebagai peran pendukung. Namun, mulai 2026, narasi ini mulai retak. Intel meluncurkan prosesor Xeon 6+ di Beijing, yang dideskripsikan bukan sebagai pendamping GPU, melainkan sebagai "bidang kendali" infrastruktur AI, yang bertanggung jawab atas orkestrasi, konkurensi, dan aliran data. Laporan dari SemiAnalysis pada Februari 2026 juga menyoroti "kembalinya CPU" dengan cara yang berbeda. Pergeseran ini didorong oleh perubahan beban kerja AI dari pelatihan model skala besar ke inferensi dan agen AI yang melibatkan ribuan tugas ringan secara bersamaan. Di sinilah CPU, dengan kemampuan orkestrasi dan penanganan aliran data, menjadi penting kembali—bukan karena lebih cepat daripada GPU, tetapi karena menyelesaikan hambatan baru yang tidak dapat ditangani GPU. Xeon 6+ memilih jalur inti efisiensi (E-core) hingga 288 inti, berfokus pada kepadatan dan efisiensi tinggi untuk menangani beban kerja throughput tinggi seperti agen AI. Namun, jalan Intel tidak tanpa tantangan: persaingan dengan NVIDIA (yang mengembangkan solusi CPU+GPU terintegrasi), CPU ARM buatan vendor cloud seperti AWS Graviton, serta ketatnya kompetisi teknologi proses manufaktur 18A melawan TSMC N2 dan Samsung 2nm. Kesimpulannya, kembalinya CPU ke panggung kekuatan AI adalah nyata, didorong oleh kebutuhan orkestrasi dalam era agen AI. Namun, siapa yang akan memimpin "kembalinya" ini—apakah Intel, ARM, vendor cloud, atau NVIDIA—masih harus dibuktikan dalam beberapa tahun ke depan.

marsbit06/03 10:45

CPU, Diam-diam Kembali ke Panggung Utama Komputasi AI

marsbit06/03 10:45

Menjalankan MoE di Ponsel? Meta Mengusulkan MobileMoE, iPhone 16 Pro Dipercepat 3,8 Kali Lipat

Meta memperkenalkan MobileMoE, campuran model ahli (MoE) pertama yang dirancang untuk inferensi efisien di smartphone. Mengganti lapisan feed-forward padat dengan MoE, MobileMoE-S/M mencapai akurasi setara atau lebih tinggi dengan hanya 1/2 hingga 1/4 komputasi inferensi model padat dalam 14 tes dasar. Di iPhone 16 Pro, MobileMoE-S mempercepat inferensi hingga 3.8x pada fase input. Model ini dilatih dalam empat tahap: pra-pelatihan, pelatihan menengah, fine-tuning terawasi, dan pelatihan aware-kuantisasi (kuantisasi INT4/INT8). Konfigurasi optimal menggunakan 8 ahli dengan granularitas 8, routing Top-4, dan 1 ahli bersama. Dalam evaluasi, MobileMoE mengungguli model seperti Qwen3.5 2B dan OLMoE-1B-7B dalam skala parameter lebih kecil, terutama unggul dalam tugas kode dan matematika. Setelah kuantisasi INT4, kinerja tetap kompetitif. Di perangkat Samsung Galaxy S25 dan iPhone 16 Pro, MobileMoE menunjukkan peningkatan kecepatan signifikan dan penggunaan memori lebih rendah dibanding baseline. Tantangan ke depan mencakup peningkatan kemampuan penalaran, eksplorasi NPU, dan optimasi memori dinamis untuk routing MoE di perangkat seluler.

marsbit06/01 06:11

Menjalankan MoE di Ponsel? Meta Mengusulkan MobileMoE, iPhone 16 Pro Dipercepat 3,8 Kali Lipat

marsbit06/01 06:11

Diskon 99% untuk MiMo Bukan Hanya Pemasaran! Luo Fuli Membantah Para Pengecam di X

**Ringkasan:** Xiaomi MiMo memotong harga API MiMo-V2.5 hingga **99%**, memicu spekulasi tentang perang harga atau strategi merugi. Luo Fuli, kepala MiMo, merespons dengan mempublikasikan blog teknis 5000 kata yang merinci **enam pilar teknikal** di balik potongan harga besar ini. Intinya, diskon 99% terutama untuk **Input (Cache Hit)** – bagian dimana pengguna membaca ulang konteks historis dalam percakapan panjang. Ini menjadi mungkin karena serangkaian optimasi teknikal yang mengubah biaya komputasi untuk bagian tersebut mendekati nol. **Enam Pilar Teknikal:** 1. **Arsitektur Hybrid SWA:** Menggunakan Sliding Window Attention di sebagian besar lapisan model, mengurangi volume **KVCache** (memori jangka pendek model) hingga **1/7**. 2. **Manajemen KVCache Dua Kolam:** Mengalokasikan memori secara terpisah untuk lapisan SWA dan Full Attention, benar-benar mewujudkan penghematan teoretis 1/7 dan meningkatkan jumlah pengguna yang dapat dilayani secara bersamaan. 3. **Prefix Cache yang Dioptimalkan:** Meningkatkan aturan pencocokan cache untuk arsitektur SWA, menghasilkan **tingkat keberhasilan cache 93-95%** untuk pembacaan ulang. Artinya, sebagian besar permintaan "baca ulang" tidak memerlukan komputasi GPU baru. 4. **Sistem Cache Terdistribusi GCache:** Menyimpan data cache di **SSD bawaan mesin GPU**, menghilangkan biaya penyimpanan cluster khusus dan memperpanjang masa hidup cache. 5. **Sistem Penjadwalan LLM-Router:** Mengarahkan permintaan secara cerdas berdasarkan kesamaan prefix dan panjang konteks, memprioritaskan permintaan yang menggunakan cache, meningkatkan efisiensi dan mengurangi latensi. 6. **Multi-Token Prediction (MTP):** Mengoptimalkan proses generasi output model, mempercepat pembuatan respons dan melengkapi pengurangan biaya di sisi input. **Kesimpulan:** Penurunan harga 99% bukanlah gimmick pemasaran atau strategi merugi, tetapi hasil dari **efisiensi sistemik rekayasa AI** yang telah divalidasi di lingkungan produksi. Rantai optimasi ini secara kumulatif mengurangi biaya komputasi per permintaan hingga lebih dari 95%, memungkinkan penurunan harga ekstrem sambil mempertahankan profitabilitas. Luo Fuli menekankan bahwa ini adalah masalah teknikal yang terwujud, bukan sekadar perang harga.

marsbit05/31 10:40

Diskon 99% untuk MiMo Bukan Hanya Pemasaran! Luo Fuli Membantah Para Pengecam di X

marsbit05/31 10:40

Filosofi Investasi Gavin Baker, Investor Awal Nvidia: Long pada Hambatan Infrastruktur AI, Short pada Risiko Pasar Secara Keseluruhan

Fokus Investasi Gavin Baker: Memanfaatkan Hambatan Infrastruktur AI dan Melindungi Risko Pasar Investor awal Nvidia, Gavin Baker, meyakini AI bukan gelembung, melainkan siklus super infrastruktur yang digerakkan oleh listrik, wafer, dan daya komputasi. Dia melihat peluang keuntungan terbesar bukan pada model bahasa besar atau chatbot, tetapi pada "penjual sekop" seperti koneksi GPU, memori, chip inferensi, dan pasokan listrik. Strateginya adalah "long pada hambatan, short pada risiko pasar": dia berkonsentrasi pada aset yang mengatasi hambatan fisik AI (seperti Astera Labs, Micron, Nvidia, Cerebras) sambil melindungi portofolio dengan opsi jual (put) pada indeks QQQ untuk mengantisipasi koreksi pasar luas. Baker berpendapat siklus AI saat ini berbeda dari gelembung dot-com karena didanai oleh perusahaan matang dengan arus kas kuat, bukan utang. Selain itu, pasokan dibatasi secara fisik oleh kapasitas produksi chip (seperti dari TSMC dan ASML) serta jaringan listrik, sehingga mencegah kelebihan pasokan dan membuat pertumbuhan lebih berkelanjutan. Dia mengidentifikasi empat area investasi kunci: model bahasa kecil terspesialisasi, infrastruktur berdaulat yang dapat diterapkan cepat, perusahaan yang meningkatkan kinerja per watt dan menurunkan biaya token, serta solusi energi dan komputasi orbital (seperti SpaceX) untuk mengatasi keterbatasan jaringan listrik.

marsbit05/30 03:29

Filosofi Investasi Gavin Baker, Investor Awal Nvidia: Long pada Hambatan Infrastruktur AI, Short pada Risiko Pasar Secara Keseluruhan

marsbit05/30 03:29

Membedah Filosofi Investasi Gavin Baker, Investor Awal Nvidia: Long Bottleneck Infrastruktur AI, Short Risiko Pasar Keseluruhan

**Ringkasan: Filsafat Investasi Gavin Baker - Fokus pada Kemacetan Infrastruktur AI, Lindungi Diri dari Risiko Pasar** Investor awal Nvidia, Gavin Baker, percaya AI bukan gelembung, melainkan **siklus super infrastruktur** yang digerakkan oleh tiga faktor kunci: **listrik (watts), wafer silikon, dan token komputasi**. Menurutnya, keuntungan investasi terbesar tidak terletak pada model bahasa besar (seperti OpenAI/Anthropic) atau SaaS, tetapi pada penyedia infrastruktur fisik ("penjual sekop") yang mengatasi kemacetan. **Strategi inti Baker adalah:** 1. **"Long" pada aset kemacetan AI:** Berinvestasi pada perusahaan yang mengatasi hambatan dalam pasokan listrik, chip (terutama untuk *inference*), konektivitas data (seperti Astera Labs), memori (seperti Micron), dan fabrikasi canggih (seperti TSMC, ASML). Contoh investasinya termasuk Nvidia, Cerebras, dan Positron. 2. **"Short" pada risiko pasar luas:** Melindungi portofolio dengan opsi jual (put) pada ETF QQQ untuk lindung nilai terhadap koreksi pasar secara keseluruhan, karena ia percaya pada AI tetapi tidak optimis terhadap sentimen pasar luas. **Alasan mengapa ini bukan gelembung seperti dot-com:** * **Dibiayai dengan uang tunai, bukan utang:** Pembeli utama infrastruktur AI (Google, Microsoft, dll.) menggunakan kas mereka, bukan leverage. * **Dibatasi oleh kendala fisik:** Pasokan terbatas pada listrik, kapasitas fabrikasi wafer (TSMC), dan peralatan canggih (ASML) mencegah kelebihan pasokan dan pengeluaran modal yang tidak terkendali. * **Permintaan nyata:** Pendapatan dari perusahaan AI seperti OpenAI/Anthropic sudah signifikan dan banyak yang dibayar di muka. **Area investasi utama yang diidentifikasi:** * **Model Bahasa Kecil yang Terspesialisasi (SLMs):** Untuk penggunaan perusahaan dan perangkat tepi (*on-device*). * **Infrastruktur Kedaulatan & Kecepatan Penerapan Fisik:** Perusahaan yang dapat membangun dengan cepat (misalnya SpaceX). * **Energi & Komputasi Orbit:** Solusi untuk mengatasi keterbatasan jaringan listrik darat. * **Transisi dari Pelatihan ke *Inference*:** *Inference* diyakini membutuhkan 5-10 kali lebih banyak komputasi daripada pelatihan. Kesimpulan Baker: selama kendala **listrik dan wafer silikon** tetap ada, pertumbuhan infrastruktur AI memiliki dasar yang kuat. Ia melihat peluang jangka panjang pada perusahaan yang meningkatkan kinerja per watt dan menurunkan biaya per token.

marsbit05/29 08:39

Membedah Filosofi Investasi Gavin Baker, Investor Awal Nvidia: Long Bottleneck Infrastruktur AI, Short Risiko Pasar Keseluruhan

marsbit05/29 08:39

Untuk Kamu yang Belum Masuk AI: Kamu Pikir Telat, Sebenarnya Kamu Hanya Tidak Punya Pandangan Dunia Sendiri

Untuk mereka yang belum berinvestasi di AI: Anda merasa tertinggal, tetapi masalah sebenarnya adalah kurangnya pandangan dunia (worldview) sendiri. Kebanyakan orang hanya bertanya "saham apa yang harus dibeli?" tanpa memahami "mengapa AI adalah tren masa depan?" Kesalahan umum adalah mengikuti rekomendasi orang lain tanpa kerangka penilaian pribadi, menyebabkan keputusan buruk saat pasar berfluktuasi. Membangun worldview sendiri melibatkan pertanyaan mendasar tentang perubahan masyarakat dalam 5-10 tahun ke depan, kendala fisik, dan aliran uang. Ada dua jalur: membangun worldview sendiri (sulit) atau mengikuti pemimpin visioner dengan **melihat arus pengeluaran modal (capex) mereka**, bukan sekadar kata-kata. Capex mencerminkan keyakinan nyata karena melibatkan uang sungguhan. Artikel ini merekomendasikan melacak lima pemikir kunci AI dengan perspektif berbeda dan memberikan panduan praktis membaca sinyal capex dari hyperscaler, NVIDIA, investasi di neraca, serta indikator awal seperti listrik dan lahan. Ini juga memetakan seluruh rantai pasokan AI dari bahan mentah hingga aplikasi, menjelaskan hubungan dan efek riaknya. Dengan worldview yang jelas, tindakan menjadi lebih disengaja dan tenang. Sebelum berinvestasi, pastikan dasar keuangan stabil, alokasikan proporsi portofolio yang wajar (maks 25% untuk tema tunggal), pertimbangkan ETF luas seperti QQQ untuk diversifikasi, gunakan strategi rata-rata biaya (DCA), dan tulis aturan untuk mencegah keputusan emosional. Kesalahan umum termasuk menghentikan DCA saat turun, mengejar performa, terobsesi memantau pasar, mengikuti rumor, dan menghitung laba terlalu dini. Stabilitas eksekusi bergantung pada stabilitas worldview. Intinya: **Bangun worldview dulu, baru pilih saham. Ikuti capex, bukan kata-kata. Peluang selalu ada, tetapi modal hilang sulit pulih.** Tugas pertama: tulis 500 kata mengapa Anda percaya AI adalah masa depan. Jika tidak bisa, Anda belum siap berinvestasi.

marsbit05/26 09:27

Untuk Kamu yang Belum Masuk AI: Kamu Pikir Telat, Sebenarnya Kamu Hanya Tidak Punya Pandangan Dunia Sendiri

marsbit05/26 09:27

Mengapa Zhipu AI Bisa Meroket Hampir 30% dalam Satu Hari?

Hari ini, saham "Glodon" (02513.HK), yang dijuluki "saham model besar global pertama", melonjak hampir 30%. Pemicu utamanya adalah peluncuran API "GLM-5.1-highspeed" yang menawarkan kecepatan generasi hingga 400 token per detik, mencatat rekor baru untuk API model besar. Kecepatan ini sangat penting karena pergeseran paradigma dari AI chatbot ke era Agen (Agent), di mana tugas kompleks memerlukan puluhan hingga ratusan panggilan model. Setiap penghematan latensi akan terakumulasi dan secara signifikan memengaruhi efisiensi keseluruhan. Pencapaian 400 token/detik ini kira-kira 3-5 kali lebih cepat dari rata-rata industri (OpenAI GPT-4o: 100-150, Claude Sonnet: 80-120) dan dicapai tanpa mengorbankan kemampuan model inti. Lonjakan performa ini didukung oleh tiga inovasi teknis: 1. **TileRT**: Mesin inferensi yang mengkompilasi seluruh model menjadi pipeline kontinu, menghilangkan overhead start/stop antar operator dan menerapkan "Warp Specialization" untuk paralelisasi optimal dalam GPU. 2. **Strategi Paralel Heterogen untuk MLA (Multi-head Latent Attention)**: Mengatasi tantangan komputasi sparse dalam mekanisme perhatian MLA dengan menugaskan GPU berbeda untuk tugas "pengindeksan" dan "komputasi padat", meminimalkan sinkronisasi. 3. **Arsitektur Jaringan ZCube**: Mengganti topologi jaringan standar ROFT (Fat-Tree) dengan desain datar tanpa lapisan Spine. Desain ini menciptakan "jalur tunggal optimal" antara GPU mana pun, secara fundamental menghilangkan kemacetan jaringan. Hasilnya, pada perangkat keras yang sama, ZCube meningkatkan throughput cluster sebesar 15% (setara dengan peningkatan kapasitas gratis), mengurangi latensi ekor sebesar 40,6% (meningkatkan stabilitas), dan memotong biaya perangkat jaringan hingga sepertiga. Secara jangka panjang, inovasi perangkat lunak ini berpotensi mengikis dominasi NVIDIA di ekosistem jaringan (seperti InfiniBand) dan membuka jalan bagi integrasi yang lebih mudah dengan chip AI domestik seperti Huawei Ascend.

marsbit05/23 01:26

Mengapa Zhipu AI Bisa Meroket Hampir 30% dalam Satu Hari?

marsbit05/23 01:26

Ketika Daya Komputasi Menjadi Komoditas, Berapa Lama Lagi Pasar Berjangka GPU Akan Hadir?

Dengan komoditisasi daya komputasi, pertanyaan muncul: kapan pasar berjangka GPU akan matang? Artikel ini menganalisis lima prasyarat untuk pasar berjangka yang kuat: fragmentasi pasokan, volatilitas harga, infrastruktur penyelesaian fisik, unit standar, dan kurangnya alternatif lindung nilai. Saat ini, pasar daya komputasi dinilai: pasokan sangat terpusat pada raksasa cloud (merah), harga GPU sangat volatil (hijau), infrastruktur penyelesaian fisik mulai ada di tingkat broker OTC (hijau), kurangnya unit standar yang dapat diperdagangkan (merah), dan hanya pemasok terintegrasi vertikal yang dapat lindung nilai internal (kuning). Kesimpulannya, pasar masih terlalu awal untuk mendukung pasar berjangka yang matang, dengan sebagian besar aktivitas terjadi di pasar OTC. Standarisasi dan fragmentasi pasokan merupakan tantangan utama. Adopsi model berbobot open-source untuk inferensi dapat mendorong fragmentasi dan standarisasi, membuka jalan bagi pasar yang lebih likuid di masa depan, dengan unit perdagangan potensial berupa "jam-instans chip" yang distandardisasi.

marsbit05/18 09:25

Ketika Daya Komputasi Menjadi Komoditas, Berapa Lama Lagi Pasar Berjangka GPU Akan Hadir?

marsbit05/18 09:25

Ketika Daya Komputasi Dikomodifikasi, Berapa Lama Lagi Pasar Berjangka GPU akan Datang?

Artikel ini membahas kemungkinan berkembangnya pasar berjangka untuk komoditas daya komputasi (computing power), khususnya GPU, dengan menganalisisnya melalui lima prasyarat: fragmentasi pasokan, volatilitas harga, infrastruktur penyelesaian fisik, unit yang terstandarisasi, dan kurangnya alternatif lindung nilai. Saat ini, pasar dinilai belum matang. Pasokan masih didominasi raksasa cloud, unit daya komputasi belum terstandarisasi (misalnya, instance H100 bisa berbeda harganya), dan meskipun volatilitas harga tinggi serta infrastruktur penyelesaian fisik mulai berkembang di level broker OTC, pasar berjangka yang kuat masih prematur. Artikel juga mengeksplorasi pertanyaan terbuka seperti potensi fragmentasi pasokan oleh pemain cloud baru, peran model berbobot sumber terbuka dalam mendorong standarisasi untuk kebutuhan inferensi, dan apakah unit perdagangan akhir akan berupa jam instance chip atau token. Kesimpulannya, pasar saat ini masih beroperasi terutama di luar bursa (OTC), dan perkembangan lebih lanjut bergantung pada bagaimana dinamika pasokan dan permintaan, khususnya terkait adopsi AI sumber terbuka, akan terbentuk.

链捕手05/18 09:20

Ketika Daya Komputasi Dikomodifikasi, Berapa Lama Lagi Pasar Berjangka GPU akan Datang?