Diskon 99% untuk MiMo Bukan Hanya Pemasaran! Luo Fuli Membantah Para Pengecam di X

marsbitDipublikasikan tanggal 2026-05-31Terakhir diperbarui pada 2026-05-31

Abstrak

**Ringkasan:** Xiaomi MiMo memotong harga API MiMo-V2.5 hingga **99%**, memicu spekulasi tentang perang harga atau strategi merugi. Luo Fuli, kepala MiMo, merespons dengan mempublikasikan blog teknis 5000 kata yang merinci **enam pilar teknikal** di balik potongan harga besar ini. Intinya, diskon 99% terutama untuk **Input (Cache Hit)** – bagian dimana pengguna membaca ulang konteks historis dalam percakapan panjang. Ini menjadi mungkin karena serangkaian optimasi teknikal yang mengubah biaya komputasi untuk bagian tersebut mendekati nol. **Enam Pilar Teknikal:** 1. **Arsitektur Hybrid SWA:** Menggunakan Sliding Window Attention di sebagian besar lapisan model, mengurangi volume **KVCache** (memori jangka pendek model) hingga **1/7**. 2. **Manajemen KVCache Dua Kolam:** Mengalokasikan memori secara terpisah untuk lapisan SWA dan Full Attention, benar-benar mewujudkan penghematan teoretis 1/7 dan meningkatkan jumlah pengguna yang dapat dilayani secara bersamaan. 3. **Prefix Cache yang Dioptimalkan:** Meningkatkan aturan pencocokan cache untuk arsitektur SWA, menghasilkan **tingkat keberhasilan cache 93-95%** untuk pembacaan ulang. Artinya, sebagian besar permintaan "baca ulang" tidak memerlukan komputasi GPU baru. 4. **Sistem Cache Terdistribusi GCache:** Menyimpan data cache di **SSD bawaan mesin GPU**, menghilangkan biaya penyimpanan cluster khusus dan memperpanjang masa hidup cache. 5. **Sistem Penjadwalan LLM-Router:** Mengarahkan permintaan secara cerdas berdasarka...

Oleh | Xiang Xianzhi

Luo Fuli mengirimkan sebuah postingan di X, untuk memberikan titik akhir pada polemik diskon MiMo.

Pada 26 Mei, akun resmi Xiaomi MiMo mengunggah sebuah pengumuman di X: Harga API seri MiMo-V2.5 turun permanen, dengan potongan harga tertinggi mencapai 99%. Semua panjang konteks diberi harga tetap, paket Token ditingkatkan 5-8 kali.

Pengumuman ini memenuhi lingkaran AI domestik selama seminggu penuh. Reaksi pertama industri terbagi menjadi beberapa aliran. Aliran terbesar menyebutnya "perang harga lagi" – dalam dua tahun terakhir, dari Zhipu, DeepSeek, Byte Doubao hingga Alibaba Tongyi, model besar domestik bergiliran menurunkan harga, semua sedang berlomba.

Aliran lain melihatnya dari sisi pesimis: Xiaomi baru saja mengumumkan laba tahun ini turun separuh, saat ini masih membakar 60 miliar ke AI, API langsung dipotong 90% – tipikal "merebut pasar dengan merugi". Ada juga yang menganggap ini kelanjutan efek DeepSeek – yang telah menyeret tolok ukur harga seluruh industri ke lantai dasar, siapa yang tidak mengikuti akan tersingkir.

Oleh karena itu, sebagai penanggung jawab MiMo, Luo Fili tadi malam langsung mengeluarkan sebuah blog teknis 5000 kata, membuka rincian teknis diskon tersebut kepada semua orang.

"Lihat, ini kemampuan rekayasa nyata, bukan sekadar alat pemasaran".

Untuk memahami apa yang dikatakan Luo Fuli, pertama-tama harus mengerti apa sebenarnya yang didiskon 99% itu.

Bukan seluruh model yang didiskon. Diskon 99% khusus ditujukan pada satu kategori harga bernama Input (Cache Hit) – yaitu bagian "ketika pengguna membaca ulang konteks historis dalam percakapan panjang". Potongan harga untuk input baru biasa (No Cache Hit) jauh lebih kecil, dan untuk output model (Output) paling kecil.

Jika Anda membayangkan model seperti kedai kopi, hal ini akan lebih mudah dipahami.

Anda memesan satu cangkir latte setengah gula, kedai kopi memiliki dua cara: setiap kali menggiling biji kopi, mengukur sirup, menuang susu dari awal, bahan dan tenaga kerja dibayar sekali; tetapi model tahu Anda akan minum latte setengah gula yang sama setiap hari minggu ini, jadi langsung membuat satu teko besar dan menyimpannya di lemari es, lain kali cukup ambil satu cangkir. Yang dilakukan MiMo kali ini adalah yang terakhir – mengubah bagian yang dibaca ulang pengguna dari "dihitung ulang" menjadi "diambil langsung", sehingga biaya nyata bagian ini mendekati 0, dan wajar jika bisa memberi diskon 99%.

Untuk mencapai "diambil langsung", blog teknis membahas enam upaya rekayasa, masing-masing tidak boleh dihilangkan. Mari kita bahas satu per satu di bawah ini.

Rekayasa Satu: Mengompres "memori" model menjadi 1/7

Saat model berbicara dengan Anda, setiap token harus menghitung sebuah "status perantara", disimpan untuk digunakan pada langkah berikutnya. Ini disebut KVCache – dapat dipahami sebagai "buku catatan memori jangka pendek" model. Setiap kali mengucapkan satu kalimat, model mencatat ringkasan kalimat itu di buku catatan, lain kali langsung membuka catatan, tidak perlu mendengarkan semua yang Anda katakan dari awal.

Model tradisional setiap lapisan melakukan "Full Attention" – yaitu setiap token harus melihat semua token dalam seluruh percakapan, buku catatan semakin tebal. MiMo-V2.5-Pro mengubah arsitektur: dari 70 lapisan, 60 lapisan hanya melihat 128 token terbaru (SWA, Sliding Window Attention), hanya 10 lapisan "arsiparis" yang melihat semuanya.

Hasilnya adalah volume KVCache langsung terkompresi menjadi 1/7 dari Full Attention, dengan perhitungan yang sama yaitu 1/7.

Ini adalah fondasi pertama penghematan biaya. Misalnya, awalnya setiap karyawan diwajibkan mengingat semua catatan rapat, hasilnya otak setiap orang tidak cukup dan efisiensi rendah. Peraturan baru mengurangi beban otak 60 karyawan menjadi 1/7, hanya menyisakan 10 arsiparis yang mengelola semua sejarah – kemampuan mengingat keseluruhan perusahaan tidak turun, tetapi efisiensi meningkat 7 kali lipat.

Rekayasa Dua: Memastikan ruang yang dihemat SWA benar-benar dapat digunakan

Langkah pertama adalah mengompres buku catatan menjadi 1/7 secara arsitektur, tetapi untuk mewujudkan "1/7 secara teori" menjadi "1/7 secara nyata", masih ada satu kendala.

Sistem KVCache tradisional mengalokasikan memori untuk semua lapisan secara seragam berdasarkan "penggunaan maksimum yang mungkin". Artinya: meskipun 60 lapisan SWA hanya membutuhkan buku catatan kecil, sistem juga mengalokasikan untuk semua lapisan berdasarkan "buku catatan besar arsiparis" – ruang yang dihemat SWA disisihkan sia-sia, sama saja tidak menghemat.

Cara yang dilakukan tim Luo Fuli adalah membagi KVCache menjadi dua kolam independen. 10 lapisan Full Attention menggunakan "kolam besar", dialokasikan berdasarkan panjang penuh; 60 lapisan SWA menggunakan "kolam kecil", dialokasikan hanya berdasarkan jendela 128 token.

Misalnya, awalnya perusahaan memberi setiap karyawan "lemari arsip yang bisa menampung dokumen 100 tahun" – tetapi 60 karyawan sebenarnya hanya membutuhkan "lemari kecil yang menampung dokumen satu minggu", 99% ruang di lemari besar itu kosong. Cara baru mengalokasikan lemari berdasarkan kebutuhan nyata. Hasilnya, seluruh kantor bisa menampung lebih dari 5 kali lipat kolega untuk bekerja – GPU yang sama dapat melayani jumlah pengguna bersamaan meningkat 5 kali lipat.

Langkah ini tampak sederhana, tetapi tanpanya, keunggulan desain arsitektur SWA sebelumnya sama saja tidak berguna.

Rekayasa Tiga: Memastikan "pembacaan ulang oleh pengguna lama" benar-benar mengenai cache

Buku catatan dikompresi menjadi 1/7 + ruang benar-benar dapat digunakan, langkah selanjutnya adalah menyelesaikan masalah lama: tingkat keberhasilan cache awalan.

Banyak percakapan pengguna memiliki awal yang sama – system prompt yang sama, basis kode yang sama, dokumen panjang yang sama. Sistem akan menyimpan hasil perhitungan ini, lain kali jika cocok langsung digunakan kembali. Mekanisme ini disebut cache awalan.

Namun, dalam mode SWA muncul sebuah masalah: dua permintaan token yang sama, tidak berarti KV masih ada. Mungkin awalan sudah dihitung, tetapi bagian di luar jendela SWA sudah lama dieliminasi. Jika sistem masih menggunakan aturan lama "token sama berarti berhasil" untuk digunakan kembali, akan membaca data yang tidak valid atau tertimpa, efek model akan langsung rusak.

Tim Luo Fuli meningkatkan aturan menjadi "panjang aman jendela" – hanya menjanjikan "bagian yang bisa Anda pinjam secara lengkap".

Misalnya, perpustakaan memiliki 1 juta buku, Anda ingin meminjam seri lengkap "Tiga Tubuh" yang terdiri dari tiga buku. Arsitektur lama akan memberi tahu "buku ini ada", Anda datang dan menemukan rak hanya berisi sampul dan buku pertama, dua buku berikutnya sudah dipinjam. "Keberhasilan palsu" ini membuat Anda datang sia-sia dan harus meminjam ulang. Aturan sistem baru hanya menjanjikan bagian yang bisa Anda pinjam secara lengkap – pertama memberi Anda buku pertama, lalu mengatur dua buku berikutnya untuk Anda.

Kedengarannya tampak lebih ketat, tingkat keberhasilan mungkin turun. Namun sebaliknya: karena SWA membuat volume KVCache terkompresi menjadi 1/7, ruang penyimpanan yang sama dapat menampung beberapa kali lipat lebih banyak konten, tingkat keberhasilan nyata justru meningkat secara signifikan.

Luo Fuli memberikan angka pengujian nyata daring dalam blog: Rata-rata tingkat keberhasilan cache sisi server dalam kerangka harness utama adalah 93%, pengguna siklus panjang frekuensi tinggi dapat mencapai di atas 95%.

Terjemahan dari angka ini: 95% permintaan "pembacaan ulang" sama sekali tidak perlu dihitung GPU, langsung diambil dari cache. Inilah dasar fisik dari diskon 99%.

Rekayasa Empat: Memasukkan "Cache" ke SSD Bawaan GPU

Tingkat keberhasilan meningkat, masalah selanjutnya: di mana cache ini disimpan.

Memori video (memori HBM pada GPU) sangat mahal dan terbatas – satu mesin H100 delapan kartu hanya memiliki 640GB memori video, tetapi KVCache yang perlu disimpan MiMo mungkin dalam skala puluhan TB. Oleh karena itu, harus berlapis: yang baru digunakan disimpan di memori video (L1), yang agak lama disimpan di memori CPU (L2), data dingin disimpan di cache terdistribusi (L3).

Sama seperti Anda mengelola uang. Uang tunai di dompet adalah memori video – langsung digunakan tetapi tidak bisa menyimpan banyak. Saldo kartu bank adalah memori CPU – mengambil sekali butuh 30 detik tetapi bisa menyimpan banyak. Deposito berjangka adalah cache terdistribusi L3 – mengambil sekali butuh 2 menit tetapi jauh lebih murah.

Praktik umum industri adalah membangun kluster penyimpanan terpisah untuk L3, mesin khusus, ruang server khusus, membayar sewa setiap bulan.

Cara yang dilakukan tim penyimpanan Xiaomi berbeda. Mereka mengembangkan sendiri cache terdistribusi bernama GCache, langsung diterapkan pada SSD bawaan mesin GPU – dideploy bersama tugas pelatihan dan tugas inferensi dalam mesin yang sama.

Terjemahan sederhana: orang lain menyewa gudang khusus untuk menyimpan data dalam jumlah besar; Xiaomi menemukan garasi mesin GPU sebenarnya kosong, langsung menyimpan data di dalamnya. Sewa bulanan dihemat.

Kata asli blog teknis adalah: "Biaya penyimpanan tambahan adalah 0."

Kekuatan hal ini lebih besar dari yang terlihat. Dalam "perhitungan daya komputasi perusahaan AI" konvensional, biaya penyimpanan adalah item pengeluaran tetap – semakin besar model Anda, semakin banyak pengguna, tagihan penyimpanan semakin panjang. Cara GCache ini langsung menghilangkan item ini. Digabungkan dengan volume kecil SWA + tingkat keberhasilan 93-95%, waktu hidup (TTL) KVCache di L3 diperpanjang dari beberapa menit menjadi beberapa jam bahkan beberapa hari – semakin panjang TTL, semakin luas jendela yang dapat berhasil untuk konteks historis, semakin tinggi tingkat keberhasilan cache, semakin kuat dasar diskon 99% tersebut.

Rekayasa Lima: Membuat Permintaan yang Mengenai Cache Menempuh Jalur Terpendek

Cache dapat disimpan, dapat diperiksa, dan murah, langkah terakhir adalah: bagaimana membuat permintaan yang benar dirutekan ke mesin yang benar.

Xiaomi mengembangkan sistem penjadwalan sendiri bernama LLM-Router, melakukan tiga hal:

Pertama, Penjadwalan Afinitas. Permintaan dengan awalan yang sama dirutekan ke mesin yang sama, memaksimalkan penggunaan kembali cache.

Kedua, Pengelompokan Panjang. Permintaan pendek (0-64K), menengah (64K-256K), dan panjang (256K-1M) dibagi ke saluran pemrosesan berbeda, menghindari permintaan pendek tertahan oleh permintaan panjang.

Ketiga, Optimasi TTFT. Dalam antrian yang menunggu inferensi, memprioritaskan penjadwalan permintaan dengan volume komputasi nyata kecil (yaitu permintaan yang banyak mengenai cache) – menghindari mereka diblokir oleh permintaan "input baru" yang berat secara komputasi.

Misalnya, dalam penjadwalan bandara konvensional, semua penumpang dengan tujuan yang sama dikumpulkan di ruang tunggu yang sama, berbagi proses pengambilan bagasi – ini adalah penjadwalan afinitas. Yang membawa tas kabin dan yang membawa 3 koper besar dengan bagasi tercatat berjalan di dua jalur keamanan terpisah, yang cepat tidak tertahan oleh yang lambat – ini adalah pengelompokan panjang. Saat naik pesawat, memprioritaskan penumpang yang hanya membawa tas kabin, mereka cepat naik, memungkinkan pesawat lepas landas lebih awal – ini adalah optimasi TTFT.

Strategi penjadwalan ini dalam pengujian nyata meningkatkan tingkat keberhasilan cache L2 sebesar 25%, throughput input per mesin meningkat 30%, penundaan P90 permintaan panjang berkurang 30%.

Terjemahannya adalah: GPU yang sama dapat melayani lebih banyak pengguna. Setengah logika lain dari diskon berada di sini – keluaran efektif daya komputasi per unit lebih tinggi, biaya per pengguna per unit lebih rendah.

Rekayasa Enam: Membuat Model "Mengetik" Juga Lebih Cepat

Lima hal sebelumnya mengoptimalkan sisi "baca" – membuat biaya pembacaan ulang konteks historis oleh pengguna mendekati 0. Hal keenam adalah mengoptimalkan sisi "tulis" – yaitu proses model menghasilkan token berikutnya.

Model tradisional hanya dapat menghasilkan 1 token sekaligus. MiMo mendukung asli 3 lapisan MTP (Multi-Token Prediction) – memprediksi 3 token berikutnya sekaligus, jika prediksi di tengah benar, langsung melewati perhitungan tengah.

Misalnya, mengetik tradisional adalah mengetik satu kata demi satu kata – Anda ingin mengetik "cuaca hari ini", harus menekan 4 kali. MTP seperti memiliki pelengkapan otomatis yang menebak 1-2 kata berikutnya Anda – jika tebakan benar, Anda tidak perlu menekan dua kali itu.

MTP MiMo dalam pengujian nyata skenario agen: percepatan decode 128 token pertama 2.3 kali lipat, token 128-256 percepatan 1.5 kali lipat.

Makna hal ini adalah, diskon 99% khusus mengacu pada Input (Cache Hit), tetapi saat model melayani pengguna sebenarnya, input dan output terjadi dalam permintaan yang sama – jika output tidak dihemat, biaya permintaan keseluruhan hanya dihemat setengah. MTP membuat setengah output juga turun, model profitabilitas diskon keseluruhan baru menjadi tertutup.

Menyambung enam hal menjadi rantai penghematan biaya:

Arsitektur SWA → KVCache 1/7 → Kolam ganda benar-benar melepaskan kapasitas → GPU yang sama dapat menampung 5+ kali lipat konkurensi → Tingkat keberhasilan cache awalan 93-95% → 95% permintaan hampir tidak perlu dihitung → GCache membuat biaya penyimpanan menjadi nol → Penjadwalan memprioritaskan permintaan yang berhasil → MTP membuat pembuatan juga hemat → Waktu GPU per permintaan turun satu orde magnitudo → Biaya per unit turun 95%+ → Harga turun 99%, margin kotor masih positif.

Kehilangan satu bagian, rantai ini putus di suatu bagian. Diskon 99% bukan angka pemasaran, adalah efek kumulatif dari enam pilar rekayasa ditumpuk + verifikasi nyata daring.

Melihat kembali beberapa interpretasi awal industri, masing-masing memiliki sebagian kebenaran. Perang harga antara perusahaan model besar China dalam dua tahun ini nyata; laba Xiaomi turun separuh dan masih berinvestasi besar di AI nyata; DeepSeek menyeret harga industri ke lantai dasar juga nyata.

Namun, Luo Fuli kali ini mempublikasikan blog teknis dan membongkar detail teknis secara rinci, tanpa diragukan berharap membalas pernyataan tentang perang harga, membuat "masalah teknis dikembalikan ke ranah teknis, masalah pemasaran dikembalikan ke ranah pemasaran."

Dia menulis dalam blog, efisiensi inferensi seri model MiMo-V2.5 bukan berasal dari terobosan satu titik di satu tautan, tetapi hasil optimasi kolaboratif multidimensi. Hybrid SWA menguntungkan prefill dan decode secara bersamaan, tetapi implementasi KVCache yang tidak dioptimalkan penuh justru akan meningkatkan biaya di setiap tautan. Berdasarkan target ini, tim MiMo secara sistematis merekonstruksi manajemen KVCache, cache berlapis, pohon cache awalan, mengatasi masalah inti SWA KVCache, mengoptimalkan strategi penjadwalan dan tautan Prefill / Decode, dan melalui pemeriksaan skenario nyata daring, akhirnya mewujudkan keunggulan efisiensi teoritisnya ke lingkungan produksi. Hingga saat ini, Hybrid SWA baru mengeluarkan keunggulan arsitektur yang kuat dan efisien dalam inferensi teks panjang. Ditambah dengan konfigurasi MoE dan berbagai optimasi inferensi multimodal, secara signifikan meningkatkan kinerja layanan inferensi daring.

Ini adalah pendekatan sistematis rekayasa AI, dan juga sarana penghematan biaya yang patut dijadikan referensi bersama oleh industri.

Perang harga tidak perlu menulis blog, mewujudkan rekayasa yang perlu.

Pertanyaan Terkait

QApa yang menyebabkan harga MiMo API turun 99% menurut artikel?

APenurunan harga 99% khususnya untuk Input (Cache Hit), yaitu bagian di mana pengguna membaca ulang konteks percakapan sebelumnya. Ini dimungkinkan karena enam peningkatan rekayasa yang mengurangi biaya komputasi hingga mendekati nol untuk permintaan berulang tersebut.

QApa saja enam rekayasa yang dijelaskan dalam blog teknis Luo Fuli untuk menurunkan biaya?

A1. Arsitektur Hybrid SWA untuk mengurangi ukuran KVCache menjadi 1/7. 2. Dual-pool KVCache untuk memanfaatkan penghematan memori secara nyata. 3. Peningkatan aturan cache prefiks untuk meningkatkan hit rate hingga 93-95%. 4. Sistem cache terdistribusi GCache di SSD mesin GPU untuk biaya penyimpanan nol. 5. Sistem penjadwalan LLM-Router untuk routing yang efisien. 6. Dukungan Multi-Token Prediction (MTP) untuk mempercepat generasi output.

QBagaimana analogi artikel ini untuk menjelaskan sistem cache dan penjadwalan MiMo?

AArtikel menggunakan analogi perpustakaan/perpustakaan untuk cache dan bandara untuk penjadwalan. Misalnya, sistem cache baru seperti perpustakaan yang hanya meminjamkan buku jika seri lengkap tersedia. Sistem penjadwalan seperti bandara yang mengelompokkan penumpang berdasarkan tujuan (affinity), memisahkan antrian berdasarkan bagasi (panjang), dan memprioritaskan boarding penumpang ringan (TTFT).

QMenurut artikel, apa perbedaan inti antara penurunan harga MiMo dan 'perang harga' biasa di industri AI?

AMenurut Luo Fuli, penurunan harga MiMo didasarkan pada peningkatan efisiensi rekayasa nyata yang mengurangi biaya produksi secara signifikan, bukan sekadar strategi pemasaran atau perang harga yang merugi. Penurunan harga 99% dimungkinkan karena biaya unit per permintaan turun lebih dari 95% berkat optimasi sistemik.

QApa manfaat konkret dari teknologi Multi-Token Prediction (MTP) yang diterapkan MiMo?

AMTP memungkinkan model memprediksi beberapa token sekaligus (3 token dalam kasus MiMo). Dalam skenario agenik, ini mempercepat proses decode (generasi output): 2.3x lebih cepat untuk 128 token pertama dan 1.5x lebih cepat untuk token 128-256. Ini melengkapi penghematan pada sisi input, membuat model ekonomi penurunan harga menjadi tertutup.

Bacaan Terkait

Tiga Tahun Kemudian: Meninjau Kembali Penilaian Saya terhadap ChatGPT di Tahun 2023

Tiga tahun kemudian, pada Mei 2026, penulis meninjau kembali 20 prediksi tentang ChatGPT yang dibuatnya pada Maret 2023, menggunakan AI untuk mengevaluasi akurasinya berdasarkan data terbaru. Secara keseluruhan, arah dan mekanisme prediksi banyak yang tepat. Yang paling akurat adalah tentang RAG sebagai arsitektur standar, LUI (Antarmuka Pengguna Bahasa Alami) sebagai lapisan interaksi baru, munculnya "jaringan robot" (protokol untuk agen AI), dan kemampuan China mengejar ketertinggalan model AI besar. Prediksi bahwa ChatGPT bukan AGI namun langkah besar, tidak menyebabkan gelombang pengangguran massal, serta sifat uji Turing yang hanya mengukur persepsi juga pada dasarnya benar. Namun, prediksi dengan angka spesifik atau pernyataan mutlak sering meleset. Klaim bahwa GPT-4 memiliki 100 triliun parameter sepenuhnya salah. Pernyataan bahwa LLM "tidak mungkin" mengerjakan matematika murni terbantahkan dengan model penalaran yang memenangkan medali emas IMO. Estimasi biaya pelatihan model hanya $5-10 miliar juga jauh dari kenyataan, yang kini mencapai miliaran dolar untuk model terdepan. Beberapa prediksi keliru tentang distribusi dampak, seperti bahwa nilai akan berpindah ke lapisan aplikasi (nyatanya, penyedia chip seperti NVIDIA paling untung), atau bahwa AI akan "menghindari" masalah hak cipta (justru menimbulkan gugatan besar). Kesimpulan utama adalah: dalam memprediksi teknologi yang cepat berubah, mengidentifikasi arah dan mekanisme umumnya lebih bisa diandalkan daripada memberikan angka pasti atau pernyataan mutlak. Prediksi cenderung terlalu optimis tentang kecepatan perubahan jangka pendek, tetapi meremehkan besarnya perubahan jangka panjang. Penting juga untuk mempertimbangkan distribusi dampak, bukan hanya kesimpulan agregat. Pernyataan yang disertai batasan dan keraguan justru lebih tahan uji waktu. Beberapa pertanyaan mendasar masih belum terjawab setelah tiga tahun. Tinjauan ini berfungsi sebagai pelajaran untuk membuat prediksi yang lebih baik di tiga tahun mendatang.

marsbit3j yang lalu

Tiga Tahun Kemudian: Meninjau Kembali Penilaian Saya terhadap ChatGPT di Tahun 2023

marsbit3j yang lalu

Tiga Tahun Kemudian: Menilik Kembali Penilaian Saya terhadap ChatGPT pada 2023

Tiga tahun kemudian: Meninjau Kembali 20 Prediksi ChatGPT Saya pada 2023 Pada Maret 2023, penulis Wang Jianshuo membuat 20 prediksi intuitif tentang ChatGPT dan AI masa depan. Kini, di Mei 2026, sebuah sistem AI yang terdiri dari 41 agen menganalisis prediksi-prediksi tersebut berdasarkan data terkini. Hasilnya menunjukkan pola menarik. **Yang Terbukti Benar (Secara Umum):** * **RAG dan Arsitektur Pencarian (✅):** Solusi utama untuk pengetahuan dan halusinasi adalah dengan menambahkan "contekan" (RAG), bukan mengubah model. Arsitektur pencarian + LLM kini menjadi standar. * **LUI sebagai Benua Baru (🟢):** Antarmuka Pengguna Bahasa Alami (LUI) adalah lapisan interaksi baru yang besar, melahirkan industri agen dan protokol seperti MCP. * **Jaringan Robot dan Sistem Pengalamatan Baru (🟢):** Agen akan berkomunikasi otomatis dengan bahasa alami. Protokol seperti MCP dan ANP sedang mewujudkannya. * **Model Besar Tiongkok (🟢):** Model-model seperti DeepSeek dan Qwen telah mengejar ketertinggalan performa, meski dengan investasi lebih kecil. * **Tidak Ada Kesadaran, Tes Turing Hanya Ukur Penampilan (🟢):** AI tidak memiliki kesadaran. Tes Turing hanya mengukur ilusi kesadaran. * **Prediksi Lain yang Benar:** ChatGPT bukan AGI, tapi lompatan besar; gelombang pengangguran besar tidak terjadi; tahun besar untuk startup; momen "browser 1994" telah tiba. **Yang Kurang Tepat atau Salah:** * **Parameter GPT-4 (❌):** Prediksi 100 triliun parameter salah. Estimasi terbaru sekitar 1,8 triliun. * **Matematika di LLM (🟡):** Diagnosis bahwa matematika adalah kelemahan intrinsik dan memerlukan alat bantu benar. Namun, pernyataan "tidak mungkin" ditingkatkan terbukti salah, karena model kini bisa memenangkan medali emas Olimpiade Matematika Internasional (IMO). * **Penangkapan Nilai (🟡):** Aplikasi memang berkembang pesat, tetapi nilai terbesar justru ditangkap oleh lapisan komputasi (seperti Nvidia), bukan oleh pembuat model. * **Hak Cipta (🟡):** Konten AI sulit didaftarkan hak cipta, tetapi tidak serta-mata "menghindari" pelanggaran. Gugatan dan penyelesaian besar (misalnya, Anthropic $1,5 miliar) membuktikan risikonya. * **Biaya Model (🟡):** Prediksi "perang lokal" dengan biaya $5-10 miliar untuk model canggih terbukti salah. Biaya pelatihan model terdepan (seperti GPT-5) jauh lebih tinggi, sementara biaya kloning model terbuka justru bisa lebih murah. **Pola dan Pelajaran:** 1. **Arah dan mekanisme lebih dapat diandalkan daripada angka pasti dan pernyataan mutlak.** 2. **Cenderung terlalu optimis untuk jangka pendek (kecepatan), tetapi terlalu konservatif untuk jangka panjang (skala/dampak).** 3. **Kesalahan sering terjadi pada distribusi, bukan pada total.** Contoh: Tidak ada gelombang pengangguran masif, tetapi dampak berat dirasakan oleh lulusan baru. 4. **Pernyataan yang disertai batasan dan ruang ketidakpastian justru lebih tahan uji waktu.** 5. **Beberapa pertanyaan mendasar masih belum terjawab setelah tiga tahun.** Kesimpulannya, prediksi tentang arah besar dan mekanisme cenderung akurat, sementara prediksi spesifik tentang angka, kecepatan, dan distribusi dampak lebih sering meleset. Latihan ini lebih merupakan pelajaran dalam kerendahan hati dan penilaian yang bernuansa daripada sekadar penghitungan skor.

链捕手6j yang lalu

Tiga Tahun Kemudian: Menilik Kembali Penilaian Saya terhadap ChatGPT pada 2023

链捕手6j yang lalu

Peringatan Gelembung AI: Investasi AI Merupakan Pengembalian Negatif bagi Kebanyakan Raksasa Teknologi

Peringatan Gelembung AI: Investasi AI Membawa Pengembalian Negatif bagi Sebagian Besar Raksasa Teknologi Demam AI kini memasuki tahap pemeriksaan keuangan. Raksasa cloud seperti Microsoft, Alphabet, Amazon, Meta, dan Oracle berencana menginvestasikan ratusan miliar dolar ke pusat data AI dalam lima tahun ke depan. Namun, analisis terhadap proyeksi pendapatan dan pengeluaran modal (capex) hingga 2030 mengungkap masalah: tingkat pengembalian investasi implisit diperkirakan sangat negatif bagi semua perusahaan kecuali Amazon, bahkan dalam skenario optimis ekstrem. Ini menunjukkan bahwa jika tren saat ini berlanjut, boom AI bisa menjadi salah satu peristiwa perusakan nilai pemegang saham terbesar. Ada dua jalan keluar: pendapatan yang jauh melebihi ekspektasi saat ini, atau pengurangan rencana investasi. Jalan pertama tampaknya mustahil, karena membutuhkan tambahan pendapatan triliunan dolar. Jalan kedua—pemotongan investasi—akan berdampak luas, meruntuhkan harga saham perusahaan-perusahaan teknologi global dan dapat mendorong ekonomi AS ke resesi, mengingat 93% pertumbuhan PDB AS belakangan ini didorong oleh investasi teknologi. IPO perusahaan AI seperti OpenAI dan Anthropic tahun ini bisa menjadi mekanisme transfer risiko, memindahkan ketidakpastian dari pemilik awal kepada investor ritail dan dana pensiun. Sementara euphoria pemasaran mungkin bertahan hingga setelah IPO tahun 2026, tekanan matematika yang tak terelakkan mungkin memaksa raksasa cloud mengumumkan pemotongan investasi pada 2027 atau 2028, mirip dengan jeda tiga tahun antara peringatan "irrational exuberance" Alan Greenspan pada 1996 dan pecahnya gelembung dotcom pada 2000.

marsbit7j yang lalu

Peringatan Gelembung AI: Investasi AI Merupakan Pengembalian Negatif bagi Kebanyakan Raksasa Teknologi

marsbit7j yang lalu

Dari Token ke Tenaga Kerja Mesin: AI Sedang Berubah dari Alat Menjadi 'Pekerja'

Dari Token ke Tenaga Kerja Mesin: AI Berubah dari Alat Menjadi "Pekerja" AI mulai menulis kode, menangani tiket dukungan pelanggan, dan meninjau dokumen hukum. Artikel ini mengusulkan kerangka baru: komersialisasi AI sedang bergerak menuju "pasar tenaga kerja mesin". Dalam pasar ini, token hanyalah unit pengukuran, GPU adalah bahan baku, dan model adalah alat produksi. Objek yang benar-benar ditetapkan harganya dan diperdagangkan adalah kerja ekonomi yang diselesaikan langsung oleh perangkat lunak. Mekanisme penetapan harga AI akan berkembang dari token mentah, kemampuan model yang terstandarisasi, tenaga kerja yang terspesialisasi industri, hingga pasar hasil yang dapat diprogram. Di masa depan, perusahaan mungkin tidak lagi peduli model atau GPU mana yang menyelesaikan suatu tugas, tetapi lebih pada apakah tugas itu diselesaikan dalam batas latensi, akurasi, keandalan, dan biaya yang ditentukan. Implikasinya, dampak AI pada pasar tenaga kerja manusia tidak hanya sekadar penggantian. Saat mesin mengambil alih lebih banyak pekerjaan yang dapat distandardisasi dan diverifikasi, peran manusia mungkin bergeser ke pengawasan, penanggung jawab, manajemen konteks, dan keputusan akhir. Dalam beberapa kasus, penilaian manusia untuk 1% akhir justru menjadi lebih berharga karena dapat membuka kunci 99% otomatisasi skala besar. Pasar AI adalah pasar ekspansif. Ketika biaya kerja turun, permintaan tidak tetap. Jika interaksi dukungan pelanggan menjadi lebih murah, perusahaan dapat menawarkan layanan 24/7, menciptakan pasar interaksi pelanggan yang lebih besar. Persaingan tahap berikutnya di pasar AI mungkin bukan lagi sekadar pertarungan kemampuan model atau perang harga daya komputasi, tetapi tentang siapa yang dapat pertama kali menstandarisasi, memverifikasi, dan menetapkan harga "pekerjaan", akhirnya menjadikan tenaga kerja mesin sebagai faktor produksi baru yang dapat dibeli, diselesaikan, dan diperdagangkan.

marsbit7j yang lalu

Dari Token ke Tenaga Kerja Mesin: AI Sedang Berubah dari Alat Menjadi 'Pekerja'

marsbit7j yang lalu

Rp 426 Triliun, "Tim Murni Tionghoa" Menopang Perusahaan Pemrograman AI dengan Valuasi Tertinggi di Dunia

Pada Mei 2025, Cognition AI, startup pengembangan AI yang didirikan oleh tiga pendiri berkebangsaan China pemenang Olimpiade Informatika, mengumumkan pendanaan baru senilai lebih dari $10 miliar, yang menaikkan valuasinya menjadi $26 miliar. Lonjakan valuasi ini, hanya dalam 8 bulan sejak valuasi $10,2 miliar sebelumnya, didorong oleh kepercayaan investor bahwa agen AI seperti "Devin" perusahaan mereka akan menjadi infrastruktur rekayasa perangkat lunak generasi berikutnya. Awalnya, Cognition menciptakan sensasi dengan meluncurkan Devin, yang dipasarkan sebagai "insinyur perangkat lunak AI" pertama yang dapat menangani tugas pengkodean secara mandiri. Namun, produk awal ini menuai kritik karena kinerja yang tidak konsisten dan harga yang tinggi. Untuk mengatasi kekurangan ini, Cognition melakukan pivoting strategis dengan mengakuisisi Windsurf, sebuah platform IDE berbasis AI, pada tahun 2025. Akuisisi ini memberi Cognition dua jalur produk: Devin untuk menangani tugas-tugas rekayasa asinkron yang dapat didelegasikan, dan Windsurf IDE sebagai alat bantu kolaboratif bagi pengembang dalam editor kode. Kombinasi ini terbukti sukses. Cognition melaporkan pertumbuhan penggunaan perusahaan lebih dari 10 kali lipat tahun ini, dengan run-rate pendapatan mencapai $492 juta dan pertumbuhan penggunaan bulanan Devin sebesar 50% selama enam bulan terakhir. Kliennya termasuk nama-nama besar seperti Goldman Sachs, NASA, dan Angkatan Darat AS. Intinya, valuasi $26 miliar ini mencerminkan keyakinan pasar bahwa Cognition, dengan strategi "dua kaki"nya, berada di posisi yang tepat untuk menangkap peluang adopsi AI berskala besar di sektor rekayasa perangkat lunak perusahaan, yang bergerak menuju sistem hybrid di mana manusia dan AI berkolaborasi.

marsbit9j yang lalu

Rp 426 Triliun, "Tim Murni Tionghoa" Menopang Perusahaan Pemrograman AI dengan Valuasi Tertinggi di Dunia

marsbit9j yang lalu

Trading

Spot

Futures

Kategori Populer

Tren Teknologi875 item berita

Diskon 99% untuk MiMo Bukan Hanya Pemasaran! Luo Fuli Membantah Para Pengecam di X

Abstrak

Rekayasa Satu: Mengompres "memori" model menjadi 1/7

Rekayasa Dua: Memastikan ruang yang dihemat SWA benar-benar dapat digunakan

Rekayasa Tiga: Memastikan "pembacaan ulang oleh pengguna lama" benar-benar mengenai cache

Rekayasa Empat: Memasukkan "Cache" ke SSD Bawaan GPU

Rekayasa Lima: Membuat Permintaan yang Mengenai Cache Menempuh Jalur Terpendek

Rekayasa Enam: Membuat Model "Mengetik" Juga Lebih Cepat

Pertanyaan Terkait

Bacaan Terkait

Tiga Tahun Kemudian: Meninjau Kembali Penilaian Saya terhadap ChatGPT di Tahun 2023

Tiga Tahun Kemudian: Menilik Kembali Penilaian Saya terhadap ChatGPT pada 2023

Peringatan Gelembung AI: Investasi AI Merupakan Pengembalian Negatif bagi Kebanyakan Raksasa Teknologi

Dari Token ke Tenaga Kerja Mesin: AI Sedang Berubah dari Alat Menjadi 'Pekerja'

Rp 426 Triliun, "Tim Murni Tionghoa" Menopang Perusahaan Pemrograman AI dengan Valuasi Tertinggi di Dunia

Trading

Kategori Populer

Tag Populer