iPhone Jalankan Gemma 4 Secara Lokal Jadi Viral, Seberapa Jauhkah Era 0 Token?

marsbitDipublikasikan tanggal 2026-04-06Terakhir diperbarui pada 2026-04-06

Abstrak

Model Gemma 4 terbaru Google yang open-source telah memungkinkan pengoperasian lokal di perangkat seluler seperti iPhone dan Samsung Galaxy dengan kecepatan hingga lebih dari 40 token/detik. Model kecilnya (E2B 2.3B dan E4B 4.5B) menawarkan konteks 128K, menjadikannya alternatif portabel untuk Gemini. Meskipun mudah diakses melalui aplikasi resmi Google AI Edge Gallery dan berguna untuk tugas sederhana seperti pemrosesan gambar atau kode, model yang lebih besar (seperti Gemma 4 MoE 26B) masih mengalami kendala dalam tugas kompleks seperti pemanggilan alat dan output terstruktur. Meski kecerdasannya dianggap terbatas, kemunculan Gemma 4 berpotensi menggeser tugas-tugas harian ke perangkat lokal, mengancam model bisnis berbasis token. Ke depannya, model cloud masih unggul untuk tugas rumit, sementara model perangkat akan semakin mendominasi tugas sederhana seiring kemajuan hardware.

Redaksi Jiwa Mesin

Model baru Gemma 4 yang baru saja dibuat open source oleh Google beberapa hari lalu, memberikan kejutan besar bagi industri.

Ia mengadopsi arsitektur teknologi yang sama dengan Gemini 3, mendukung multimodalitas asli, meraih peringkat ketiga global di Arena AI Leaderboard, dan memiliki beberapa model yang dapat dipilih. Beberapa model yang lebih kecil —— E2B (parameter efektif 2.3B) dan E4B (parameter efektif 4.5B)—— dapat langsung di-deploy dan dijalankan secara lokal di perangkat seluler, dengan jendela konteks mencapai 128K, bisa dibilang "pengganti Gemini yang bisa dimasukkan ke dalam saku".

Seperti yang diduga, model ini dengan cepat menjadi mainan baru bagi pengguna ponsel.

Di antaranya, sebuah postingan oleh pengguna X dikunjungi ratusan ribu kali. Dalam postingannya, dia memasang sebuah video yang menceritakan bagaimana dia menjalankan Gemma 4 secara lokal di iPhone, termasuk memproses gambar, audio, dan mengontrol sakelar senter. Dia menyatakan bahwa Gemma 4 sangat cepat, terasa seperti sihir.

Seorang pengguna mengukur kecepatan ini di iPhone 17 Pro, mencatat bahwa jika ponsel menggunakan chip Apple, maka dengan bantuan MLX (framework machine learning Apple) yang dioptimalkan untuk chip ini, kecepatan inferensi model dapat melebihi 40 token / detik.

Ada juga yang mendapatkan kecepatan serupa di Samsung Galaxy, dan itu pun dalam mode pemikiran yang diaktifkan. Hal ini membuat orang berkomentar "terlalu cepat, tidak nyata".

Kecepatan seperti ini membuat menjalankan model AI di perangkat seluler menjadi opsi yang dapat diterima di masa depan, dan sangat berguna dalam skenario sensitif seperti medis.

Jendela konteks 128k juga membuat model-model kecil ini menjadi lebih menarik.

Lalu, bagaimana cara menjalankannya? Sebenarnya sangat sederhana, bukan hanya untuk geek, karena Google merilis App resmi——Google AI Edge Gallery. Yang ingin mencoba di ponsel dapat langsung mengunduh App ini, lalu mengunduh versi model yang ingin dijalankan, setelah itu buka dan langsung bisa dijalankan.

Dan, karena dirilis resmi oleh Google, masalah keamanan tentu juga tidak perlu terlalu dikhawatirkan.

Selain model-model kecil yang dijalankan di perangkat seluler ini, ada juga yang mencoba versi Gemma 4 yang lebih besar di perangkat keras yang lebih kuat, seperti menjalankan Gemma 4 Mixture-of-Experts 26B di MacBook Pro versi M5 Pro.

Jika untuk percakapan langsung, kecepatan model ini masih cukup cepat, pembuatan teks, penjelasan kode, semuanya lancar.

Tetapi ketika dia benar-benar menggunakan Gemma 4 sebagai coding agent, masalah pun muncul. Karena menjalankan agent membutuhkan konteks yang besar (Gemma 4 26B memiliki jendela konteks 256k), prompt yang kompleks, dan pemanggilan alat yang stabil, Gemma 4 jelas tidak tahan di tempat-tempat ini, sering macet, error, atau output strukturnya tidak benar.

Titik balik terjadi ketika dia mengganti model dengan qwen3-coder, dalam lingkungan yang sama, pembuatan file, eksekusi perintah, tugas multi-langkah semua dapat berjalan normal. Dia berpendapat, masalahnya bukan pada framework agent, tetapi pada apakah model itu sendiri telah dioptimalkan untuk "pemanggilan alat + output terstruktur". Dalam hal ini, Gemma 4 mungkin belum cukup, atau mungkin pengembang ini belum menemukan cara yang benar.

Selain itu, ada yang mengatakan bahwa tingkat kecerdasan Gemma 4 masih agak setengah-setengah.

Meskipun demikian, kemunculan Gemma 4 sebagai "performance powerpack" ini tetap tidak boleh diremehkan. Jika nanti banyak tugas kueri sehari-hari, obrolan, penalaran sederhana, pembuatan kode, pemahaman gambar dapat dijalankan secara lokal, tidak perlu lagi membeli token, bukankah produsen yang menjual token akan berada dalam posisi yang canggung?

Tentu saja, situasi saat ini belum begitu suram, mengingat masih ada kesenjangan antara model yang dibuat open source saat ini dengan model tertutup flagship terdepan, dan sebagian besar model open source yang tangguh masih dibatasi oleh kemampuan perangkat keras, untuk sementara belum bisa mencapai tingkat yang dapat digunakan di sisi perangkat (edge).

Namun tren masa depan jelas. Dalam jangka pendek, model tertutup cloud masih unggul dalam penalaran kompleks paling mutakhir dan kolaborasi multi-agent skala sangat besar; tetapi dalam jangka panjang, ketika perangkat keras terus berkembang, teknologi kuantisasi terus dioptimalkan, model sisi perangkat akan secara bertahap menggerogoti tugas-tugas sederhana yang frekuen di cloud.

Para vendor yang hanya mengandalkan penjualan token, langganan API, akan terpaksa lebih keras bersaing di bagian yang "benar-benar sulit" —— Agent yang super kuat, konteks yang andal dan sangat panjang, serta kemampuan khusus yang membutuhkan data real-time dalam jumlah besar.

Gemma 4 hanyalah sebuah awal. Kejutan berikutnya, mungkin adalah suatu model sisi perangkat yang dalam penggunaan sehari-hari membuat pengguna sama sekali tidak merasakan perbedaan "lokal" dan "cloud". Pada hari itu tiba, seluruh model bisnis industri AI, akan menyambut sebuah perombakan yang sesungguhnya.

Artikel ini dari akun WeChat resmi "Jiwa Mesin" (ID:almosthuman2014), penulis: Jiwa Mesin

Pertanyaan Terkait

QApa yang membuat Gemma 4 istimewa untuk perangkat mobile?

AGemma 4 memiliki arsitektur yang sama dengan Gemini 3, mendukung multimodalitas asli, dan memiliki model kecil (E2B 2.3B dan E4B 4.5B) yang dapat dijalankan secara lokal di ponsel dengan kecepatan hingga 40 token/detik dan jendela konteks 128K.

QBagaimana cara menjalankan Gemma 4 di ponsel?

APengguna dapat mengunduh aplikasi resmi Google AI Edge Gallery, kemudian mengunduh versi model yang diinginkan, dan menjalankannya langsung di ponsel.

QApa kelemahan Gemma 4 berdasarkan pengalaman pengguna?

AGemma 4 mengalami kesulitan dalam tugas agen coding yang membutuhkan konteks besar, prompt kompleks, dan pemanggilan alat yang stabil, serta dianggap memiliki tingkat kecerdasan yang masih terbatas.

QMengapa model lokal seperti Gemma 4 menjadi ancaman bagi penyedia layanan cloud?

AKarena model lokal dapat menangani tugas harian seperti kueri, obrolan, penalaran sederhana, dan pemahaman gambar tanpa perlu membeli token, sehingga mengurangi ketergantungan pada layanan cloud berbayar.

QApa prediksi tren masa depan untuk model AI di perangkat lokal vs. cloud?

ADalam jangka pendek, model cloud masih unggul dalam penalaran kompleks dan kolaborasi multi-agen, tetapi model perangkat lokal akan semakin menguasai tugas-tugas sederhana seiring kemajuan hardware dan teknik kuantisasi.

Bacaan Terkait

Diblokir oleh Platform Sendiri, WeChat AI Turun Tangan Sendiri

Inti AI WeChat akhirnya diumumkan setelah insiden "pemblokiran sendiri". Pada 2 Juni, saham Tencent melonjak lebih dari 10% menyusul laporan bahwa WeChat sedang menyelesaikan pengujian AI Agent asli yang tertanam langsung di aplikasi. Entri interaksi direncanakan berupa geser ke kanan di layar utama untuk memunculkan jendela percakapan AI. Langkah ini didorong oleh ketertinggalan Tencent di pasar AI konsumen. "Yuanbao", asisten AI independen mereka, hanya memiliki 57 juta MAU pada Maret 2026, jauh di belakang Doubao (345 juta) dan Qianwen (166 juta). Titik balik terjadi ketika WeChat sendiri memblokir kampanye红包 Yuanbao pada Februari 2026 karena melanggar aturan platform, menyoroti konflik internal tentang penempatan AI. AI Agent WeChat bukan sekadar chatbot. Ia dirancang untuk mengeksekusi tugas secara langsung dengan memanfaatkan aset unik WeChat: jutaan *mini-program* dengan API terstandarisasi, sistem identitas & pembayaran terintegrasi (WeChat Pay), dan basis pengguna 1,4 milar. Ini memungkinkan eksekusi perintah alami seperti "pesan kopi" atau "buat janji dokter" dalam satu alur tertutup di dalam WeChat, mengisi celah kemampuan eksekusi pada produk AI Tencent lainnya. Tantangan utama meliputi: performa model dasar Hunyuan yang masih perlu dikejar, konsumsi daya komputasi yang masif untuk 1,4 milar pengguna, dan perluasan model insentif bagi pengembang *mini-program* yang aliran traffiknya mungkin berubah drastis. Masa depan AI Agent WeChat akan menentukan apakah ia dapat mendefinisikan ulang koneksi manusia-layanan di era AI, mempertahankan pengguna dalam ekosistemnya, dan mengubah platform dari "tempat pengguna mencari layanan" menjadi "sistem di mana AI menyelesaikan tugas".

marsbit32m yang lalu

Diblokir oleh Platform Sendiri, WeChat AI Turun Tangan Sendiri

marsbit32m yang lalu

Panduan Q3 Broadcom Lebih Rendah 1,2 Miliar Dolar dari Ekspektasi, Saham Anjlok >13% di Pasca-Perdagangan, Narasi AI "Mendingin"?

Penulis: Ada, Deep Wave TechFlow Pada tanggal 3 Juni waktu AS setelah jam pasar, Broadcom merilis kinerja Q2 FY2026. Secara keseluruhan, laporan kuartal ini mencetak rekor dengan pendapatan $22.19 miliar (naik 48% YoY) dan EPS disesuaikan $2.44, melampaui ekspektasi. Pendapatan semikonduktor AI mencapai $10.8 miliar, tumbuh 143% dan terus meningkat selama 13 kuartal berturut-turut. Namun, pedoman untuk Q3 menjadi sorotan utama. Meski total pendapatan diproyeksikan $29.4 miliar (di atas perkiraan analis $28.54 miliar), proyeksi pendapatan semikonduktor AI untuk Q3 hanya $16 miliar, lebih rendah sekitar 7% dari konsensus ekspektasi analis sebesar $17.2 miliar. CEO Hock Tan juga tidak menaikkan panduan pendapatan AI untuk tahun fiskal 2026, yang tetap pada lebih dari $100 miliar. Perbedaan ini memicu reaksi tajam di pasar. Saham AVGO anjlok lebih dari 13% dalam perdagangan setelah jam pasar, menghapus kapitalisasi pasar sekitar $270 miliar. CEO juga mengindikasikan bahwa proporsi pendapatan jaringan AI, yang saat ini mendekati 40% dari pendapatan semikonduktor AI, diperkirakan akan menormalkan menjadi sekitar 30%, bukan tetap di level 40%. Pernyataan ini berpotensi memberi tekanan pada valuasi perusahaan modul optik China yang terkait dengan cerita jaringan AI. Efeknya meluas ke perusahaan lain seperti Marvell yang juga turun setelah jam pasar. Meskipun demikian, manajemen menegaskan permintaan chip AI tetap sangat kuat dan berulang kali menegaskan target pendapatan AI lebih dari $100 miliar untuk FY2027. Koreksi saat ini mungkin merupakan aksi ambil untung karena valuasi yang telah tinggi, bukan perubahan mendasar dalam narasi AI jangka panjang.

marsbit58m yang lalu

Panduan Q3 Broadcom Lebih Rendah 1,2 Miliar Dolar dari Ekspektasi, Saham Anjlok >13% di Pasca-Perdagangan, Narasi AI "Mendingin"?

marsbit58m yang lalu

Taktik Baru Wall Street: Posisi Short Yen Masih Ditambah, Tapi Kenaikan Saham Jepang Bukan Karena Penutupan Carry Trade

Pada 3 Juni, USD/JPY mencapai 160,44 (tertinggi sejak Juli 2024), sementara Nikkei 225 menembus 68.000 poin. Narasi pasar khawatir "carry trade akan runtuh seperti Agustus 2024". Namun, data menunjukkan cerita berbeda. Posisi bersih short spekulan untuk yen di pasar berjangka AS (CFTC) justru meningkat menjadi -114.667 kontrak per 26 Mei, menunjukkan spekulan masih menambah taruhan pada pelemahan yen, bukan melarikan diri. Jika Bank Jepang (BOJ) bersikap lebih hawkish atau data AS melemah, posisi short besar ini berisiko likuidasi paksa seperti tahun 2024. Meski Kementerian Keuangan Jepang melakukan intervensi terbesar dalam sejarah (11,73 triliun yen) pada April-Mei 2026 untuk mendukung yen, USD/JPY tetap menembus 160. Intervensi gagal sepenuhnya menahan level psikologis tersebut. Kenaikan Nikkei 225 didorong bukan oleh pelarian dana carry trade, melainkan oleh masuknya modal asing yang aktif mengejar tema AI dan semikonduktor. Investor asing telah membeli saham Jepang bersih selama 8 minggu berturut-turut (hingga 23 Mei), dengan pembelian tahunan mendekati 11,7 triliun yen—15,8 kali lipat dari periode sama 2025. Saham seperti SoftBank dan Socionext melonjak. BOJ telah menaikkan suku bunga secara bertahap, dari -0,1% menjadi 0,75% (tertinggi sejak 1995). Namun, berbeda dengan kenaikan Juli 2024 yang memicu crash pasar, kenaikan 2025 justru bertepatan dengan rally saham. Ini karena logika beli asing beralih ke AI, bukan lagi bergantung pada biaya pinjaman yen rendah. Hubungan ini bisa berubah jika BOJ menaikkan suku bunga lebih agresif (misalnya ke 1,0%) bersamaan dengan melemahnya dolar AS. Kesimpulannya, ketiga fakta ini bisa terjadi bersamaan: posisi short yen masih padat, intervensi terbesar gagal tahan level 160, dan rally saham Jepang didorong modal asing yang mengejar AI—tidak saling bertentangan, dan masing-masing tidak bisa secara sendiri memprediksi langkah selanjutnya.

marsbit59m yang lalu

Taktik Baru Wall Street: Posisi Short Yen Masih Ditambah, Tapi Kenaikan Saham Jepang Bukan Karena Penutupan Carry Trade

marsbit59m yang lalu

Trading

Spot
Futures

Artikel Populer

Cara Membeli 4

Selamat datang di HTX.com! Kami telah membuat pembelian 4 (4) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli 4 (4) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan 4 (4) AndaSetelah melakukan pembelian, simpan 4 (4) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading 4 (4)Lakukan trading 4 (4) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

741 Total TayanganDipublikasikan pada 2025.10.20Diperbarui pada 2026.06.02

Cara Membeli 4

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga 4 (4) disajikan di bawah ini.

活动图片