Oleh | Yunyong AI, Penulis | Huang Yunhao
I. Setelah Google I/O 2026: Empat OS Sisi Klien Utama Melangkah ke Era Agent
12 Mei 2026, Google menyelenggarakan konferensi pers Android Show|I/O Edition, sesi khusus Android sebelum acara utama I/O pada 19 Mei. Presiden Ekosistem Android, Sameer Samat, memberikan nada untuk konferensi pers ini: Android harus bertransformasi dari sistem operasi menjadi seperangkat sistem cerdas. Yang melanjutkan garis utama ini adalah Gemini Intelligence — seperangkat kemampuan AI proaktif di lapisan sistem Android.
Poster konferensi pers Android Show|I/O Edition 2026
Sumber: Android Heaadlines
Dibandingkan dengan kombinasi Gemini Nano+AICore tahun lalu, kali ini Google membuat kemampuan Agent yang melintasi aplikasi dan konteks semakin tertanam di lapisan OS: otomatisasi tugas lintas aplikasi (memesan makanan, membeli, memesan), pengisian formulir otomatis, ringkasan halaman web, widget yang dapat disesuaikan, semuanya ditulis ke dalam daftar kemampuan tingkat sistem. Google juga menetapkan tiga prinsip produk: kontrol pengguna eksplisit (explicit user control), perlindungan data komprehensif (comprehensive data protection), dan transparansi operasional (operational transparency).
Satu minggu kemudian, pada pidato utama I/O 19 Mei, CEO Google Sundar Pichai membuka acara dengan mengikuti garis utama ini:
Selamat datang di era Gemini yang diagenkan (Welcome to the agentic Gemini era)
Menyelami gelombang agenisasi OS sisi klien, Google tidak bisa dibilang start-nya awal.
Microsoft telah meluncurkan Copilot+PC (kategori baru perangkat Windows 11 dengan NPU 40+ TOPS) pada Build 2024 bulan Mei 2024, dengan menanamkan kemampuan Agent ke dalam sistem OS melalui tiga kemampuan: model kecil sisi klien Phi Silica, kemampuan Agent layar Click to Do, dan ingatan aktivitas tingkat sistem Recall.
Pada WWDC24 bulan Juni 2024, Apple secara resmi mengumumkan "Apple Intelligence", yang saat itu diposisikan sebagai "personal intelligence system" (sistem kecerdasan pribadi). Fungsi-fungsi bantuan AI kemudian diluncurkan secara bertahap, hanya saja kemampuan inti Agent dari Apple Intelligence belum bisa dirilis karena masalah model besar milik sendiri yang sulit berkembang dan Siri yang "lemah".
Sementara itu, Huawei merilis HarmonyOS 6 dan kerangka kerja Agen Cerdas (HMAF) pada HDC 2025 bulan Juni 2025, diikuti dengan peluncuran lebih dari 80 agen cerdas di Plaza Agen Cerdas Xiaoyi.
Tren besar agenisasi OS sisi klien telah muncul secara bersamaan di sistem operasi utama seperti Android, iOS, HarmonyOS, dan Windows.
Apa yang ditampilkan dalam konferensi pers hanyalah fungsinya, yang benar-benar diperebutkan oleh vendor OS adalah tiga lapisan kemampuan fondasi yang mendukung operasi andal OS Agent dan memecahkan masalah secara nyata: Runtime AI tingkat sistem, chip yang dapat dikendalikan, dan matriks model ujung-awan.
II. Di Balik Konferensi Pers: Tiga Lapisan Fondasi yang Menopang OS Agent
Runtime AI Tingkat Sistem: Pusat Kendali Kecerdasan Sisi Klien
Runtime adalah mesin inferensi dan layanan sistem tempat model sisi klien berjalan dalam sistem operasi. Ke bawah, ia berhubungan langsung dengan NPU dan penjadwalan sumber daya sistem; ke atas, ia memaparkan kemampuan inferensi ke semua Aplikasi melalui API yang stabil. Ia mengubah model sisi klien menjadi "kecerdasan bersama di lapisan OS": berbagi bobot model lintas aplikasi, menjadwalkan daya komputasi dan memori secara terpadu, menanggung pemanggilan alat yang diperlukan Agent, panduan generasi, serta penghubungan konteks dan izin. Ia menentukan apakah OS Agent hanya sebuah tombol obrolan dalam Aplikasi, atau layanan permanen yang dapat melakukan operasi tingkat sistem pada OS.
Sampel paling lengkap dalam ekosistem Android adalah Google AICore. Pada Desember 2023, AICore diluncurkan sebagai layanan sistem (system service) Android 14; pada Agustus 2025, Gemini Nano dibuka untuk pengembang melalui ML Kit GenAI APIs. Dari fondasi layanan sistem hingga API stabil yang menghadap Aplikasi, AICore membutuhkan waktu hampir dua tahun untuk terus disempurnakan.
Vendor OS lain menempuh jalan yang sama, hanya dengan ritme berbeda. Apple pada WWDC25 membuka kerangka kerja Foundation Models untuk pengembang, kerangka kerja ini dilengkapi dengan dekorator @Generable, pemanggilan alat, panduan generasi (guided generation), dan sesi berstatus (stateful session), di belakangnya terhubung dengan model dasar sisi klien berparameter sekitar 3B, ditambah dukungan komputasi awan pribadi. Microsoft memasang kerangka kerja AI sisi klien Foundry on Windows dan Phi Silica ke dalam Windows 11, dengan Windows ML sebagai backend inferensi dasar. Huawei meluncurkan Agent Framework Kit (Kerangka Kerja Agen Cerdas Harmony, HMAF) pada HDC 2025, membuka sistem niat dan protokol kolaborasi Agent bersama-sama.
Android AICore sebagai layanan sistem, menjadwalkan inferensi Gemini Nano pada akselerator perangkat keras
Sumber: Android Developers
Chip yang Dapat Dikendalikan: Titik Tumpu Kolaborasi Perangkat Lunak dan Keras
Google menetapkan ambang batas perangkat keras yang jelas untuk Gemini Intelligence dalam Android Show|I/O Edition: kumpulan fungsi lengkap pertama kali hanya tersedia untuk beberapa flagship terbaru seperti seri Pixel 10 dan Galaxy S26, model tahun lalu tidak termasuk. Ini mengarah pada fakta sederhana: model AI masih berkembang pesat, perangkat lunak terus mengajukan persyaratan baru pada perangkat keras. Chip yang dapat dikendalikan adalah fondasi yang menanggung persyaratan ini, tingkat kendali menentukan ruang bagi vendor OS untuk melakukan adaptasi perangkat lunak dan keras bagi OS Agent sisi klien.
Apple adalah contoh klasik dari jalur integrasi perangkat lunak dan keras. iOS dan macOS sejak awal berevolusi bersama chip seri A dan M, sementara Core ML menyatukan penjadwalan CPU, GPU, ANE ke dalam lapisan kerangka kerja. Jalur ini berlanjut di era LLM. Apple Machine Learning Research memberikan sekumpulan pengujian nyata: menurut jalur optimalisasi Core ML, penerapan Llama 3.1 8B Instruct ke M1 Max dapat mencapai kecepatan dekode lokal sekitar 33 token/dtk. Laporan teknis "Apple Intelligence Foundation Language Models" juga mengungkapkan, Apple melakukan optimalisasi arsitektural seperti berbagi cache KV dan pelatihan sadar kuantisasi 2-bit untuk chip miliknya sendiri, sehingga berhasil membuka model dasar sisi klien sekitar 3B kepada pengembang melalui kerangka kerja Foundation Models. Kedalaman seperti ini hanya dapat dicapai dengan memegang chip di tangan sendiri—inilah nilai chip yang dapat dikendalikan bagi vendor OS: ia menentukan kedalaman kolaborasi perangkat lunak dan keras, dan juga meningkatkan batas atas pengalaman OS Agent sisi klien.
Memasuki era AI, Google melakukan hal yang sama—mulai dari Pixel 6 mengambil jalur SoC Tensor buatan sendiri, Tensor G5 terbaru meningkatkan kinerja TPU hingga 60% dan CPU rata-rata 34%, sebagai SoC pertama yang menjalankan Gemini Nano generasi terbaru secara penuh di Pixel 10. Tentu saja, Tensor G5 juga memiliki kelemahan: pengujian nyata Android Central menunjukkan konfigurasi memorinya (kapasitas RAM) masih menjadi hambatan kinerja AI, skor benchmark Geekbench AI kalah dari Snapdragon 8 Elite; dalam pengujian nyata Geekbench 6 oleh Macworld, skor single-core dan multi-core G5 lebih rendah dari A18 Pro. Google masih mengejar, tetapi jalur kolaborasi Tensor buatan sendiri ditambah Gemini sisi klien sudah terbentuk.
Kirin Huawei yang dipasangkan dengan NPU Da Vinci dan model sisi klien Pangu adalah jalur chip yang dapat dikendalikan lain yang sejajar dengan Apple dan Google. Xiaomi telah meluncurkan Xuanjie O1, menjadi pendatang baru yang bergerak ke arah chip yang dapat dikendalikan.
Matriks Model Ujung-Awan: Sumber Kecerdasan Agent
Matriks model ujung-awan adalah sumber "kecerdasan" perangkat terminal: model awan menopang batas atas kemampuan tugas kompleks, model sisi klien menopang batas bawah operasi sehari-hari—penundaan, daya tahan baterai, privasi, dan stabilitas semuanya ditanggung oleh sisi klien ini. Kedua ujung tidak bisa dipisahkan, perbedaannya terletak pada kedalaman kopling dengan OS. Model sisi klien harus tertanam di OS setiap perangkat terminal, berpasangan erat dengan NPU lokal, dan memikul identitas ganda dalam OS: ke bawah, ia adalah backend inferensi lokal untuk Runtime; ke atas, ia dibuka sebagai API tingkat sistem untuk Aplikasi melalui kerangka kerja dan SDK Runtime.
Pengembangan sendiri bermakna baik di awan maupun sisi klien, hanya saja imbalannya lebih jelas di sisi klien. Model awan yang dibeli dari luar juga bisa menopang batas atas kemampuan, keunggulan pengembangan sendiri terutama terlihat pada hak kendali routing, persyaratan komersial, ritme iterasi model. Sisi klien berbeda. Model sisi klien tertanam ke dalam OS dan NPU setiap perangkat, imbalan pengembangan sendiri langsung terlihat pada kinerja produk: berbagi cache KV, pelatihan sadar kuantisasi 2-bit yang dirancang khusus untuk chip generasi tertentu, Per-Layer Embedding (berasal dari Gemma 3n, memuat parameter embedding bertahap dari penyimpanan cepat per lapis), dan sebagainya, semua ini harus dirancang secara bersamaan oleh model dan perangkat keras untuk memudahkan implementasi; sekaligus, ritme kolaborasi juga tidak bisa lagi dibatasi oleh vendor perangkat keras pihak ketiga.
Daya komputasi TPU Tensor G5 meningkat hingga 60% dibandingkan generasi sebelumnya G4, tetapi peningkatan Gemini Nano pada G5 jauh melampaui itu—menurut Google resmi dan yang disusun Jon Peddie Research, kecepatan pemrosesan lokal mencapai 2,6 kali generasi sebelumnya, konsumsi energi turun setengah dari sebelumnya, jendela token diperluas dari 12.000 menjadi 32.000 (setara dengan mencerna sekitar seratus tangkapan layar sekaligus). Kinerja yang melampaui secara signifikan ini berasal dari arsitektur inferensi elastis Matryoshka Transformer yang digunakan Gemini Nano v3, ditambah dengan optimalisasi kolaborasi dengan TPU Tensor G5.
Lonjakan kinerja Gemini Nano on Tensor G5 dibandingkan generasi sebelumnya
Sumber: Google/Jon Peddie Research, Grafik oleh Yunyong AI
Di lapisan model sisi klien ini, vendor OS utama masing-masing memegang kartu sendiri: Gemini Nano milik Google, model dasar sisi klien berparameter sekitar 3B milik Apple, Phi Silica milik Microsoft, model sisi klien Pangu milik Huawei. Pengembangan sendiri adalah pilihan default di lapisan ini.
III. Antara Tiga Lapisan: Semakin Dalam Kolaborasi, Semakin Luas Ruang Diferensiasi
Tiga lapisan kemampuan fondasi ini terhubung dari bawah ke atas: chip yang dapat dikendalikan → model sisi klien/awan → Runtime → Agent. Chip yang dapat dikendalikan menentukan efisiensi inferensi dan konsumsi daya yang dapat dicapai model sisi klien, model sisi klien menentukan kecerdasan lokal yang dapat dijadwalkan oleh Runtime, Runtime menentukan keandalan Agent sebagai layanan sistem yang dieksekusi lintas aplikasi. Semakin dalam ketiganya berkolaborasi, semakin besar diferensiasi pengalaman produk vendor OS dalam Agent sisi klien, dan parit pertahanan juga semakin tebal.
Ketiga lapisan semakin terkunci erat dalam satu set perangkat lunak dan keras yang sama, kemampuan produk OS Agent juga akan muncul dengan perbedaan yang tidak dapat dicapai oleh lapisan tunggal.
- Penundaan respons dan konsumsi daya. Kecepatan pemrosesan 2,6 kali dan pengurangan konsumsi energi setengah yang diperoleh Gemini Nano pada Tensor G5, mengandalkan adaptasi timbal balik arsitektur model, desain chip, dan penjadwalan Runtime dalam desain perangkat lunak dan keras generasi yang sama, perbaikan skala seperti ini baru akan muncul.
- Privasi dan kepercayaan. Tugas umum yang melibatkan data privasi diselesaikan di tempat oleh model sisi klien, permintaan kompleks baru diserahkan ke awan—ini adalah sikap default yang wajar dari OS Agent terhadap data pengguna saat ini. Keterkaitan ketiga lapisan menentukan apakah "prioritas sisi klien, awan sebagai cadangan" ini benar-benar dapat diterapkan: adaptasi mendalam NPU dengan model sisi klien adalah jalur kunci bagi model sisi klien yang masih dalam tahap perkembangan untuk memikul inferensi frekuensi tinggi sehari-hari; model melakukan kompresi kuantisasi dan berbagi cache KV untuk NPU; Runtime merutekan antara sisi klien dan awan berdasarkan kompleksitas tugas. Jika salah satu dari ketiga lapisan tidak memadai, "prioritas sisi klien" hanya akan menjadi jargon pemasaran.
- Konteks tingkat sistem. Vendor OS menyusun ulang data pengguna lintas aplikasi dan lapisan OS (indeks semantik, persepsi layar, ingatan jangka panjang) menjadi konteks pribadi tingkat sistem yang disediakan untuk Agent, ini adalah prasyarat Agent benar-benar "memahami pengguna", dan juga ciri inti OS Agent yang berbeda dari Agent tingkat aplikasi tunggal. Penerapannya bergantung pada keterkaitan ketiga lapisan: Runtime memegang indeks dan izin lintas aplikasi, model sisi klien yang terus aktif bertanggung jawab untuk memahami dan melakukan inferensi, NPU menyediakan daya komputasi lokal yang efisien. Core Spotlight Apple membangun indeks semantik di terminal, Aplikasi mengintegrasikan tindakan dan data ke dalam sistem melalui App Intents, Agent akan mendapatkan konteks melalui Personal Context (Apple telah mengumumkan kemampuan ini akan dirilis dengan pembaruan perangkat lunak mendatang); di sisi Android, AppFunctions menempuh jalur yang sama.
- Keandalan sebagai layanan sistem. OS Agent harus dipanggil sebagai layanan tingkat sistem, sehingga harus tetap dapat digunakan dalam skenario nyata seperti tidak terhubung ke internet, daya baterai rendah, thermal throttling. Model sisi klien yang terus aktif di perangkat memungkinkan Agent bekerja tanpa jaringan; NPU yang sangat dioptimalkan secara perangkat lunak dan keras menangani inferensi daya rendah; Runtime melakukan penjadwalan fallback berdasarkan ketersediaan ketika sumber daya perangkat terbatas (beralih ke model yang lebih ringan, atau merutekan permintaan ke awan). Jika salah satu dari ketiga lapisan ini hilang, OS Agent tidak akan mampu mempertahankan bentuk layanan sistem, dan hanya akan kembali menjadi tombol obrolan tingkat Aplikasi.
Apple Intelligence menghadirkan paradigma kolaborasi yang lengkap: Apple Silicon, model dasar sisi klien sekitar 3B, dan kerangka kerja Foundation Models terkunci erat dari bawah ke atas, pemrosesan sisi klien untuk skenario umum, permintaan kompleks dialihkan ke komputasi awan pribadi. Google adalah bentuk lain. Tensor G5 sebagai SoC pertama yang menjalankan Gemini Nano generasi terbaru secara penuh di Pixel 10, dijadwalkan secara terpadu oleh AICore, memungkinkan fungsi-fungsi Agent tingkat sistem seperti Magic Cue, Pixel Screenshots secara default dapat diaktifkan tanpa bergantung pada awan. Huawei adalah contoh teladan dalam membangun kolaborasi tiga lapisan di dalam negeri: Kirin, NPU Da Vinci, model sisi klien Pangu, HMAF, keempatnya milik sendiri, dari bawah ke atas terkopling menjadi fondasi tiga lapisan yang lengkap.
Mekanisme penguncian tiga lapisan fondasi OS Agent sisi klien
Sumber: Yunyong AI
IV. Di Atas Fondasi: Variabel Kunci Lain untuk Parit Pertahanan Jangka Panjang
Kolaborasi tiga lapisan membangun inti dari parit pertahanan. Di atas fondasi masih ada banyak variabel yang memengaruhi daya saing produk di era OS Agent, termasuk kemampuan interaksi Agent dengan Aplikasi, perlindungan privasi, dan lainnya.
Interaksi OS Agent dengan Aplikasi, berada di garis depan perundingan antara vendor OS dan vendor Aplikasi. Saat ini ada dua jalur yang berjalan paralel. Salah satunya adalah pengenalan layar dan otomatisasi, termasuk berbagi layar Gemini Live, Apple Visual Intelligence, Circle to Search, dll. OS Agent ikut campur dalam Aplikasi dengan membaca layar, menekan tombol, satu tugas tunggal dapat dilakukan, tetapi setiap pemanggilannya kekurangan informasi terstruktur, sulit membangun alur kerja yang stabil untuk tindakan multi-langkah. Jalur lainnya adalah integrasi mendalam API, termasuk Google AppFunctions, Apple App Intents, Intents Kit Huawei, dll. Aplikasi memaparkan tindakan intinya ke sistem melalui antarmuka terstruktur, pemanggilan Agent stabil, dan juga dapat membangun alur kerja multi-langkah. Apakah jalur API dapat berkembang, kuncinya tidak terletak pada vendor OS, melainkan pada vendor Aplikasi. Menyerahkan fungsi inti untuk dipanggil oleh Agent berarti pengguna mungkin tidak lagi langsung membuka Aplikasi, eksposur merek, slot iklan, data perilaku, dan pintu pembayaran semuanya berisiko disalip oleh OS. Ini akan menjadi titik perebutan inti hak alokasi lalu lintas terminal di sisi pengguna.
Perlindungan privasi, adalah nilai kunci dan batas bawah sistem sisi klien. Vendor OS memegang izin tingkat sistem terdalam dan data pengguna paling sensitif di sisi klien, privasi bukan hanya posisi tugas, tetapi juga prasyarat jangka panjang untuk kemajuan dua hal sebelumnya. Apple membangun sistem perlindungan privasi berbasis terminal melalui chip keamanan independen Secure Enclave sisi klien dan desain keamanan tingkat perangkat keras yang sama yang dibagikan oleh node komputasi awan pribadi PCC, strategi produk ini membuat "Privasi. Itulah Apple." menjadi label merek inti Apple di pasar high-end global, sehingga memenangkan kepercayaan pengguna.
Label "Privacy. That’s Apple." milik Apple
Sumber: Situs web Apple
Kolaborasi tiga lapisan mendirikan inti parit pertahanan, variabel-variabel jangka panjang di atas fondasi ini kemudian memengaruhi seberapa dalam ia dapat diperkuat.
V. Bukan Hanya Membuat Ulang OS
Dalam tren agenisasi OS sisi klien, semakin kokoh tiga lapisan fondasi Runtime AI tingkat sistem, chip yang dapat dikendalikan, dan matriks model ujung-awan ini, semakin tinggi batas bawah produk vendor OS dalam pertempuran ini, dan semakin luas ruang diferensiasinya. Vendor OS yang memahami tren ini, baru memiliki kesempatan untuk mendorong reset hak alokasi lalu lintas masuk sisi klien, dan mendapatkan posisi kompetitif yang lebih kuat.
Tren ini tidak terbatas pada ponsel dan PC. Kemampuan dasar OS Agent meluap ke lebih banyak terminal sepanjang ekosistem multi-perangkat yang telah dibangun oleh masing-masing pihak, terutama IoT yang berkembang pesat. Chip yang dapat dikendalikan turun ke skenario seperti SoC mobil, Huawei telah mengatur chip Kirin kelas kendaraan, sistem operasi HyperOS Xiaomi masuk ke model kendaraan sendiri; model sisi klien bermigrasi ke perangkat keras bentuk baru yang lebih ringan seperti kacamata, kacamata pintar Android XR yang dikembangkan bersama oleh Google dan Samsung, Gentle Monster, Warby Parker akan diluncurkan pada musim gugur 2026; kolaborasi Runtime dan Agent kemudian diperluas ke kelompok perangkat melalui kerangka kerja "super terminal/distributed" yang telah dipasang oleh masing-masing pihak, misalnya "1+8+N" dan bus lunak terdistribusi Harmony milik Huawei, ekosistem lengkap "Man-Car-Home" dan HyperConnect milik Xiaomi, Continuity milik Apple, Cross device SDK dan layanan lintas perangkat milik Google. Pertempuran OS Agent ini, jauh melampaui kemenangan atau kekalahan di ponsel dan PC.
AICore disempurnakan selama hampir dua tahun; OS Apple dan chip seri Apple silicon beradaptasi selama lebih dari sepuluh tahun; Tensor terus diubah hingga G5, Pixel 10 baru mampu memikul tanggung jawab Gemini Nano v3. Kualitas pertempuran ini, tidak pernah terletak pada satu atau dua jam dalam konferensi pers, melainkan pada chip, model, dan Runtime yang terasah dari generasi ke generasi.
Referensi:
- Gemini Intelligence brings proactive AI to Android|Google Blog
- I/O 2026: Welcome to the agentic Gemini era|Google Blog
- Phi Silica, small but mighty on-device SLM|Windows Experience Blog
- Apple Delays Siri Upgrade Indefinitely|Bloomberg
- HarmonyOS 6 开发者 Beta 启动新闻稿(HDC 2025)|Huawei
- The latest Gemini Nano with on-device ML Kit GenAI APIs|Android Developers Blog
- Foundation Models framework documentation|Apple Developer
- 鸿蒙智能体框架白皮书|Huawei Developers
- On-Device Llama 3.1 with Core ML|Apple Machine Learning Research
- Apple Intelligence Foundation Language Models Tech Report 2025|Apple Machine Learning Research
- Google Tensor G5: Benchmarks and everything you need to know|Android Central
- Google’s new M5 SoC(Tensor G5 详解·Matryoshka Transformer)|Jon Peddie Research
- Private Cloud Compute: A new frontier for AI privacy in the cloud|Apple Security Engineering
- Overview of AppFunctions|Android Developers
- App Intents|Apple Developer
- Intents Kit 简介(HarmonyOS)|Huawei Developers
- The Google Pixel 10 Pro’s Tensor G5 chip is impressive—if you compare it to an iPhone 14|Macworld
- Gemma 3n model overview|Google AI for Developers











