Konferensi Pengembang Google I/O tahun 2026, memberi kesan hanya dengan dua kata: Arogan.
Tidak hanya menjejalkan agen AI seperti bebek, secara mulus ke semua pintu masuk aliran inti seperti pencarian, browser, ponsel, kacamata pintar, mereka juga secara berturut-turut meluncurkan tiga kartu trump: Gemini 3.5 Flash, model video Omni, dan asisten AI baru Spark.
Setelah memamerkan kekuatan, Sundar Pichai bahkan mengumumkan dengan sombong, Gemini mencapai 9 miliar pengguna aktif bulanan; dan secara bersamaan mengumumkan penurunan harga yang signifikan.
Artinya sudah jelas:Saya lebih kuat, dan lebih murah darimu.
Ini bukan pernyataan perang, lalu apa?
01
Yang paling menakjubkan dalam konferensi ini, sudah pasti adalah kemunculan Gemini 3.5 Flash.
Secara normal, "Pro" mewakili kekuatan inti, "Flash" mewakili ringan dan cepat.
Dari jumlah parameter model, 3.5 Flash memang lebih kecil dari 3.1 Pro, namun pada hampir semua tes benchmark penalaran dan pengkodean, kinerjanya justru lebih unggul:
Tes GSM8K untuk penalaran matematika kompleks, 3.5 Flash mencetak 95.8%, melampaui 93.2% dari 3.1 Pro; pada kemampuan pembuatan kode dalam SWE-bench lengkap, tingkat penyelesaian 3.5 Flash mencapai 38.4%, jauh melampaui 32.1% dari 3.1 Pro......
Mengapa?
Menurut DeepMind dalam Gemini 3.5 Technical Report, ada dua teknologi inti terpenting.
Distilasi Pengetahuan Ekstrem: Google kali ini tidak hanya mengandalkan kekuatan komputasi untuk melatih Flash, melainkan menggunakan model guru yang belum pernah diungkapkan sebelumnya, "Gemini 3.5 Ultra", untuk mendistilasi Flash secara reduksi dimensi.
Menurut analisis tweet oleh Chief Scientist DeepMind, Jeff Dean, proporsi fine-tuning 3.5 Flash pada dataset rantai logika berkualitas tinggi meningkat 400% dibandingkan generasi sebelumnya.
Ini berarti ia mewarisi "otak logika" model super besar, bukan "basis pengetahuan" hafalan.
Arsitektur MoE Baru (Model Pakar Campuran): Di dalam 3.5 Flash, Google menggunakan jaringan pakar dengan granularitas lebih halus.
MoE tradisional mungkin hanya memiliki 8 atau 16 pakar, dengan hanya 1-2 yang diaktifkan setiap kali, cukup untuk mendukung model dengan skala parameter triliunan.
Menurut analisis memo investasi infrastruktur AI a16z tahun 2026, 3.5 Flash menggunakan 256 pakar mikro, dengan 4 pakar paling efisien yang dapat diaktifkan setiap kali inferensi.
Karena itulah ia dapat menjaga jumlah parameter aktif yang sangat rendah, sambil mencakup ruang fitur multimodal yang sangat besar.
Pada metrik TTFT (Time to First Token, waktu keluaran token pertama), 3.5 Flash telah mencapai di bawah 65 milidetik.
Sementara manusia berkedip membutuhkan 100-150 milidetik.
Singkatnya, ketika berjalan sebagai agen cerdas, dalam perspektif fisiologis manusia, mustahil untuk mendeteksi jeda apa pun.
Bagi pengembang yang perlu sering memanggil alat, melakukan refleksi multi-putaran, dengan latensi sangat rendah, ini adalah dasar agen super yang benar-benar sempurna.
Hanya dengan mengandalkan optimasi rekayasa yang sangat ekstrem ini, barulah mungkin membangun dominasi "penerapan sisi perangkat" dalam lingkungan persaingan yang ketat.
Pertama, multimodal asli Gemini Omni Flash.
Omni berarti serba bisa, setara dengan GPT-4o sebelumnya, hanya dari namanya saja, bisa merasakan betapa tebalnya nuansa perang.
Setidaknya dari penampilannya, Gemini Omni Flash jauh lebih berhak menggunakan karakter "o" daripada GPT-4o.
Sora awal atau Gemini 1.5, pada dasarnya adalah monster jahitan, yaitu mengubah suara ke teks, lalu teks ke visual.
Tapi Omni yang dirilis kali ini, adalah keselarasan multimodal asli end-to-end. Tidak hanya dapat memahami secara asli koherensi temporal dan hukum fisika dalam video, latensi juga turun dari rata-rata industri 400-600 milidetik menjadi 120 milidetik.
Contoh di konferensi: pengguna menuangkan air dengan memakai kamera, gelas hampir penuh, Omni dapat mengatakan "stop stop stop!" 0.5 detik sebelum air meluap.
Inferensi real-time terhadap status fisik dunia nyata ini, tampak sederhana, tetapi sangat berarti: AI secara resmi berevolusi dari chatbot di layar menjadi alat bantu dunia nyata.
Meskipun masih tahap awal.
Kedua, asisten cerdas Spark.
Menurut wawancara eksklusif The Verge dengan Wakil Presiden Teknik Android yang membocorkan, Spark diberi hak kontrol API asli tingkat sistem dasar Android 17.
Singkatnya, alur kompleks yang sebelumnya perlu membuka banyak App untuk diselesaikan, sekarang tidak perlu menggunakan tangan, cukup perintahkan Spark, ia dapat membantu menyelesaikan semuanya, bahkan dapat mengirim pesan, mengatur email, merangkum jadwal, melacak dinamika halaman web, mengidentifikasi biaya tersembunyi tagihan, memproses dokumen secara massal, dll sesuai dengan nada bicara dan preferensi Anda...
Dengan kata lain, setelah memiliki asisten AI, kita pada dasarnya tidak perlu App lagi, operasi kompleks apa pun disederhanakan menjadi satu.
Ketiga, kacamata pintar.
Mengapa kacamata lagi?
Setidaknya dalam pandangan Google, akses visual dan pendengaran yang mulus adalah inang akhir untuk model besar multimodal.
Kacamata ini terlihat tanpa penampilan mencolok, seluruhnya fokus pada kemampuan praktis:
Lensa pandu gelombang berwarna penuh Micro-OLED dengan berat hanya 4 gram, tingkat transmisi cahaya hingga 85%;
Dilengkapi chip sisi perangkat Gemini ringan buatan sendiri, latensi inferensi lokal ≤12ms, dapat menyelesaikan penerjemahan real-time, pengenalan gambar, analisis adegan tanpa perlu terhubung ke internet;
Terkait secara asli dengan agen cerdas Spark, menyinkronkan data ponsel, cloud, memberikan layanan pribadi seperti pengingat jadwal, penerjemahan real-time, peringatan lingkungan.
Singkatnya, melewati layar ponsel, memasukkan agen cerdas melalui kacamata ke dalam perspektif pertama manusia.
Kontennya terlalu banyak, Google tampaknya sekaligus mengosongkan semua jurus andalan, mengumumkan sebuah kebenaran kepada pasar:
Algoritma tanpa pintu masuk, bukan apa-apa.
Era memperebutkan parameter model besar, peringkat skor telah berlalu, penyedia model murni tidak lagi memiliki parit pertahanan, masa depan adalah perang ruang empat dimensi "perangkat + cloud + ekosistem + perangkat keras".
Memasukkan AI ke dalam paket lengkap, sebenarnya membentuk kembali logika distribusi aliran seluruh internet: dari "pengguna aktif mencari/mengklik", menjadi "agen cerdas AI secara aktif mendistribusikan layanan".
Bagi para pengembang dan usaha kecil-menengah, ini sangat baik, karena daya komputasi dan model dasar menjadi sangat murah, semua orang dapat fokus pada inovasi di lapisan aplikasi.
Tapi pesaing lain, saat ini mungkin hanya ingin mengumpat.
02
Ketika Sundar Pichai dengan santai mengumumkan "Pengguna aktif bulanan Gemini secara resmi mencapai 9 miliar" di atas panggung, itu menimbulkan keributan yang tidak kecil di bawah panggung.
9 miliar, lebih banyak dari semua MAU pesaing Amerika digabungkan.
Bagaimana caranya?
Jawabannya sederhana dan kasar: Memaksakan.
Google tidak perlu seperti perusahaan AI independen yang menghabiskan biaya iklan untuk membeli pengguna, cukup menambahkan ikon di samping bilah alamat browser Chrome, mengintegrasikan pintasan panggil di bilah navigasi bawah 3 miliar ponsel Android, mendorong pembaruan penuh di Google Workspace...
Biaya akuisisi pada dasarnya sama dengan 0.
Yang lebih penting, untuk beberapa waktu ke depan, 9 miliar pengguna aktif setiap hari saat melihat produk dengan kacamata pintar, saat menangani urusan dengan Spark, serta interaksi dengan model visual Omni, menghasilkan umpan balik data dunia nyata multimodal berkualitas tinggi dalam jumlah besar, semuanya akan menjadi nutrisi untuk Gemini 4.
Ini adalah hambatan yang sangat kokoh: Model semakin berguna -> semakin banyak yang menggunakannya -> semakin banyak data yang dihasilkan -> model menjadi semakin berguna.
Untuk memperkuat siklus ini dengan cepat, Google langsung mengumumkan perang harga kepada semua pesaing: Paket AI Ultra dipotong dari $249.99/bulan menjadi $99.9/bulan.
3.5 Flash menetapkan harga input sejuta token menjadi $0.02, harga output sejuta token $0.08.
Ini harga seperti apa?
Sebagai perbandingan, harga rata-rata model setara industri masing-masing berada di kisaran $0.15-0.2 dan $0.6-1.
Sundar Pichai menghitung: Pelanggan teratas memproses sekitar 1 triliun token per hari. Memindahkan 80% beban kerja ke Gemini 3.5 Flash selama setahun, dapat menghemat lebih dari $10 miliar.
Mengapa berani menjual AI semurah kubis?
Sandaran terbesarnya adalah: Infrastruktur daya komputasi yang terintegrasi secara vertikal.
Termasuk raksasa seperti OpenAI, Anthropic, tampaknya gemilang, pada dasarnya masih "penyewa daya komputasi", perlu membeli daya komputasi dari Microsoft, Amazon, sementara yang terakhir harus membayar ke NVIDIA.
Sedangkan Google memiliki TPU sendiri, ditambah efisiensi aktivasi jarang MoE 3.5 Flash yang sangat ekstrem, memampatkan biaya daya komputasi hingga maksimal.
Sepenuhnya dapat menggunakan keunggulan aset berat untuk melakukan serangan reduksi dimensi terhadap perusahaan algoritma murni.
Logikanya jelas.
Model dasar besar dengan cepat menjadi komoditas. Seperti air dan listrik, pernahkah Anda melihat perusahaan air minum mana yang memiliki keuntungan besar?
Google tidak takat model besar itu sendiri tidak menghasilkan uang, karena dapat menghasilkan uang kembali melalui iklan pencarian, layanan cloud, dan komisi dari ekosistem Android.
Tapi bagi OpenAI, Anthropic, Cohere, Mistral yang bergantung pada penjualan API model besar untuk hidup, ini tidak mungkin.
Investor sekarang mungkin sangat ingin menekan kepala Sam Altman dan bertanya: "Harga API Google hanya sepersepuluh dari milikmu, kinerjanya lebih baik darimu, beritahu aku, bagaimana model bisnismu bisa berjalan?"
Struktur persaingan di berbagai industri akan memasuki periode perombakan yang dipercepat.
AI vendor tidak perlu dikatakan, harus segera menemukan sumber daya komputasi yang lebih murah, atau terjun sendiri membuat chip.
Selanjutnya adalah Apple yang masih tertutup.
Kombinasi kacamata pintar + model video besar Omni + pengambilalihan tingkat sistem asli Spark, tidak diragukan lagi telah mengancam iPhone.
Menurut Laporan Prediksi Tren Elektronik Konsumen Macquarie: Dalam tiga tahun ke depan, proporsi durasi interaksi tanpa layar berbasis visual/suara diperkirakan akan melonjak dari 8% saat ini menjadi 35%.
Jika pengguna terbiasa menggunakan kacamata dan suara untuk menyelesaikan pekerjaan dan hiburan sehari-hari, durasi penggunaan layar pasti akan sangat terkompresi.
Jika Apple tidak dapat menghadirkan perangkat wearables yang cukup menakjubkan untuk melawan (Vision Pro terlalu berat dan mahal, pasti hanya mainan untuk segelintir orang), hak monopoli pintu masuknya di era internet bergerak akan menghadapi tantangan yang belum pernah terjadi sebelumnya.
Ini bukan evolusi, melainkan revolusi.
Google menggunakan tiga pedang teknologi, aliran, dan harga untuk mengeluarkan surat perang kepada semua lawan.
Saat ini, masih adakah orang yang mengejeknya menderita penyakit perusahaan besar?












