Ribuan Kesalahan per Jam, Investigasi Mengungkap 'Halusinasi Akurasi' Pencarian AI Google

marsbitDipublikasikan tanggal 2026-04-13Terakhir diperbarui pada 2026-04-13

Abstrak

Ringkasan: Laporan New York Times dan perusahaan AI Oumi mengungkap bahwa fitur AI Overviews (Ringkasan AI) Google memiliki tingkat akurasi sekitar 91%. Namun, dengan volume pencarian tahunan Google yang mencapai 5 triliun, kesalahan ini berarti menghasilkan puluhan juta jawaban tidak akurat per jam. Lebih buruk lagi, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak mendukung kesimpulan yang diberikan. Tes Oumi terhadap 4.326 kueri menunjukkan peningkatan akurasi dari Gemini 2 (85%) ke Gemini 3 (91%), tetapi masalah rujukan justru memburuk - 56% jawaban benar memiliki rujukan yang tidak relevan. Sumber seperti Facebook dan Reddit sering dikutip, bahkan lebih banyak dalam jawaban yang salah. AI Overviews juga mudah dimanipulasi. Seorang jurnalis BBC berhasil "meracuni" hasil AI dengan artikel palsu dalam 24 jam. Google membantah temuan ini, menyebut metodologi tes bermasalah dan tidak mencerminkan perilaku pencarian nyata, meski pengujian internal mereka sendiri menunjukkan model Gemini 3 memiliki tingkat halusinasi 28% saat dijalankan tanpa kerangka kerja pencarian.

Penulis: Claude, Deep Tide TechFlow

Panduan Deep Tide: Tes terbaru dari The New York Times bersama perusahaan AI startup Oumi menunjukkan bahwa fitur Ringkasan AI (AI Overviews) Google Search memiliki akurasi sekitar 91%, tetapi dengan volume Google yang memproses 5 triliun pencarian per tahun, ini berarti menghasilkan puluhan juta jawaban salah setiap jam. Yang lebih rumit, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak dapat mendukung kesimpulannya.

Google sedang mengirimkan informasi yang salah kepada pengguna dalam skala yang belum pernah terjadi sebelumnya, dan kebanyakan orang tidak menyadarinya.

Menurut laporan The New York Times, perusahaan AI startup Oumi yang ditugaskan oleh mereka, menggunakan tes standar industri SimpleQA yang dikembangkan oleh OpenAI untuk mengevaluasi akurasi fitur AI Overviews Google. Tes ini mencakup 4326 kueri pencarian, dilakukan dalam dua putaran: pada Oktober tahun lalu (didukung Gemini 2) dan Februari tahun ini (ditingkatkan ke Gemini 3). Hasilnya menunjukkan akurasi Gemini 2 sekitar 85%, dan Gemini 3 meningkat menjadi 91%.

91% terdengar bagus, tetapi dalam skala Google, ceritanya berbeda. Google memproses sekitar 5 triliun kueri pencarian per tahun. Dengan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban yang tidak akurat per jam, mendekati 1 juta per menit.

Jawaban Benar, Sumbernya Salah

Yang lebih mengkhawatirkan daripada akurasi adalah masalah 'ketidaksesuaian' sumber rujukan.

Data Oumi menunjukkan, pada era Gemini 2, 37% jawaban benar memiliki masalah 'rujukan tanpa dasar', yaitu tautan yang disertakan dalam ringkasan AI tidak mendukung informasi yang diberikan. Setelah ditingkatkan ke Gemini 3, persentase ini justru meningkat, melonjak menjadi 56%. Dengan kata lain, model tersebut semakin tidak bisa 'mengerjakan PR'-nya meski memberikan jawaban yang benar.

Pertanyaan CEO Oumi Manos Koukoumidis tepat sasaran: "Bahkan jika jawabannya benar, bagaimana Anda tahu itu benar? Bagaimana Anda memverifikasinya?"

Banyaknya rujukan AI Overviews ke sumber berkualitas rendah memperburuk masalah ini. Oumi menemukan bahwa Facebook dan Reddit masing-masing adalah sumber rujukan kedua dan keempat terbanyak untuk AI Overviews. Dalam jawaban yang tidak akurat, Facebook dirujukan dengan frekuensi 7%, lebih tinggi daripada 5% dalam jawaban yang akurat.

Sebuah Artikel Palsu dari Jurnalis BBC, 'Meracuni' Sukses dalam 24 Jam

Cacat serius lainnya dari AI Overviews adalah sangat mudah dimanipulasi.

Seorang jurnalis BBC menguji dengan sebuah artikel yang sengaja dibuat palsu. Kurang dari 24 jam, ringkasan AI Google menyajikan informasi palsu di dalamnya sebagai fakta kepada pengguna.

Ini berarti siapa pun yang memahami mekanisme kerja sistem dapat 'meracuni' hasil pencarian AI dengan menerbitkan konten palsu dan meningkatkan trafiknya. Tanggapan juru bicara Google Ned Adriance atas hal ini adalah bahwa fungsi AI pencarian dibangun di atas mekanisme peringkat dan keamanan yang sama yang digunakan untuk memblokir spam, dan menyebut bahwa "sebagian besar contoh dalam tes adalah kueri tidak realistis yang tidak akan dicari orang secara nyata".

Bantahan Google: Tesnya Sendiri yang Bermasalah

Google mengajukan beberapa keberatan terhadap penelitian Oumi. Juru bicara Google menyebut penelitian tersebut "memiliki celah serius", dengan alasan termasuk: tes patokan SimpleQA sendiri mengandung informasi yang tidak akurat; Oumi menggunakan model AI mereka sendiri, HallOumi, untuk menilai kinerja AI lain, yang mungkin memperkenalkan kesalahan tambahan; konten tes tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Pengujian internal Google juga menunjukkan bahwa ketika Gemini 3 dijalankan secara independen di luar kerangka kerja Google Search, proporsi keluaran yang salah (hallucination) mencapai 28%. Namun Google menekankan bahwa AI Overviews, dengan memanfaatkan sistem peringkat pencarian, berkinerja lebih baik daripada model itu sendiri dalam hal akurasi.

Namun, seperti yang ditunjukkan oleh komentar PCMag mengenai paradoksnya: Jika alasan pembelaan Anda adalah "melaporkan bahwa AI kami tidak akurat juga menggunakan AI yang mungkin tidak akurat", ini mungkin tidak meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda.

Pertanyaan Terkait

QApa yang diungkapkan oleh penelitian New York Times dan Oumi tentang akurasi fitur AI Overviews milik Google?

APenelitian mengungkapkan bahwa akurasi AI Overviews Google sekitar 91%, tetapi dengan volume pencarian tahunan Google yang mencapai 5 triliun, hal ini berarti setiap jamnya menghasilkan lebih dari 57 juta jawaban yang tidak akurat.

QApa masalah utama dengan tautan referensi yang disediakan oleh AI Overviews, bahkan ketika jawabannya benar?

AMasalahnya adalah 'kutipan tanpa dasar', di mana tautan yang disertakan tidak mendukung informasi yang diberikan. Proporsi masalah ini meningkat dari 37% dengan Gemini 2 menjadi 56% dengan Gemini 3.

QSitus media sosial apa yang sering dikutip oleh AI Overviews dan bagaimana pengaruhnya terhadap akurasi?

AFacebook dan Reddit adalah sumber kutipan kedua dan keempat terbanyak. Facebook bahkan lebih sering dikutip dalam jawaban yang tidak akurat (7%) dibandingkan dalam jawaban yang akurat (5%).

QBagaimana seorang jurnalis BBC menunjukkan kerentanan AI Overviews terhadap manipulasi?

ASeorang jurnalis BBC berhasil 'meracuni' hasil AI dengan membuat artikel palsu. Kurang dari 24 jam, AI Overviews Google menyajikan informasi palsu dari artikel tersebut sebagai fakta kepada pengguna.

QApa sanggahan Google terhadap penelitian yang dilakukan oleh Oumi?

AGoogle menyatakan bahwa penelitian Oumi memiliki 'cacat serius', dengan alasan bahwa benchmark SimpleQA mengandung ketidakakuratan, penggunaan model AI Oumi sendiri (HallOumi) menimbulkan kesalahan, dan kueri uji tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Bacaan Terkait

Posisi Baru di Lembah Silikon, FDE, Sedang Naik Daun, Jenis Bakat AI Apa yang Diperlukan Perusahaan?

Redaksi: Dengan OpenAI dan Anthropic membentuk tim AI Forward Deployed Engineer (FDE), peran lama yang berasal dari Palantir kembali populer di Silicon Valley. Inti nilai FDE adalah bekerja di lokasi klien untuk mengubah model AI umum menjadi alur kerja Agent yang sesuai dengan proses bisnis spesifik. Namun, artikel ini membahas lebih dari sekadar karir FDE. Ini membahas bagaimana struktur pekerjaan berevolusi di era AI. Penulis berpendapat bahwa dibandingkan sejumlah kecil FDE yang ditugaskan ke klien untuk melaksanakan produk vendor tertentu, kebutuhan yang lebih besar di masa depan adalah AI Engineer internal perusahaan. Mereka perlu memahami prompt, kerangka Agent, sistem evaluasi, serta menggunakan alat pemrograman AI seperti Claude Code untuk menyematkan kemampuan AI ke dalam perangkat lunak dan sistem bisnis. Ini menunjukkan dampak AI terhadap pasar tenaga kerja tidak hanya sekadar "penggantian". AI lebih mungkin menciptakan sejumlah peran umum baru terlebih dahulu, kemudian terus berevolusi menjadi spesialisasi yang lebih sempit seperti LLMOps Engineer, Evals Engineer, dan AI Data Engineer, mirip dengan diferensiasi peran software engineer di masa lalu. Yang benar-benar langka adalah orang-orang yang memahami implementasi teknik sekaligus konteks bisnis. Saat ini, permintaan untuk AI Engineer meningkat pesat. Insinyur ini mampu membangun aplikasi menggunakan komponen perangkat lunak AI. Seiring peran ini matang, diperkirakan akan terpecah menjadi spesialisasi lebih lanjut. Meski spesialisasi masa depan belum pasti, banyak AI Engineer umum sudah menciptakan nilai besar dan sangat dibutuhkan. Diperkirakan bidang ini akan terus matang dalam dekade mendatang, menciptakan lebih banyak peluang kerja baru melalui spesialisasi.

marsbit4m yang lalu

Posisi Baru di Lembah Silikon, FDE, Sedang Naik Daun, Jenis Bakat AI Apa yang Diperlukan Perusahaan?

marsbit4m yang lalu

Jual 32 BTC untuk Bayar Dividen: Strategy Langgar Sumpah 'Tidak Pernah Menjual'

Pada 1 Juni, perusahaan holding Bitcoin, MicroStrategy, mengajukan dokumen 8-K kepada SEC yang mengungkap penjualan 32 BTC (sekitar $2,5 juta) antara 26-31 Mei untuk membayar dividen saham preferen. Meski hanya 0,004% dari total kepemilikan 843.706 BTC-nya, tindakan ini melanggar janji "tidak pernah menjual" yang terkenal dari CEO Michael Saylor. Penjualan sebelumnya pada 2022 hanya untuk tujuan perpajakan. Latar belakangnya adalah kewajiban dividen dari berbagai seri saham preferen yang diterbitkan MicroStrategy sejak awal 2025, dengan total dividen terakumulasi melebihi $693 juta. Cadangan tunai khusus perusahaan untuk dividen dan utang telah menyusut dari $2,25 miliar (Des 2025) menjadi $900 juta (akhir Mei 2026), mendorong CEO Phong Le menyebut "penjualan bitcoin secara disiplin" sebagai alat manajemen modal. Penjualan MicroStrategy terjadi di tengah tekanan pasar yang lebih luas. Data CoinShares menunjukkan arus keluar bersih mingguan dari produk investasi aset digital mencapai $1,67 miliar, terbesar kedua pada 2026. Banyak perusahaan lain juga menjual BTC di Q1 2026, seperti MARA Holdings (15.133 BTC), Riot Platforms (3.778 BTC), dan Nakamoto Holdings (284 BTC). Beberapa perusahaan bahkan meninggalkan model treasury crypto sepenuhnya. Meski MicroStrategy masih membeli 25.000+ BTC pada Mei (senilai $2 miliar), sinyal dari penjualan kecil ini signifikan: bahkan HODLer terbesar pun kini mengakui penjualan sebagai pilihan yang valid, menandakan potensi perubahan sikap mendasar di antara perusahaan-perusahaan pemegang Bitcoin besar.

marsbit7m yang lalu

Jual 32 BTC untuk Bayar Dividen: Strategy Langgar Sumpah 'Tidak Pernah Menjual'

marsbit7m yang lalu

Medan Persaingan Baru AI: Ingatan Jangka Panjang Menjadi Titik Sakit, Bagaimana Pengguna Mempertahankan Kepemilikan Konteks Mereka

AI kini beralih dari alat obrolan menjadi asisten digital pribadi yang memahami pola kerja dan preferensi pengguna. Namun, memori jangka panjang yang dikumpulkan AI—seperti kebiasaan, konteks proyek, dan riwayat percakapan—saat ini terisolasi di dalam masing-masing platform (seperti ChatGPT, Claude, Gemini). Hal ini membuat pengguna kehilangan konteks saat berpindah model atau platform. Isu kepemilikan memori dan portabilitas konteks AI kini menjadi tantangan baru. ZetaChain, melalui produk Anuma, mengusung solusi "Lapisan Memori Privat" (Private Memory Layer) yang memungkinkan pengguna memiliki dan mengontrol memori AI mereka secara terenkripsi. Memori ini dapat dibawa ke berbagai model AI dan agen, dengan sistem izin terprogram yang dapat diaudit dan dicabut. ZetaChain, yang sebelumnya fokus pada infrastruktur interoperabilitas antar-blockchain, bertransisi ke AI karena melihat paralel antara masalah fragmentasi aset di blockchain dengan isolasi memori di dunia AI. Visi mereka adalah membangun "Lapisan Konsumen AI" (AI Consumer Layer) di mana berbagai agen AI dapat berkolaborasi dengan berbagi konteks, identitas, dan sistem izin yang seragam—dengan kepemilikan dan kendali tetap di tangan pengguna. Token ZETA diubah fungsinya menjadi "token infrastruktur AI" untuk akses model, pembayaran antar-agen, pencatatan izin di blockchain, dan ekonomi kreator tempat keahlian dapat dikemas sebagai agen berbayar. Inti upaya ini adalah mengembalikan kepemilikan memori, identitas, dan konteks AI dari platform kepada pengguna.

marsbit12m yang lalu

Medan Persaingan Baru AI: Ingatan Jangka Panjang Menjadi Titik Sakit, Bagaimana Pengguna Mempertahankan Kepemilikan Konteks Mereka

marsbit12m yang lalu

CEO Nvidia, AMD, dan Qualcomm Berkumpul di Taipei: Bisa Tidaknya Chip Anda Dijual, Pabrik Perakitan Taiwan yang Menentukan

Penulis: Tim Culpan Kompilasi: Deep TechFlow **Panduan Deep TechFlow:** Computex tahun ini menarik jumlah CEO teknologi luar negeri terbanyak sepanjang masa, tetapi mereka bukan sekadar pamer. Artikel ini mengungkap kebenaran yang sering diabaikan: nasib produsen chip ditentukan bukan oleh merek besar seperti Dell atau HP, melainkan oleh insinyur rantai pasokan di Taiwan yang menangani modul, pendingin, dan perakitan. Memahami struktur kekuatan dari bawah ke atas ini adalah kunci untuk memahami logika operasional sebenarnya di industri teknologi. Computex Taipei, pameran komputer tahunan yang dibuka 2 Juni, tahun ini lebih ramai dari biasanya. Meskipun pameran itu sendiri tidak banyak berubah sejak 2000, dunia telah menemukan kembali ketertarikannya pada komputasi dan menyadari dominasi Taiwan dalam industri ini, terutama dengan server yang kini menjadi topik pembicaraan utama. Acara ini terdiri dari tiga bagian utama: pidato kunci (keynote), forum, dan lantai pameran. Pidato kunci oleh CEO seperti dari Intel, AMD, atau Nvidia menarik perhatian media, tetapi inti sebenarnya terletak pada forum khusus dan, yang terpenting, pada interaksi di lantai pameran dan pertemuan tertutup di ruang VIP, suite hotel, atau kantor perusahaan di sekitar venue. Banyak perusahaan, lokal maupun internasional, memblokir kalender mereka selama Computex. Alasannya? Ekosistem teknologi PC bekerja secara bottom-up. Kesuksesan sebuah chip bergantung pada apakah pemasok modul mau mendesain papan sirkuit untuknya, apakah produsen manajemen termal bersedia mempelajari spesifikasinya, dan apakah perakit bersedia mengintegrasikannya ke dalam sistem mereka sebelum ditawarkan ke merek seperti Dell atau HP. Produsen perakitan dan pemasok mereka di Taiwan sering membuat keputusan produk dan teknik penting sebelum produk tersebut sampai ke merek global. Hubungan dan interoperabilitas yang dibangun selama Computex inilah yang menentukan apakah suatu komponen akan diadopsi secara serius atau justru ditinggalkan. Kecepatan siklus teknologi yang tinggi, margin laba yang tipis, dan kompleksitas teknis mengharuskan kolaborasi yang erat. Dengan demikian, kehadiran dan dukungan para CEO besar di Taipei adalah bentuk penghormatan kepada pusat kekuatan rantai pasokan hardware dunia yang sesungguhnya. Computex adalah kesempatan unik untuk menyaksikan dinamika ekosistem ini secara langsung.

marsbit13m yang lalu

CEO Nvidia, AMD, dan Qualcomm Berkumpul di Taipei: Bisa Tidaknya Chip Anda Dijual, Pabrik Perakitan Taiwan yang Menentukan

marsbit13m yang lalu

Trading

Spot
Futures
活动图片