Ribuan Kesalahan per Jam, Investigasi Mengungkap 'Halusinasi Akurasi' Pencarian AI Google

marsbitDipublikasikan tanggal 2026-04-13Terakhir diperbarui pada 2026-04-13

Abstrak

Ringkasan: Laporan New York Times dan perusahaan AI Oumi mengungkap bahwa fitur AI Overviews (Ringkasan AI) Google memiliki tingkat akurasi sekitar 91%. Namun, dengan volume pencarian tahunan Google yang mencapai 5 triliun, kesalahan ini berarti menghasilkan puluhan juta jawaban tidak akurat per jam. Lebih buruk lagi, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak mendukung kesimpulan yang diberikan. Tes Oumi terhadap 4.326 kueri menunjukkan peningkatan akurasi dari Gemini 2 (85%) ke Gemini 3 (91%), tetapi masalah rujukan justru memburuk - 56% jawaban benar memiliki rujukan yang tidak relevan. Sumber seperti Facebook dan Reddit sering dikutip, bahkan lebih banyak dalam jawaban yang salah. AI Overviews juga mudah dimanipulasi. Seorang jurnalis BBC berhasil "meracuni" hasil AI dengan artikel palsu dalam 24 jam. Google membantah temuan ini, menyebut metodologi tes bermasalah dan tidak mencerminkan perilaku pencarian nyata, meski pengujian internal mereka sendiri menunjukkan model Gemini 3 memiliki tingkat halusinasi 28% saat dijalankan tanpa kerangka kerja pencarian.

Penulis: Claude, Deep Tide TechFlow

Panduan Deep Tide: Tes terbaru dari The New York Times bersama perusahaan AI startup Oumi menunjukkan bahwa fitur Ringkasan AI (AI Overviews) Google Search memiliki akurasi sekitar 91%, tetapi dengan volume Google yang memproses 5 triliun pencarian per tahun, ini berarti menghasilkan puluhan juta jawaban salah setiap jam. Yang lebih rumit, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak dapat mendukung kesimpulannya.

Google sedang mengirimkan informasi yang salah kepada pengguna dalam skala yang belum pernah terjadi sebelumnya, dan kebanyakan orang tidak menyadarinya.

Menurut laporan The New York Times, perusahaan AI startup Oumi yang ditugaskan oleh mereka, menggunakan tes standar industri SimpleQA yang dikembangkan oleh OpenAI untuk mengevaluasi akurasi fitur AI Overviews Google. Tes ini mencakup 4326 kueri pencarian, dilakukan dalam dua putaran: pada Oktober tahun lalu (didukung Gemini 2) dan Februari tahun ini (ditingkatkan ke Gemini 3). Hasilnya menunjukkan akurasi Gemini 2 sekitar 85%, dan Gemini 3 meningkat menjadi 91%.

91% terdengar bagus, tetapi dalam skala Google, ceritanya berbeda. Google memproses sekitar 5 triliun kueri pencarian per tahun. Dengan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban yang tidak akurat per jam, mendekati 1 juta per menit.

Jawaban Benar, Sumbernya Salah

Yang lebih mengkhawatirkan daripada akurasi adalah masalah 'ketidaksesuaian' sumber rujukan.

Data Oumi menunjukkan, pada era Gemini 2, 37% jawaban benar memiliki masalah 'rujukan tanpa dasar', yaitu tautan yang disertakan dalam ringkasan AI tidak mendukung informasi yang diberikan. Setelah ditingkatkan ke Gemini 3, persentase ini justru meningkat, melonjak menjadi 56%. Dengan kata lain, model tersebut semakin tidak bisa 'mengerjakan PR'-nya meski memberikan jawaban yang benar.

Pertanyaan CEO Oumi Manos Koukoumidis tepat sasaran: "Bahkan jika jawabannya benar, bagaimana Anda tahu itu benar? Bagaimana Anda memverifikasinya?"

Banyaknya rujukan AI Overviews ke sumber berkualitas rendah memperburuk masalah ini. Oumi menemukan bahwa Facebook dan Reddit masing-masing adalah sumber rujukan kedua dan keempat terbanyak untuk AI Overviews. Dalam jawaban yang tidak akurat, Facebook dirujukan dengan frekuensi 7%, lebih tinggi daripada 5% dalam jawaban yang akurat.

Sebuah Artikel Palsu dari Jurnalis BBC, 'Meracuni' Sukses dalam 24 Jam

Cacat serius lainnya dari AI Overviews adalah sangat mudah dimanipulasi.

Seorang jurnalis BBC menguji dengan sebuah artikel yang sengaja dibuat palsu. Kurang dari 24 jam, ringkasan AI Google menyajikan informasi palsu di dalamnya sebagai fakta kepada pengguna.

Ini berarti siapa pun yang memahami mekanisme kerja sistem dapat 'meracuni' hasil pencarian AI dengan menerbitkan konten palsu dan meningkatkan trafiknya. Tanggapan juru bicara Google Ned Adriance atas hal ini adalah bahwa fungsi AI pencarian dibangun di atas mekanisme peringkat dan keamanan yang sama yang digunakan untuk memblokir spam, dan menyebut bahwa "sebagian besar contoh dalam tes adalah kueri tidak realistis yang tidak akan dicari orang secara nyata".

Bantahan Google: Tesnya Sendiri yang Bermasalah

Google mengajukan beberapa keberatan terhadap penelitian Oumi. Juru bicara Google menyebut penelitian tersebut "memiliki celah serius", dengan alasan termasuk: tes patokan SimpleQA sendiri mengandung informasi yang tidak akurat; Oumi menggunakan model AI mereka sendiri, HallOumi, untuk menilai kinerja AI lain, yang mungkin memperkenalkan kesalahan tambahan; konten tes tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Pengujian internal Google juga menunjukkan bahwa ketika Gemini 3 dijalankan secara independen di luar kerangka kerja Google Search, proporsi keluaran yang salah (hallucination) mencapai 28%. Namun Google menekankan bahwa AI Overviews, dengan memanfaatkan sistem peringkat pencarian, berkinerja lebih baik daripada model itu sendiri dalam hal akurasi.

Namun, seperti yang ditunjukkan oleh komentar PCMag mengenai paradoksnya: Jika alasan pembelaan Anda adalah "melaporkan bahwa AI kami tidak akurat juga menggunakan AI yang mungkin tidak akurat", ini mungkin tidak meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda.

Pertanyaan Terkait

QApa yang diungkapkan oleh penelitian New York Times dan Oumi tentang akurasi fitur AI Overviews milik Google?

APenelitian mengungkapkan bahwa akurasi AI Overviews Google sekitar 91%, tetapi dengan volume pencarian tahunan Google yang mencapai 5 triliun, hal ini berarti setiap jamnya menghasilkan lebih dari 57 juta jawaban yang tidak akurat.

QApa masalah utama dengan tautan referensi yang disediakan oleh AI Overviews, bahkan ketika jawabannya benar?

AMasalahnya adalah 'kutipan tanpa dasar', di mana tautan yang disertakan tidak mendukung informasi yang diberikan. Proporsi masalah ini meningkat dari 37% dengan Gemini 2 menjadi 56% dengan Gemini 3.

QSitus media sosial apa yang sering dikutip oleh AI Overviews dan bagaimana pengaruhnya terhadap akurasi?

AFacebook dan Reddit adalah sumber kutipan kedua dan keempat terbanyak. Facebook bahkan lebih sering dikutip dalam jawaban yang tidak akurat (7%) dibandingkan dalam jawaban yang akurat (5%).

QBagaimana seorang jurnalis BBC menunjukkan kerentanan AI Overviews terhadap manipulasi?

ASeorang jurnalis BBC berhasil 'meracuni' hasil AI dengan membuat artikel palsu. Kurang dari 24 jam, AI Overviews Google menyajikan informasi palsu dari artikel tersebut sebagai fakta kepada pengguna.

QApa sanggahan Google terhadap penelitian yang dilakukan oleh Oumi?

AGoogle menyatakan bahwa penelitian Oumi memiliki 'cacat serius', dengan alasan bahwa benchmark SimpleQA mengandung ketidakakuratan, penggunaan model AI Oumi sendiri (HallOumi) menimbulkan kesalahan, dan kueri uji tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Bacaan Terkait

Polymarket yang Tersendat: Ujian Sebenarnya Setelah Melewati Masa Kejayaan Traffic Telah Tiba

Polymarket, platform prediksi terkemuka, menghadapi masalah kelambatan dan pengalaman perdagangan yang memburuk akibat pertumbuhan yang melampaui kapasitas infrastruktur saat ini. Wakil Presiden Teknik DeFi Polymarket, Josh Stevens, mengakui masalah ini dan mengumumkan rencana perbaikan, termasuk migrasi rantai (chain migration) dari Polygon. Awalnya, Polygon dipilih karena biaya rendah dan kemudahan penggunaan, tetapi kini menjadi penghambat pertumbuhan seiring Polymarket yang berevolusi menjadi platform perdagangan yang lebih kompleks dan frekuensi tinggi. Rencana perbaikan tidak hanya mencakup migrasi rantai, tetapi juga pembangunan ulang sistem order book (CLOB), pengurangan penundaan data on-chain, perbaikan masalah pembatalan transaksi, peningkatan kinerja situs web, dan pengembangan produk perpetual contracts (Perps). Beberapa blockchain seperti Solana, Sui, dan Algorand telah menawarkan diri untuk menjadi tuan rumah baru, sementara Polygon berusaha mempertahankan Polymarket mengingat kontribusinya yang signifikan terhadap pendapatan gas. Tantangan terbesar Polymarket kini adalah membangun infrastruktur yang stabil dan dapat diandalkan untuk mempertahankan kepercayaan pengguna dalam melakukan transaksi频繁.

Odaily星球日报04/27 03:21

Polymarket yang Tersendat: Ujian Sebenarnya Setelah Melewati Masa Kejayaan Traffic Telah Tiba

Odaily星球日报04/27 03:21

Anggota Kongres Kunci 'Melunak', Rintangan Terbesar Pengangkatan Wash sebagai Ketua Fed pada 15 Mei Telah Tersingkir

Hambatan politik utama untuk konfirmasi Kevin Warsh sebagai ketua Fed telah tersingkir setelah Senator Republik Thom Tillis mencabut penentangannya. Tillis sebelumnya khawatir investigasi kriminal terhadap ketua Fed incumbent Jerome Powell mengancam independensi bank sentral. Penarikan investigasi oleh Jaksa Federal memenuhi kekhawatirannya. Komite Perbankan Senat dijadwalkan mengadakan pemungutan suara untuk nominasi Warsh pada 29 April. Jika lolos, nominasi akan diajukan ke Senat penuh, dengan konfirmasi akhir diperkirakan bertepatan dengan berakhirnya masa jabatan Powell pada 15 Mei. Kebijakan Warsh berpotensi mengubah pasar secara signifikan. Dia berencana menghapus "dot plot" (proyeksi suku bunga), meninjau kembali pedoman kebijakan, dan berpotensi mengurangi frekuensi rapat. Langkah-langkah ini dapat mendekonstruksi "forward guidance" yang menjadi dasar penetapan harga aset global selama 15 tahun terakhir, memicu penilaian ulang besar-besaran di pasar saham, obligasi, dan valuta asing.

marsbit04/27 02:58

Anggota Kongres Kunci 'Melunak', Rintangan Terbesar Pengangkatan Wash sebagai Ketua Fed pada 15 Mei Telah Tersingkir

marsbit04/27 02:58

Menurunkan Ekspektasi untuk Bull Market Bitcoin Berikutnya

Artikel ini membahas penurunan ekspektasi penulis terhadap potensi kenaikan harga Bitcoin (BTC) pada siklus bull market berikutnya. Penulis, Alex Xu, yang sebelumnya memegang BTC sebagai aset terbesarnya, telah mengurangi porsi BTC dari full menjadi sekitar 30% pada kisaran harga $100.000-$120.000, dan kembali mengurangi di level $78.000-$79.000. Alasan utama penurunan ekspektasi ini adalah: 1. **Energi Penggerak yang Melemah:** Narasi adopsi BTC yang mendorong kenaikan signifikan di siklus sebelumnya (dari aset niche hingga institusi besar via ETF) sulit terulang. Langkah berikutnya, seperti masuknya BTC ke dalam cadangan bank sentral negara maju, dianggap sangat sulit tercapai dalam 2-3 tahun ke depan. 2. **Biaya Peluang Pribadi:** Penulis menemukan peluang investasi yang lebih menarik di perusahaan-perusahaan lain. 3. **Dampak Resesi Industri Kripto:** Menyusutnya industri kripto secara keseluruhan (banyak model bisnis seperti SocialFi dan GameFi terbukti gagal) dapat memperlambat pertumbuhan basis pemegang BTC. 4. **Biaya Pendanaan Pembeli Utama:** Perusahaan pembeli BTC terbesar, Stratis, menghadapi kenaikan biaya pendanaan yang memberatkan, yang dapat mengurangi kecepatan pembeliannya dan memberi tekanan jual. 5. **Pesaing Baru untuk "Emas Digital":** Hadirnya "tokenized gold" (emas yang ditokenisasi) menawarkan keunggulan yang mirip dengan BTC (seperti dapat dibagi dan dipindahkan) sehingga menjadi pesaing serius. 6. **Masalah Anggaran Keamanan:** Imbalan miner yang terus berkurang pasca halving menimbulkan kekhawatiran tentang keamanan jaringan, sementara upaya mencari sumber fee baru seperti ordinals dan L2 dinilai gagal. Penulis menyatakan tetap memegang BTC sebagai aset besar dan terbuka untuk membeli kembali jika alasannya tidak lagi relevan atau muncul faktor positif baru, meski siap menerima jika harganya sudah terlalu tinggi untuk dibeli kembali.

marsbit04/27 02:47

Menurunkan Ekspektasi untuk Bull Market Bitcoin Berikutnya

marsbit04/27 02:47

Prediksi Pasar Tidak Dapat Terlepas dari Perdagangan Orang Dalam, Tapi Perdagangan Orang Dalam Sedang Membunuhnya

Sebuah pasar prediksi menghadapi dilema mendasar: mereka bergantung pada informasi orang dalam untuk menghasilkan harga yang akurat, tetapi aktivitas orang dalam justru dapat merusak kepercayaan investor ritel. Kasus terbaru melibatkan seorang tentara AS yang diduga menghasilkan $400.000 di Polymarket menggunakan informasi rahasia tentang operasi militer, menyoroti masalah perdagangan orang dalam yang sistemik. Platform seperti Polymarket dan Kalshi secara implisit mendorong partisipasi orang dalam untuk meningkatkan akurasi prediksi, namun juga memiliki kebijakan yang melarang perdagangan berdasarkan informasi non-publik. Kontradiksi ini menciptakan ketegangan antara efisiensi informasi dan persepsi keadilan. Jika terlalu longgar, investor ritel akan merasa dimanipulasi dan meninggalkan pasar. Jika terlalu ketat, pasar kehilangan sumber informasi paling berharga dan menjadi kurang akurat. Masa depan pasar prediksi tergantung pada kemampuan menemukan titik optimal: mempertahankan likuiditas dan kepercayaan ritel sambil tetap memberi insentif bagi informasi orang dalam yang terbatas. Tanpa keseimbangan ini, risiko kegagalan sistemik mengancam kelangsungan jangka panjangnya.

marsbit04/27 02:38

Prediksi Pasar Tidak Dapat Terlepas dari Perdagangan Orang Dalam, Tapi Perdagangan Orang Dalam Sedang Membunuhnya

marsbit04/27 02:38

Selat Hormuz, Bisakah Iran "Mengendalikannya"?

Menurut laporan media Iran, Iran telah menyusun rencana komprehensif untuk mengelola Selat Hormuz. Rencana ini mencakup klaim kedaulatan penuh atas selat tersebut, mewajibkan kapal asing memperoleh izin transit, menerapkan biaya transit (dengan preferensi pembayaran dalam rial), serta melarang mutus kapal-kapal dari negara musuh, khususnya Israel. Analis menilai langkah ini bertujuan untuk: 1. Menekan Amerika Serikat dan Israel secara ekonomi dan diplomatis dengan memanfaatkan pengaruh Iran atas jalur pelayaran vital ini. 2. Menciptakan sumber pendapatan baru yang signifikan (potensi mencapai miliaran dolar per tahun) untuk menghadapi sanksi dan mendanai rekonstruksi. 3. Memberikan ruang negosiasi dengan AS, dengan menjadikan izin transit untuk kapal AS sebagai alat tawar. Namun, implementasi rencana ini diragungkan karena beberapa hal: * Tantangan operasional dalam memberlakukan aturan di selat yang padat dan diawasi militer asing. * Protes internasional atas dasar hukum dan dampak ekonomi terhadap biaya transportasi global. * Tekanan balik dari AS, termasuk blokade terhadap pelabuhan Iran dan ancaman mencegat kapal yang membayar biaya transit. * Ketidakpastian apakah rencana ini benar-benar akan diterapkan atau hanya sekadar strategi negosiasi.

marsbit04/27 01:32

Selat Hormuz, Bisakah Iran "Mengendalikannya"?

marsbit04/27 01:32

Trading

Spot

Futures