Ribuan Kesalahan per Jam, Investigasi Mengungkap 'Halusinasi Akurasi' Pencarian AI Google

marsbitDipublikasikan tanggal 2026-04-13Terakhir diperbarui pada 2026-04-13

Abstrak

Ringkasan: Laporan New York Times dan perusahaan AI Oumi mengungkap bahwa fitur AI Overviews (Ringkasan AI) Google memiliki tingkat akurasi sekitar 91%. Namun, dengan volume pencarian tahunan Google yang mencapai 5 triliun, kesalahan ini berarti menghasilkan puluhan juta jawaban tidak akurat per jam. Lebih buruk lagi, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak mendukung kesimpulan yang diberikan. Tes Oumi terhadap 4.326 kueri menunjukkan peningkatan akurasi dari Gemini 2 (85%) ke Gemini 3 (91%), tetapi masalah rujukan justru memburuk - 56% jawaban benar memiliki rujukan yang tidak relevan. Sumber seperti Facebook dan Reddit sering dikutip, bahkan lebih banyak dalam jawaban yang salah. AI Overviews juga mudah dimanipulasi. Seorang jurnalis BBC berhasil "meracuni" hasil AI dengan artikel palsu dalam 24 jam. Google membantah temuan ini, menyebut metodologi tes bermasalah dan tidak mencerminkan perilaku pencarian nyata, meski pengujian internal mereka sendiri menunjukkan model Gemini 3 memiliki tingkat halusinasi 28% saat dijalankan tanpa kerangka kerja pencarian.

Penulis: Claude, Deep Tide TechFlow

Panduan Deep Tide: Tes terbaru dari The New York Times bersama perusahaan AI startup Oumi menunjukkan bahwa fitur Ringkasan AI (AI Overviews) Google Search memiliki akurasi sekitar 91%, tetapi dengan volume Google yang memproses 5 triliun pencarian per tahun, ini berarti menghasilkan puluhan juta jawaban salah setiap jam. Yang lebih rumit, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak dapat mendukung kesimpulannya.

Google sedang mengirimkan informasi yang salah kepada pengguna dalam skala yang belum pernah terjadi sebelumnya, dan kebanyakan orang tidak menyadarinya.

Menurut laporan The New York Times, perusahaan AI startup Oumi yang ditugaskan oleh mereka, menggunakan tes standar industri SimpleQA yang dikembangkan oleh OpenAI untuk mengevaluasi akurasi fitur AI Overviews Google. Tes ini mencakup 4326 kueri pencarian, dilakukan dalam dua putaran: pada Oktober tahun lalu (didukung Gemini 2) dan Februari tahun ini (ditingkatkan ke Gemini 3). Hasilnya menunjukkan akurasi Gemini 2 sekitar 85%, dan Gemini 3 meningkat menjadi 91%.

91% terdengar bagus, tetapi dalam skala Google, ceritanya berbeda. Google memproses sekitar 5 triliun kueri pencarian per tahun. Dengan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban yang tidak akurat per jam, mendekati 1 juta per menit.

Jawaban Benar, Sumbernya Salah

Yang lebih mengkhawatirkan daripada akurasi adalah masalah 'ketidaksesuaian' sumber rujukan.

Data Oumi menunjukkan, pada era Gemini 2, 37% jawaban benar memiliki masalah 'rujukan tanpa dasar', yaitu tautan yang disertakan dalam ringkasan AI tidak mendukung informasi yang diberikan. Setelah ditingkatkan ke Gemini 3, persentase ini justru meningkat, melonjak menjadi 56%. Dengan kata lain, model tersebut semakin tidak bisa 'mengerjakan PR'-nya meski memberikan jawaban yang benar.

Pertanyaan CEO Oumi Manos Koukoumidis tepat sasaran: "Bahkan jika jawabannya benar, bagaimana Anda tahu itu benar? Bagaimana Anda memverifikasinya?"

Banyaknya rujukan AI Overviews ke sumber berkualitas rendah memperburuk masalah ini. Oumi menemukan bahwa Facebook dan Reddit masing-masing adalah sumber rujukan kedua dan keempat terbanyak untuk AI Overviews. Dalam jawaban yang tidak akurat, Facebook dirujukan dengan frekuensi 7%, lebih tinggi daripada 5% dalam jawaban yang akurat.

Sebuah Artikel Palsu dari Jurnalis BBC, 'Meracuni' Sukses dalam 24 Jam

Cacat serius lainnya dari AI Overviews adalah sangat mudah dimanipulasi.

Seorang jurnalis BBC menguji dengan sebuah artikel yang sengaja dibuat palsu. Kurang dari 24 jam, ringkasan AI Google menyajikan informasi palsu di dalamnya sebagai fakta kepada pengguna.

Ini berarti siapa pun yang memahami mekanisme kerja sistem dapat 'meracuni' hasil pencarian AI dengan menerbitkan konten palsu dan meningkatkan trafiknya. Tanggapan juru bicara Google Ned Adriance atas hal ini adalah bahwa fungsi AI pencarian dibangun di atas mekanisme peringkat dan keamanan yang sama yang digunakan untuk memblokir spam, dan menyebut bahwa "sebagian besar contoh dalam tes adalah kueri tidak realistis yang tidak akan dicari orang secara nyata".

Bantahan Google: Tesnya Sendiri yang Bermasalah

Google mengajukan beberapa keberatan terhadap penelitian Oumi. Juru bicara Google menyebut penelitian tersebut "memiliki celah serius", dengan alasan termasuk: tes patokan SimpleQA sendiri mengandung informasi yang tidak akurat; Oumi menggunakan model AI mereka sendiri, HallOumi, untuk menilai kinerja AI lain, yang mungkin memperkenalkan kesalahan tambahan; konten tes tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Pengujian internal Google juga menunjukkan bahwa ketika Gemini 3 dijalankan secara independen di luar kerangka kerja Google Search, proporsi keluaran yang salah (hallucination) mencapai 28%. Namun Google menekankan bahwa AI Overviews, dengan memanfaatkan sistem peringkat pencarian, berkinerja lebih baik daripada model itu sendiri dalam hal akurasi.

Namun, seperti yang ditunjukkan oleh komentar PCMag mengenai paradoksnya: Jika alasan pembelaan Anda adalah "melaporkan bahwa AI kami tidak akurat juga menggunakan AI yang mungkin tidak akurat", ini mungkin tidak meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda.

Pertanyaan Terkait

QApa yang diungkapkan oleh penelitian New York Times dan Oumi tentang akurasi fitur AI Overviews milik Google?

APenelitian mengungkapkan bahwa akurasi AI Overviews Google sekitar 91%, tetapi dengan volume pencarian tahunan Google yang mencapai 5 triliun, hal ini berarti setiap jamnya menghasilkan lebih dari 57 juta jawaban yang tidak akurat.

QApa masalah utama dengan tautan referensi yang disediakan oleh AI Overviews, bahkan ketika jawabannya benar?

AMasalahnya adalah 'kutipan tanpa dasar', di mana tautan yang disertakan tidak mendukung informasi yang diberikan. Proporsi masalah ini meningkat dari 37% dengan Gemini 2 menjadi 56% dengan Gemini 3.

QSitus media sosial apa yang sering dikutip oleh AI Overviews dan bagaimana pengaruhnya terhadap akurasi?

AFacebook dan Reddit adalah sumber kutipan kedua dan keempat terbanyak. Facebook bahkan lebih sering dikutip dalam jawaban yang tidak akurat (7%) dibandingkan dalam jawaban yang akurat (5%).

QBagaimana seorang jurnalis BBC menunjukkan kerentanan AI Overviews terhadap manipulasi?

ASeorang jurnalis BBC berhasil 'meracuni' hasil AI dengan membuat artikel palsu. Kurang dari 24 jam, AI Overviews Google menyajikan informasi palsu dari artikel tersebut sebagai fakta kepada pengguna.

QApa sanggahan Google terhadap penelitian yang dilakukan oleh Oumi?

AGoogle menyatakan bahwa penelitian Oumi memiliki 'cacat serius', dengan alasan bahwa benchmark SimpleQA mengandung ketidakakuratan, penggunaan model AI Oumi sendiri (HallOumi) menimbulkan kesalahan, dan kueri uji tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Bacaan Terkait

STRC Saham Preferen Terlepas dari Patokan 11%, Akankah Mesin Abadi Strategy Tetap Berputar?

Penulis: Azuma, Odaily Planet Daily Saham preferen STRC milik MicroStrategy terus mengalami "de-pegging" (lepas dari patokan). Sejak 15 Mei, harga STRC telah menyimpang dari nilai target US$100, dan diskonnya semakin dalam, bahkan sempat menyentuh US$83,26 dan ditutup di US$88,59, atau terlepas lebih dari 11% dari nilai target. STRC dirancang sebagai sekuritas pendapatan yang beroperasi di sekitar nilai US$100. Pelepasannya dari patokan ini menantang logika produk ini. Sebagai saluran pendanaan utama MicroStrategy untuk menambah cadangan Bitcoin, harga STRC mencerminkan kepercayaan pasar terhadap model operasi modal perusahaan. STRC adalah mesin dari "flywheel" (roda gila) modal MicroStrategy. Ia memungkinkan penerbitan berkelanjutan melalui mekanisme ATM selama harganya stabil di atas US$100, menciptakan daya beli tanpa mengencerkan ekuitas pemegang saham biasa (MSTR). Roda gila ini bergantung pada stabilitas harga STRC di sekitar US$100. Untuk mempertahankannya, MicroStrategy menerapkan mekanisme penyesuaian dividen bulanan. Namun, meskipun dividen dinaikkan menjadi 11,5% dan frekuensinya menjadi dua minggu sekali, de-pegging tetap berlanjut. Penyebab de-pegging terutama adalah masalah kepercayaan. Selain tekanan jual dari pelaku arbitrase yang menggunakan leverage, kekhawatiran utama adalah likuiditas MicroStrategy. Laporan JPMorgan menyebut kewajiban dividen tahunan sekitar US$1,7 miliar, dengan cadangan tunai hanya cukup untuk sekitar 6,3 bulan. MicroStrategy membantah, menyatakan cadangan Bitcoin-nya dapat menutupi dividen selama 32 tahun, namun itu mengasumsikan penjualan Bitcoin jika diperlukan. Baru-baru ini, MicroStrategy untuk pertama kalinya menjual 32 Bitcoin, yang mengguncang pasar karena bertentangan dengan narasi "HODL" (hold/tahan) jangka panjang mereka. STRC yang terus terdiskonto akan melemahkan kemampuan pendanaan MicroStrategy. Jika situasi ini berlanjut sementara cadangan tunai terkuras, kekhawatiran akan penjualan Bitcoin lebih lanjut untuk membayar dividen akan meningkat. Sebagai pembeli besar Bitcoin, pergeseran potensial MicroStrategy dari pembeli menjadi penjual dapat memberikan tekanan signifikan pada harga Bitcoin.

marsbit20m yang lalu

STRC Saham Preferen Terlepas dari Patokan 11%, Akankah Mesin Abadi Strategy Tetap Berputar?

marsbit20m yang lalu

Baru Saja, Pemenang Nobel Bergabung sebagai Karyawan Baru Anthropic

Baru-baru ini, John Jumper, pemenang Hadiah Nobel Kimia dan pemimpin inti AlphaFold, mengumumkan keluar dari Google DeepMind setelah hampir 9 tahun untuk bergabung dengan Anthropic. Langkah ini terjadi hanya dua hari setelah Noam Shazeer, salah satu penulis kunci makalah "Attention Is All You Need", meninggalkan Google untuk OpenAI. Kedua kepindahan ini menjadi pukulan besar bagi Google, dengan para pengamat menilai perusahaan kehilangan dua aset berharga dalam 72 jam. Jumper bergabung dengan DeepMind pada 2017, hanya 6 bulan setelah meraih gelar PhD, dan langsung ditunjuk untuk memimpin tim AlphaFold. Di bawah kepemimpinannya, AlphaFold 2 pada 2020 memecahkan masalah pelipatan protein yang telah berlangsung 50 tahun. Pada 2024, ia dan Demis Hassabis memenangkan Hadiah Nobel Kimia atas karyanya. Prestasinya dikatakan mempercepat penemuan struktur protein hingga 1000 kali lipat. Kepindahan Jumper ke Anthropic memperkuat ambisi perusahaan tersebut di bidang ilmu kehidupan. Sebelumnya, Anthropic telah mengakuisisi Coefficient Bio seharga $400 juta dan meluncurkan produk khusus seperti Claude for Life Sciences. Di sisi lain, OpenAI juga gencar berinvestasi di sektor ini dengan model GPT-Rosalind dan komitmen dana miliaran dolar. Sementara itu, Google DeepMind melalui Isomorphic Labs tetap menjadi pemain kuat berkat teknologi AlphaFold. Perpindahan para peneliti top dari Google memicu pertanyaan tentang daya tarik perusahaan besar versus lab AI yang lebih gesit. Seorang investor berkomentar bahwa lab AI frontier menawarkan sesuatu yang tidak dimiliki Google: perasaan bahwa satu orang dapat mengubah jalur perusahaan. Industri kini menyaksikan persaingan sengit antara Anthropic, OpenAI, dan Google DeepMind untuk mendominasi revolusi AI di bidang ilmu kehidupan.

marsbit26m yang lalu

Baru Saja, Pemenang Nobel Bergabung sebagai Karyawan Baru Anthropic

marsbit26m yang lalu

Trading

Spot
Futures
活动图片