Ribuan Kesalahan per Jam, Investigasi Mengungkap 'Halusinasi Akurasi' Pencarian AI Google

marsbitDipublikasikan tanggal 2026-04-13Terakhir diperbarui pada 2026-04-13

Abstrak

Ringkasan: Laporan New York Times dan perusahaan AI Oumi mengungkap bahwa fitur AI Overviews (Ringkasan AI) Google memiliki tingkat akurasi sekitar 91%. Namun, dengan volume pencarian tahunan Google yang mencapai 5 triliun, kesalahan ini berarti menghasilkan puluhan juta jawaban tidak akurat per jam. Lebih buruk lagi, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak mendukung kesimpulan yang diberikan. Tes Oumi terhadap 4.326 kueri menunjukkan peningkatan akurasi dari Gemini 2 (85%) ke Gemini 3 (91%), tetapi masalah rujukan justru memburuk - 56% jawaban benar memiliki rujukan yang tidak relevan. Sumber seperti Facebook dan Reddit sering dikutip, bahkan lebih banyak dalam jawaban yang salah. AI Overviews juga mudah dimanipulasi. Seorang jurnalis BBC berhasil "meracuni" hasil AI dengan artikel palsu dalam 24 jam. Google membantah temuan ini, menyebut metodologi tes bermasalah dan tidak mencerminkan perilaku pencarian nyata, meski pengujian internal mereka sendiri menunjukkan model Gemini 3 memiliki tingkat halusinasi 28% saat dijalankan tanpa kerangka kerja pencarian.

Penulis: Claude, Deep Tide TechFlow

Panduan Deep Tide: Tes terbaru dari The New York Times bersama perusahaan AI startup Oumi menunjukkan bahwa fitur Ringkasan AI (AI Overviews) Google Search memiliki akurasi sekitar 91%, tetapi dengan volume Google yang memproses 5 triliun pencarian per tahun, ini berarti menghasilkan puluhan juta jawaban salah setiap jam. Yang lebih rumit, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak dapat mendukung kesimpulannya.

Google sedang mengirimkan informasi yang salah kepada pengguna dalam skala yang belum pernah terjadi sebelumnya, dan kebanyakan orang tidak menyadarinya.

Menurut laporan The New York Times, perusahaan AI startup Oumi yang ditugaskan oleh mereka, menggunakan tes standar industri SimpleQA yang dikembangkan oleh OpenAI untuk mengevaluasi akurasi fitur AI Overviews Google. Tes ini mencakup 4326 kueri pencarian, dilakukan dalam dua putaran: pada Oktober tahun lalu (didukung Gemini 2) dan Februari tahun ini (ditingkatkan ke Gemini 3). Hasilnya menunjukkan akurasi Gemini 2 sekitar 85%, dan Gemini 3 meningkat menjadi 91%.

91% terdengar bagus, tetapi dalam skala Google, ceritanya berbeda. Google memproses sekitar 5 triliun kueri pencarian per tahun. Dengan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban yang tidak akurat per jam, mendekati 1 juta per menit.

Jawaban Benar, Sumbernya Salah

Yang lebih mengkhawatirkan daripada akurasi adalah masalah 'ketidaksesuaian' sumber rujukan.

Data Oumi menunjukkan, pada era Gemini 2, 37% jawaban benar memiliki masalah 'rujukan tanpa dasar', yaitu tautan yang disertakan dalam ringkasan AI tidak mendukung informasi yang diberikan. Setelah ditingkatkan ke Gemini 3, persentase ini justru meningkat, melonjak menjadi 56%. Dengan kata lain, model tersebut semakin tidak bisa 'mengerjakan PR'-nya meski memberikan jawaban yang benar.

Pertanyaan CEO Oumi Manos Koukoumidis tepat sasaran: "Bahkan jika jawabannya benar, bagaimana Anda tahu itu benar? Bagaimana Anda memverifikasinya?"

Banyaknya rujukan AI Overviews ke sumber berkualitas rendah memperburuk masalah ini. Oumi menemukan bahwa Facebook dan Reddit masing-masing adalah sumber rujukan kedua dan keempat terbanyak untuk AI Overviews. Dalam jawaban yang tidak akurat, Facebook dirujukan dengan frekuensi 7%, lebih tinggi daripada 5% dalam jawaban yang akurat.

Sebuah Artikel Palsu dari Jurnalis BBC, 'Meracuni' Sukses dalam 24 Jam

Cacat serius lainnya dari AI Overviews adalah sangat mudah dimanipulasi.

Seorang jurnalis BBC menguji dengan sebuah artikel yang sengaja dibuat palsu. Kurang dari 24 jam, ringkasan AI Google menyajikan informasi palsu di dalamnya sebagai fakta kepada pengguna.

Ini berarti siapa pun yang memahami mekanisme kerja sistem dapat 'meracuni' hasil pencarian AI dengan menerbitkan konten palsu dan meningkatkan trafiknya. Tanggapan juru bicara Google Ned Adriance atas hal ini adalah bahwa fungsi AI pencarian dibangun di atas mekanisme peringkat dan keamanan yang sama yang digunakan untuk memblokir spam, dan menyebut bahwa "sebagian besar contoh dalam tes adalah kueri tidak realistis yang tidak akan dicari orang secara nyata".

Bantahan Google: Tesnya Sendiri yang Bermasalah

Google mengajukan beberapa keberatan terhadap penelitian Oumi. Juru bicara Google menyebut penelitian tersebut "memiliki celah serius", dengan alasan termasuk: tes patokan SimpleQA sendiri mengandung informasi yang tidak akurat; Oumi menggunakan model AI mereka sendiri, HallOumi, untuk menilai kinerja AI lain, yang mungkin memperkenalkan kesalahan tambahan; konten tes tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Pengujian internal Google juga menunjukkan bahwa ketika Gemini 3 dijalankan secara independen di luar kerangka kerja Google Search, proporsi keluaran yang salah (hallucination) mencapai 28%. Namun Google menekankan bahwa AI Overviews, dengan memanfaatkan sistem peringkat pencarian, berkinerja lebih baik daripada model itu sendiri dalam hal akurasi.

Namun, seperti yang ditunjukkan oleh komentar PCMag mengenai paradoksnya: Jika alasan pembelaan Anda adalah "melaporkan bahwa AI kami tidak akurat juga menggunakan AI yang mungkin tidak akurat", ini mungkin tidak meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda.

Pertanyaan Terkait

QApa yang diungkapkan oleh penelitian New York Times dan Oumi tentang akurasi fitur AI Overviews milik Google?

APenelitian mengungkapkan bahwa akurasi AI Overviews Google sekitar 91%, tetapi dengan volume pencarian tahunan Google yang mencapai 5 triliun, hal ini berarti setiap jamnya menghasilkan lebih dari 57 juta jawaban yang tidak akurat.

QApa masalah utama dengan tautan referensi yang disediakan oleh AI Overviews, bahkan ketika jawabannya benar?

AMasalahnya adalah 'kutipan tanpa dasar', di mana tautan yang disertakan tidak mendukung informasi yang diberikan. Proporsi masalah ini meningkat dari 37% dengan Gemini 2 menjadi 56% dengan Gemini 3.

QSitus media sosial apa yang sering dikutip oleh AI Overviews dan bagaimana pengaruhnya terhadap akurasi?

AFacebook dan Reddit adalah sumber kutipan kedua dan keempat terbanyak. Facebook bahkan lebih sering dikutip dalam jawaban yang tidak akurat (7%) dibandingkan dalam jawaban yang akurat (5%).

QBagaimana seorang jurnalis BBC menunjukkan kerentanan AI Overviews terhadap manipulasi?

ASeorang jurnalis BBC berhasil 'meracuni' hasil AI dengan membuat artikel palsu. Kurang dari 24 jam, AI Overviews Google menyajikan informasi palsu dari artikel tersebut sebagai fakta kepada pengguna.

QApa sanggahan Google terhadap penelitian yang dilakukan oleh Oumi?

AGoogle menyatakan bahwa penelitian Oumi memiliki 'cacat serius', dengan alasan bahwa benchmark SimpleQA mengandung ketidakakuratan, penggunaan model AI Oumi sendiri (HallOumi) menimbulkan kesalahan, dan kueri uji tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Bacaan Terkait

Dua Legenda Hilang dalam Tiga Hari: Bendungan Talenta AI Google, Mulai Jebol?

Dalam tiga hari, Google kehilangan dua tokoh legendaris AI. Noam Shazeer, penulis inti makalah Transformer dan pemimpin bersama Gemini, meninggalkan Google untuk bergabung dengan OpenAI. Dua hari kemudian, John Jumper, pemenang Nobel Kimia 2024 dan pemimpin inti AlphaFold, meninggalkan Google DeepMind untuk bergabung dengan Anthropic. Tren ini diperkuat dengan keputusan mantan anggota pendiri OpenAI, Andrej Karpathy, yang bergabung dengan Anthropic pada Mei. Kehilangan ini mencerminkan tren yang lebih luas: aliran talenta AI puncak dari Google ke OpenAI dan Anthropic. Penyebabnya adalah perbedaan mendasar dalam misi. Bisnis inti Google adalah iklan, sehingga penelitian AI sering kali harus selaras dengan tujuan komersial. Sebaliknya, OpenAI berfokus pada AGI untuk kemanusiaan, sementara Anthropic berfokus pada keamanan AI, memungkinkan peneliti berkonsentrasi penuh pada kemajuan teknologi. Faktor lain termasuk prospek kekayaan dari IPO yang akan datang di OpenAI dan Anthropic, yang menawarkan potensi imbalan ekuitas yang jauh lebih besar dibandingkan dengan raksasa matang seperti Google. Selain itu, penggabungan Google Brain dan DeepMind pada 2023 dianggap gagal menyelesaikan ketegangan antara penelitian jangka panjang dan tekanan komersialisasi. Google masih memiliki aset kuat seperti infrastruktur komputasi dan data, tetapi kehilangan talenta kritis ini merupakan tantangan struktural yang mendalam. Di bidang AI, retensi talenta terbaik ternyata lebih sulit daripada membangun model yang paling canggih sekalipun.

marsbit21m yang lalu

Dua Legenda Hilang dalam Tiga Hari: Bendungan Talenta AI Google, Mulai Jebol?

marsbit21m yang lalu

Di Balik 'Raport' AI, Tersembunyi Seorang 'Pembuat Soal' Tionghoa

Setiap kali model AI terdepan dirilis, industri melihat "laporan nilai" seperti MMLU-Pro, MMMU, dan MMMU-Pro. Tolok ukur ini telah menjadi bahasa umum untuk mengevaluasi kemampuan model. Di baliknya adalah nama seorang peneliti Tionghoa, Chen Wenhu, asisten profesor di University of Waterloo. Dia dan lab TIGERLab-nya menciptakan MMLU-Pro karena MMLU lama tidak lagi efektif—model canggih seperti OpenAI o3 hampir mencapai nilai sempurna. MMLU-Pro, dengan 12.032 soal lebih sulit dan 10 pilihan jawaban, berhasil membedakan kembali kemampuan model. Selain itu, mereka mengembangkan MMMU untuk mengevaluasi model multimodal (teks dan gambar) pada 11.500 soal dari berbagai disiplin ilmu. Bahkan model terkuat seperti GPT-4V hanya mencapai akurasi 56%. MMMU-Pro kemudian dibuat agar model tidak bisa mengandalkan teks saja dan harus benar-benar memahami informasi visual. Chen Wenhu memiliki latar belakang riset dalam pemahaman informasi kompleks. Pengalamannya di Google DeepMind untuk proyek Gemini membantunya memahami celah dalam evaluasi. Labnya juga mengerjakan penelitian model, seperti UniVideo untuk video dan MoCha untuk karakter virtual, yang memperdalam pemahaman mereka dalam merancang tolok ukur yang solid. Kini, dia bergabung dengan Meta untuk fokus pada data pelatihan dan evaluasi multimodal. Karyanya menggarisbawahi kontribusi signifikan peneliti Tionghoa di balik layar dalam membentuk standar evaluasi AI global.

marsbit34m yang lalu

Di Balik 'Raport' AI, Tersembunyi Seorang 'Pembuat Soal' Tionghoa

marsbit34m yang lalu

Surat Terbuka dari Co-Founder Alliance untuk Para Entrepreneur: Ditulis pada Saat Cursor Dijual dengan Nilai $600 Miliar

Alliance Co-founder memberikan surat untuk wirausahawan, menggunakan contoh Cursor yang dijual seharga $60 miliar, untuk membahas esensi memulai bisnis dan pola umum kesuksesan perusahaan-perusahaan besar. Surat ini menekankan bahwa banyak calon pendiri menyerah terlalu cepat karena mengira peluang telah habis, padahal mereka tidak melihat bahwa perusahaan sukses seperti Cursor, Stripe, Figma, dan Shopify memulai dengan keyakinan yang tidak populer tentang tren jangka panjang. Mereka menghabiskan bertahun-tahun membangun produk sebelum masa depan itu menjadi jelas bagi semua orang. Pola dasarnya adalah: mengidentifikasi pergeseran teknologi, menemukan sudut pandang yang unik, fokus pada pengguna intensif, dan eksekusi yang gigih. Surat ini membagi peluang menjadi dua fase: di awal siklus teknologi, peluang terletak pada membuat teknologi baru dapat digunakan; di fase pertengahan/akhir, peluang terletak pada menemukan "kebalikan" atau titik buta yang diabaikan oleh pemain generasi pertama. Surat ini memberikan panduan praktis: benamkan diri di pasar, gunakan semua produk terkait, wawancarai pengguna, temukan masalah yang sangat mendesak ("pain point"). MVP harus sangat fokus, memberikan alasan kuat bagi pengguna untuk beralih dengan biaya rendah. Saluran distribusi sama pentingnya dengan produk itu sendiri, dan seringkali merupakan parit pertahanan. Pendiri harus membangun mesin distribusi, tidak hanya produk. Terakhir, ketangguhan dan ketahanan tidak dapat diajarkan, hanya didapat dari pengalaman. Banyak perusahaan besar hampir gagal berkali-kali. Pelajarannya bukan bahwa pendiri itu jenius, tetapi mereka bertahan cukup lama sehingga wawasan mereka menghasilkan efek majemuk. Intinya tidak ada rahasia. Ini tentang melakukan hal-hal mendasar secara konsisten dalam jangka panjang. Surat ini menutup dengan seruan: "Dunia adalah milik kalian. Mulailah mencipta."

marsbit35m yang lalu

Surat Terbuka dari Co-Founder Alliance untuk Para Entrepreneur: Ditulis pada Saat Cursor Dijual dengan Nilai $600 Miliar

marsbit35m yang lalu

Pilihan Mingguan Editor Weekly Editor's Picks (0613-0619)

**Ringkasan Mingguan Editor Pilihan (13-19 Juni)** Aliran informasi terlalu cepat, artikel analisis mendalam mudah tenggelam dalam tren panas. Kolom "Pilihan Editor Mingguan" ini menyaring konten bernilai dari banjir informasi, membantu Anda menyaring kebisingan dan menyisakan wawasan yang memberi inspirasi. **Lanskap Makro:** Setelah pembukaan kembali Selat Hormuz, pasar beralih dari "gejolak perang" ke "pemulihan pasokan", dengan transaksi seperti jual premium risiko minyak, beli sektor penerbangan & pariwisata, serta beli obligasi durasi panjang. **Investasi & Startup:** Ray Dalio menyarankan portofolio terdiversifikasi alih-alih berkonsentrasi pada saham raksasa AI. Prediksi untuk Crypto 2029: pasar aset digital yang bertahan. Sinyal rantai (on-chain) menunjukkan BTC mendekati area dasar. IPO SpaceX dinilai terlalu mahal, berisiko memicu "gamma squeeze" dan menjadi variabel sistematis. Saham HOOD (Robinhood) naik meski mencoba mengurangi ketergantungan pada crypto. Bursa Korea Selatan, terbatas regulasi, beralih ke token spekulatif ("meme coins"). **Web3 & AI:** Peringatan tentang risiko eksposur luar neraca (off-balance sheet) senilai $1,8 triliun di industri AI yang bisa memicu krisis. Model AI digunakan untuk prediksi pertandingan Piala Dunia. Diagram rincian biaya langganan AI $20 menunjukkan struktur biaya dan perusahaan terkait. **Pasar Prediksi:** Robinhood mengembangkan platform prediksi sendiri (Rothera), menandai pergeseran persaingan dari pasar ke saluran distribusi. **CeFi & DeFi:** Mekanisme perdagangan berkelanjutan (perpetuals) untuk Pre-IPO (contoh SpaceX) diuji, tantangannya pada penanganan aksi korporasi. STRC (terkait MicroStrategy) terlepas dari nilai nominal, mencerminkan kekhawatiran pada model keuangan perusahaan. ETF Bitcoin berpenghasilan (seperti BITA dari BlackRock) diluncurkan, menawarkan hasil tetap dengan mengorbankan potensi kenaikan maksimal. **Ethereum & Skalabilitas:** CEO Sharplink menekankan keunggulan Ethereum pada basis pengembang terbesar dan komposabilitas, bukan kecepatan. **Sorotan & Berita Singkat:** Kesepakatan AS-Iran, sikap hawkish Fed, pembatasan akses AI oleh Anthropic, akuisisi oleh SpaceX, serta pandangan dari Arthur Hayes dan a16z tentang pasar crypto dan AI.

marsbit41m yang lalu

Pilihan Mingguan Editor Weekly Editor's Picks (0613-0619)

marsbit41m yang lalu

Surat dari Pendiri Alliance untuk Para Wirausahawan: Ditulis Saat Cursor Terjual dengan Harga 60 Miliar Dolar

Duduk di depan komputer, Anda memiliki ide untuk memulai bisnis. Anda melihat Cursor dijual seharga $60 miliar kepada Elon Musk. Anda bertanya: mengapa saya tidak bisa melakukan hal yang sama? Kebanyakan calon pendiri melihat pasar yang ramai di AI dan crypto, lalu menyimpulkan peluang sudah habis. Mereka menyerah sebelum memulai. Tapi kisah Cursor dan perusahaan hebat lainnya seperti Stripe, Figma, dan Shopify menunjukkan pola yang sama: mereka memulai dengan keyakinan non-konsensus tentang masa depan, lalu membangun bertahun-tahun sebelum tren itu menjadi jelas bagi semua orang. Kunci utamanya adalah: 1. **Identifikasi Pergeseran Teknologi**: Pahami di mana posisi Anda dalam siklus inovasi. Apakah di fase awal (seperti Cursor/Coinbase) yang fokus membuat teknologi baru bisa digunakan, atau fase selanjutnya (seperti Stripe/Figma) yang membangun ulang solusi lama dengan wawasan baru. 2. **Kembangkan Wawasan Unik**: Benamkan diri Anda sepenuhnya di pasar Anda. Gunakan semua produk, bicara dengan pengguna, pahami mengapa mereka bertahan atau pergi. Wawasan muncul dari kedalaman, bukan dari pemikiran tertutup. 3. **Cari Rasa Sakit yang Akut**: Ide yang layak dibangun harus menawarkan peningkatan 10x atau memecahkan masalah yang sangat menyakitkan. Cari pengguna yang sudah membuat solusi sendiri yang rumit. 4. **Bangun MVP yang Terfokus**: Jangan tambahkan fitur hanya karena bisa. Tanya: "Mengapa seseorang akan beralih dari alat yang ada?" Produk terbaik tidak memaksa perilaku baru, mereka meningkatkan alur kerja yang sudah dikenal. 5. **Temukan Saluran Distribusi Anda**: Sebelum Product-Market Fit, capailh Channel-Market Fit. Bagaimana pelanggan Anda menemukan produk baru? Seperti Cursor, Airbnb, dan Stripe, kuncinya seringkali adalah "kerja keras" yang tidak terukur di awal—mengirim DM, memposting di forum, merekrut pengguna satu per satu. 6. **Tetaplah Gigih**: Tidak ada jalan pintas. Cursor, Airbnb, Nvidia semuanya melalui tahun-tahun sulit dan penolakan sebelum sukses. Ketekunan memungkinkan wawasan Anda berkembang. Tidak ada rahasia. Hanya sedikit orang yang mampu melakukan langkah-langkah ini secara konsisten dan cukup lama. Mereka yang melakukannya akan membangun perusahaan besar berikutnya. Dunia ini milik Anda. Ciptakanlah.

链捕手44m yang lalu