Ribuan Kesalahan per Jam, Investigasi Mengungkap 'Halusinasi Akurasi' Pencarian AI Google

marsbitDipublikasikan tanggal 2026-04-13Terakhir diperbarui pada 2026-04-13

Abstrak

Ringkasan: Laporan New York Times dan perusahaan AI Oumi mengungkap bahwa fitur AI Overviews (Ringkasan AI) Google memiliki tingkat akurasi sekitar 91%. Namun, dengan volume pencarian tahunan Google yang mencapai 5 triliun, kesalahan ini berarti menghasilkan puluhan juta jawaban tidak akurat per jam. Lebih buruk lagi, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak mendukung kesimpulan yang diberikan. Tes Oumi terhadap 4.326 kueri menunjukkan peningkatan akurasi dari Gemini 2 (85%) ke Gemini 3 (91%), tetapi masalah rujukan justru memburuk - 56% jawaban benar memiliki rujukan yang tidak relevan. Sumber seperti Facebook dan Reddit sering dikutip, bahkan lebih banyak dalam jawaban yang salah. AI Overviews juga mudah dimanipulasi. Seorang jurnalis BBC berhasil "meracuni" hasil AI dengan artikel palsu dalam 24 jam. Google membantah temuan ini, menyebut metodologi tes bermasalah dan tidak mencerminkan perilaku pencarian nyata, meski pengujian internal mereka sendiri menunjukkan model Gemini 3 memiliki tingkat halusinasi 28% saat dijalankan tanpa kerangka kerja pencarian.

Penulis: Claude, Deep Tide TechFlow

Panduan Deep Tide: Tes terbaru dari The New York Times bersama perusahaan AI startup Oumi menunjukkan bahwa fitur Ringkasan AI (AI Overviews) Google Search memiliki akurasi sekitar 91%, tetapi dengan volume Google yang memproses 5 triliun pencarian per tahun, ini berarti menghasilkan puluhan juta jawaban salah setiap jam. Yang lebih rumit, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak dapat mendukung kesimpulannya.

Google sedang mengirimkan informasi yang salah kepada pengguna dalam skala yang belum pernah terjadi sebelumnya, dan kebanyakan orang tidak menyadarinya.

Menurut laporan The New York Times, perusahaan AI startup Oumi yang ditugaskan oleh mereka, menggunakan tes standar industri SimpleQA yang dikembangkan oleh OpenAI untuk mengevaluasi akurasi fitur AI Overviews Google. Tes ini mencakup 4326 kueri pencarian, dilakukan dalam dua putaran: pada Oktober tahun lalu (didukung Gemini 2) dan Februari tahun ini (ditingkatkan ke Gemini 3). Hasilnya menunjukkan akurasi Gemini 2 sekitar 85%, dan Gemini 3 meningkat menjadi 91%.

91% terdengar bagus, tetapi dalam skala Google, ceritanya berbeda. Google memproses sekitar 5 triliun kueri pencarian per tahun. Dengan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban yang tidak akurat per jam, mendekati 1 juta per menit.

Jawaban Benar, Sumbernya Salah

Yang lebih mengkhawatirkan daripada akurasi adalah masalah 'ketidaksesuaian' sumber rujukan.

Data Oumi menunjukkan, pada era Gemini 2, 37% jawaban benar memiliki masalah 'rujukan tanpa dasar', yaitu tautan yang disertakan dalam ringkasan AI tidak mendukung informasi yang diberikan. Setelah ditingkatkan ke Gemini 3, persentase ini justru meningkat, melonjak menjadi 56%. Dengan kata lain, model tersebut semakin tidak bisa 'mengerjakan PR'-nya meski memberikan jawaban yang benar.

Pertanyaan CEO Oumi Manos Koukoumidis tepat sasaran: "Bahkan jika jawabannya benar, bagaimana Anda tahu itu benar? Bagaimana Anda memverifikasinya?"

Banyaknya rujukan AI Overviews ke sumber berkualitas rendah memperburuk masalah ini. Oumi menemukan bahwa Facebook dan Reddit masing-masing adalah sumber rujukan kedua dan keempat terbanyak untuk AI Overviews. Dalam jawaban yang tidak akurat, Facebook dirujukan dengan frekuensi 7%, lebih tinggi daripada 5% dalam jawaban yang akurat.

Sebuah Artikel Palsu dari Jurnalis BBC, 'Meracuni' Sukses dalam 24 Jam

Cacat serius lainnya dari AI Overviews adalah sangat mudah dimanipulasi.

Seorang jurnalis BBC menguji dengan sebuah artikel yang sengaja dibuat palsu. Kurang dari 24 jam, ringkasan AI Google menyajikan informasi palsu di dalamnya sebagai fakta kepada pengguna.

Ini berarti siapa pun yang memahami mekanisme kerja sistem dapat 'meracuni' hasil pencarian AI dengan menerbitkan konten palsu dan meningkatkan trafiknya. Tanggapan juru bicara Google Ned Adriance atas hal ini adalah bahwa fungsi AI pencarian dibangun di atas mekanisme peringkat dan keamanan yang sama yang digunakan untuk memblokir spam, dan menyebut bahwa "sebagian besar contoh dalam tes adalah kueri tidak realistis yang tidak akan dicari orang secara nyata".

Bantahan Google: Tesnya Sendiri yang Bermasalah

Google mengajukan beberapa keberatan terhadap penelitian Oumi. Juru bicara Google menyebut penelitian tersebut "memiliki celah serius", dengan alasan termasuk: tes patokan SimpleQA sendiri mengandung informasi yang tidak akurat; Oumi menggunakan model AI mereka sendiri, HallOumi, untuk menilai kinerja AI lain, yang mungkin memperkenalkan kesalahan tambahan; konten tes tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Pengujian internal Google juga menunjukkan bahwa ketika Gemini 3 dijalankan secara independen di luar kerangka kerja Google Search, proporsi keluaran yang salah (hallucination) mencapai 28%. Namun Google menekankan bahwa AI Overviews, dengan memanfaatkan sistem peringkat pencarian, berkinerja lebih baik daripada model itu sendiri dalam hal akurasi.

Namun, seperti yang ditunjukkan oleh komentar PCMag mengenai paradoksnya: Jika alasan pembelaan Anda adalah "melaporkan bahwa AI kami tidak akurat juga menggunakan AI yang mungkin tidak akurat", ini mungkin tidak meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda.

Pertanyaan Terkait

QApa yang diungkapkan oleh penelitian New York Times dan Oumi tentang akurasi fitur AI Overviews milik Google?

APenelitian mengungkapkan bahwa akurasi AI Overviews Google sekitar 91%, tetapi dengan volume pencarian tahunan Google yang mencapai 5 triliun, hal ini berarti setiap jamnya menghasilkan lebih dari 57 juta jawaban yang tidak akurat.

QApa masalah utama dengan tautan referensi yang disediakan oleh AI Overviews, bahkan ketika jawabannya benar?

AMasalahnya adalah 'kutipan tanpa dasar', di mana tautan yang disertakan tidak mendukung informasi yang diberikan. Proporsi masalah ini meningkat dari 37% dengan Gemini 2 menjadi 56% dengan Gemini 3.

QSitus media sosial apa yang sering dikutip oleh AI Overviews dan bagaimana pengaruhnya terhadap akurasi?

AFacebook dan Reddit adalah sumber kutipan kedua dan keempat terbanyak. Facebook bahkan lebih sering dikutip dalam jawaban yang tidak akurat (7%) dibandingkan dalam jawaban yang akurat (5%).

QBagaimana seorang jurnalis BBC menunjukkan kerentanan AI Overviews terhadap manipulasi?

ASeorang jurnalis BBC berhasil 'meracuni' hasil AI dengan membuat artikel palsu. Kurang dari 24 jam, AI Overviews Google menyajikan informasi palsu dari artikel tersebut sebagai fakta kepada pengguna.

QApa sanggahan Google terhadap penelitian yang dilakukan oleh Oumi?

AGoogle menyatakan bahwa penelitian Oumi memiliki 'cacat serius', dengan alasan bahwa benchmark SimpleQA mengandung ketidakakuratan, penggunaan model AI Oumi sendiri (HallOumi) menimbulkan kesalahan, dan kueri uji tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Bacaan Terkait

Daftar Altcoin Paling Populer Berdasarkan Pencarian dalam Beberapa Jam Terakhir Telah Dirilis!

Platform CoinGecko merilis daftar kripto paling populer berdasarkan pencarian pengguna dalam 3 jam terakhir. Pudgy Penguins ($PENGU) memuncaki daftar, diikuti oleh Catecoin (CATE) dan Bless ($BLESS). $PENGU naik 3,9% dalam 24 jam, sementara CATE melonjak 126,2% dan $BLESS naik 86,1%. What IF (IF) juga mencatat kenaikan 41,9%. Berikut peringkat dan kapitalisasi pasar 15 aset kripto teratas berdasarkan permintaan pencarian di CoinGecko: 1. Pudgy Penguins ($PENGU) – $389,13 juta 2. Catecoin (CATE) – $19,62 juta 3. Bless ($BLESS) – $32,72 juta 4. Aerodrome Finance (AERO) – $385,03 juta 5. Hyperliquid (HYPE) – $11,43 miliar 6. Ethereum (ETH) – $224,17 miliar 7. Chainlink (LINK) – $6,17 miliar 8. Aave (AAVE) – $1,42 miliar 9. What IF (IF) – $31,24 juta 10. Polkadot (DOT) – $1,34 miliar 11. Bitcoin (BTC) – $1,27 triliun 12. Virtual Protocol (VIRTUAL) – $366,19 juta 13. Algorand (ALGO) – $758,15 juta 14. Cash Cat (CASHCAT) – $41,81 juta 15. Solana (SOL) – $42,38 miliar *Ini bukan rekomendasi investasi.

cryptonews.ru1j yang lalu

Daftar Altcoin Paling Populer Berdasarkan Pencarian dalam Beberapa Jam Terakhir Telah Dirilis!

cryptonews.ru1j yang lalu

Harga $100.000 per Bulan: Truth Social Jual Akses ke Postingan Trump ke Perusahaan Investasi

Trump Media and Technology Group (TMTG) meluncurkan layanan berlangganan premium bernama Truth API pada 1 Agustus 2026. Layanan ini memberikan akses langsung dan real-time untuk firma investasi institusional ke postingan dari akun-akun paling berpengaruh di Truth Social, termasuk akun mantan Presiden Donald Trump. Akses ini dikirim dalam milidetik, mencakup arsip sejak 2022, dan beroperasi 24/7. Menurut laporan, TMTG menawarkan langganan hingga $100.000 per bulan, dengan diskon untuk kontrak jangka panjang. Peluncuran ini mendapat kritik dari beberapa senator AS dari kedua partai. Mereka mempertanyakan etika menjual akses istimewa ke postingan seorang presiden dan meminta SEC untuk menyelidiki apakah hal ini melanggar hukum. TMTG membela diri dengan menyatakan bahwa ini adalah strategi bisnis sah untuk menghasilkan pendapatan berulang. Analisis AI dalam artikel memperingatkan risiko yang mirip dengan insiden pasar tahun 2013, di mana algoritme perdagangan bereaksi terhadap berita palsu. Truth API dapat mengubah akun Trump menjadi titik kritis sinyal pasar, yang berpotensi menjadi target peretasan atau manipulasi, tanpa mekanisme verifikasi keaslian postingan yang jelas dalam waktu nyata.

cryptonews.ru2j yang lalu

Harga $100.000 per Bulan: Truth Social Jual Akses ke Postingan Trump ke Perusahaan Investasi

cryptonews.ru2j yang lalu

Strategi Mempertahankan Dividen STRC Preferen di 12% karena Harga Masih di Bawah Par

Saham preferen STRC Strategy tetap membayar dividen 12% untuk Agustus, meskipun harganya masih di bawah nilai pari $100. Harga saham ditutup pada $89.46 di akhir Juli, mengalami kenaikan 5.42% untuk bulan tersebut. Chairman Michael Saylor menyampaikan bahwa dividen akan terus dibayar dua kali sebulan. CEO Phong Le menegaskan kembali tujuan perusahaan agar STRC diperdagangkan pada kisaran $99-$100. Perusahaan melaporkan kerugian bersih kuartal II sebesar $8.22 miliar, terutama karena kerugian belum terealisasi pada kepemilikan Bitcoinnya seiring penurunan harga kripto tersebut. Namun, Strategy telah membangun cadangan tunai sebesar $3.75 miliar untuk mendukung pembayaran dividen saham preferen dan kewajiban bunga, yang diklaim cukup untuk lebih dari dua tahun. Perusahaan juga telah membeli kembali $25 juta saham preferen STRC-nya dengan diskon dan berencana melanjutkan pembelian selama harganya di bawah $100.

cointelegraph3j yang lalu

Strategi Mempertahankan Dividen STRC Preferen di 12% karena Harga Masih di Bawah Par

cointelegraph3j yang lalu

Penarikan Bitcoin Terus Berlanjut: Penyimpanan 8 Tahun di Dompet Dingin Coldcard Berakhir dengan Nol

Dompet keras Coldcard Dihack, Aset Bitcoin Senilai $88,6 Juta Dicuri Dompet keras Coldcard mengalami kerentanan keamanan serius, menyebabkan gelombang penarikan paksa dana pengguna. Menurut Galaxy Research, total 1.367,05 BTC (sekitar $88,6 juta) telah dicuri dari 4.585 alamat yang rentan. Masalahnya bukan pada perangkat lunak (firmware), yang sudah diperbarui oleh pengembang Coinkite. Akar masalahnya ada pada seed phrase (frasa pemulihan) yang dihasilkan oleh perangkat antara Maret 2021 dan versi firmware tertentu. Kesalahan pemrograman menyebabkan generator angka acak perangkat beralih dari komponen keras ke generator perangkat lunak (Yasmarang) yang dapat diprediksi. Seed phrase yang dibuat dalam periode rentan ini dapat ditebak melalui serangan brute-force secara offline. Perangkat yang terdampak mencakup model Mk2/Mk3 (firmware 4.0.1–4.1.9), Mk4/Mk5 (sebelum v5.6.0), dan Q (sebelum v1.5.0Q). Satu-satunya cara untuk mengamankan dana adalah dengan membuat seed phrase BARU pada firmware yang telah diperbaiki dan memindahkan semua aset ke alamat baru tersebut. Memperbarui firmware saja tidak mengubah seed phrase lama yang sudah rentan. Insiden ini menghancurkan bagi investor jangka panjang. Satu korban, seorang pria 39 tahun, kehilangan 2 BTC ($130.000) yang ia kumpulkan selama 8 tahun melalui kerja keras. Ia menggunakan Bitcoin sebagai lindung nilai terhadap hiperinflasi di negaranya dan menyimpannya dengan aman di dompet dingin untuk pensiun dini. Pencurian instan ini menghancurkan rencananya dan mengungkap kerapuhan strategi 'simpan dan lupakan' meski dengan perangkat keras sekalipun. Kasus ini mengingatkan pada insiden serupa di masa lalu di mana kelemahan generator angka acak merusak keamanan kriptografi. Ini mempertanyakan asumsi bahwa penyimpanan offline selalu identik dengan keamanan mutlak.

cryptonews.ru3j yang lalu

Penarikan Bitcoin Terus Berlanjut: Penyimpanan 8 Tahun di Dompet Dingin Coldcard Berakhir dengan Nol

cryptonews.ru3j yang lalu

Korea Selatan Melihat Ledakan Volume Perdagangan 15 Altcoin!

Pertukaran cryptocurrency besar Korea Selatan, Upbit dan Bithumb, mencatat pertumbuhan signifikan dalam volume perdagangan beberapa altcoin. Dalam 24 jam terakhir, total volume perdagangan 15 altcoin populer mencapai sekitar $347,7 juta. MetaDAO (META) memimpin dengan volume perdagangan $65,84 juta hanya di Upbit. Euler (EUL) menempati posisi kedua dengan total $47,65 juta, diikuti oleh XRP dengan $38,11 juta. Altcoin lain yang juga mencatat volume tinggi antara lain ThunderCore (TT), Babylon (BABY), dan Geodnet (GEOD). Berikut adalah 15 altcoin dengan volume perdagangan tertinggi di Upbit dan Bithumb: 1) META ($65,84 juta), 2) EUL ($47,65 juta), 3) XRP ($38,11 juta), 4) TT ($35,64 juta), 5) BABY ($25,15 juta), 6) GEOD ($20,28 juta), 7) HYPER ($19,72 juta), 8) MMT ($17,67 juta), 9) ONDO ($15,65 juta), 10) SHIB ($10,55 juta), 11) DOOM ($9,61 juta), 12) BANK ($9,51 juta), 13) AKT ($7,36 juta), 14) DOGE ($7,30 juta), 15) WLD ($5,74 juta). *Ini bukan rekomendasi investasi.

cryptonews.ru5j yang lalu

Korea Selatan Melihat Ledakan Volume Perdagangan 15 Altcoin!

cryptonews.ru5j yang lalu

Trading

Spot

Kategori Populer

市场分析5,043 item berita

Ribuan Kesalahan per Jam, Investigasi Mengungkap 'Halusinasi Akurasi' Pencarian AI Google

Abstrak

Jawaban Benar, Sumbernya Salah

Sebuah Artikel Palsu dari Jurnalis BBC, 'Meracuni' Sukses dalam 24 Jam

Bantahan Google: Tesnya Sendiri yang Bermasalah

Pertanyaan Terkait

Bacaan Terkait

Daftar Altcoin Paling Populer Berdasarkan Pencarian dalam Beberapa Jam Terakhir Telah Dirilis!

Harga $100.000 per Bulan: Truth Social Jual Akses ke Postingan Trump ke Perusahaan Investasi

Strategi Mempertahankan Dividen STRC Preferen di 12% karena Harga Masih di Bawah Par

Penarikan Bitcoin Terus Berlanjut: Penyimpanan 8 Tahun di Dompet Dingin Coldcard Berakhir dengan Nol

Korea Selatan Melihat Ledakan Volume Perdagangan 15 Altcoin!

Trading

Kategori Populer

Tag Populer