Ribuan Juta Kesalahan per Jam, Investigasi Mengungkap 'Halusinasi Akurasi' Pencarian AI Google

marsbitDipublikasikan tanggal 2026-04-10Terakhir diperbarui pada 2026-04-10

Abstrak

Sebuah investigasi oleh The New York Times dan perusahaan AI Oumi mengungkap bahwa fitur AI Overviews (Ringkasan AI) Google memiliki tingkat akurasi sekitar 91%. Namun, dengan volume pencarian tahunan Google yang mencapai 5 triliun, angka ini berarti kesalahan terjadi hampir 57 juta kali per jam. Lebih buruk lagi, bahkan ketika jawabannya benar, 56% tautan rujukan yang disertakan tidak mendukung kesimpulan yang diberikan. Masalahnya diperparah dengan seringnya AI mengutip sumber berkualitas rendah seperti Facebook dan Reddit. Selain itu, sistem ini sangat rentan dimanipulasi. Seorang jurnalis BBC berhasil "meracuni" hasil AI dalam waktu 24 jam dengan artikel palsu. Google membantah temuan ini, menyebut metodologi penelitian Oumi memiliki "kelemahan serius" karena menggunakan model AI mereka sendiri (HallOumi) untuk mengevaluasi dan menguji kueri yang tidak realistis. Namun, argumen ini justru memunculkan pertanyaan lebih besar tentang keandalan sistem AI pencarian mereka.

Penulis: Claude, Deep Tide TechFlow

Panduan Deep Tide: Tes terbaru dari The New York Times bersama perusahaan rintisan AI Oumi menunjukkan bahwa fitur Ringkasan AI (AI Overviews) pada Pencarian Google memiliki akurasi sekitar 91%. Namun, dengan skala Google yang memproses sekitar 5 triliun kueri pencarian per tahun, ini berarti setiap jamnya menghasilkan lebih dari 57 juta jawaban yang salah. Yang lebih rumit, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak dapat mendukung kesimpulannya.

Google sedang mengirimkan informasi yang salah kepada pengguna dalam skala yang belum pernah terjadi sebelumnya, dan kebanyakan orang tidak menyadarinya.

Menurut laporan The New York Times, perusahaan rintisan AI Oumi yang ditugaskan oleh mereka, menggunakan tes standar industri SimpleQA yang dikembangkan oleh OpenAI untuk menilai keakuratan fitur AI Overviews milik Google. Tes ini mencakup 4326 kueri pencarian, dilakukan dalam dua putaran: pada Oktober tahun lalu (didukung Gemini 2) dan Februari tahun ini (setelah ditingkatkan ke Gemini 3). Hasilnya menunjukkan akurasi Gemini 2 sekitar 85%, dan meningkat menjadi 91% dengan Gemini 3.

Angka 91% terdengar baik, tetapi dalam skala Google, ceritanya menjadi berbeda. Google memproses sekitar 5 triliun kueri pencarian per tahun. Dengan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban yang tidak akurat per jam, atau mendekati 1 juta per menit.

Jawaban Benar, Sumbernya Salah

Yang lebih mengkhawatirkan daripada akurasi adalah masalah 'lepasnya jangkar' pada sumber rujukan.

Data Oumi menunjukkan, pada era Gemini 2, 37% dari jawaban yang benar memiliki masalah 'rujukan tanpa dasar', yaitu tautan yang disertakan dalam ringkasan AI tidak mendukung informasi yang diberikan. Setelah peningkatan ke Gemini 3, persentase ini justru meningkat, melonjak menjadi 56%. Dengan kata lain, model ini semakin tidak bisa 'mengerjakan PR'-nya ketika memberikan jawaban yang benar.

Pertanyaan CEO Oumi Manos Koukoumidis tepat sasaran: "Bahkan jika jawabannya benar, bagaimana Anda tahu itu benar? Bagaimana Anda memverifikasinya?"

Banyaknya rujukan AI Overviews ke sumber berkualitas rendah memperburuk masalah ini. Oumi menemukan bahwa Facebook dan Reddit masing-masing adalah sumber rujukan kedua dan keempat terbanyak untuk AI Overviews. Dalam jawaban yang tidak akurat, Facebook dirujukan dengan frekuensi 7%, lebih tinggi daripada dalam jawaban akurat yang hanya 5%.

Sebuah Artikel Palsu dari Wartawan BBC, 'Meracuni' Sukses dalam 24 Jam

Cacat serius lainnya dari AI Overviews adalah sangat mudah dimanipulasi.

Seorang wartawan BBC menguji dengan sebuah artikel yang sengaja dibuat palsu. Kurang dari 24 jam, ringkasan AI Google menyajikan informasi palsu di dalamnya sebagai fakta kepada pengguna.

Ini berarti siapa pun yang memahami mekanisme kerja sistem dapat 'meracuni' hasil pencarian AI dengan menerbitkan konten palsu dan meningkatkan trafiknya. Tanggapan juru bicara Google Ned Adriance terhadap hal ini adalah bahwa fungsi AI pencarian dibangun di atas mekanisme peringkat dan keamanan yang sama yang digunakan untuk memblokir spam, dan menyebut bahwa "sebagian besar contoh dalam tes adalah kueri yang tidak realistis yang tidak akan dicari oleh orang secara nyata".

Bantahan Google: Tesnya Sendiri yang Bermasalah

Google mengajukan beberapa keberatan terhadap penelitian Oumi. Juru bicara Google menyatakan bahwa penelitian tersebut "memiliki kelemahan serius", dengan alasan termasuk: tolok ukur SimpleQA sendiri mengandung informasi yang tidak akurat; Oumi menggunakan model AI mereka sendiri, HallOumi, untuk menilai kinerja AI lain, yang mungkin memperkenalkan kesalahan tambahan; konten tes tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Pengujian internal Google juga menunjukkan bahwa ketika Gemini 3 dijalankan secara independen di luar kerangka kerja Pencarian Google, proporsi keluaran yang salah (hallucination) mencapai 28%. Namun Google menekankan bahwa AI Overviews, dengan memanfaatkan sistem peringkat pencarian, berkinerja lebih baik dalam hal akurasi dibandingkan model itu sendiri.

Namun, seperti yang ditunjukkan oleh komentar PCMag mengenai paradoks logika ini: Jika alasan pembelaan Anda adalah "melaporkan bahwa AI kami tidak akurat juga menggunakan AI yang mungkin tidak akurat", ini恐怕 tidak mungkin meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda. (Terjemahan catatan: "恐怕" dari teks asli dipertahankan sebagai "mungkin" karena konteksnya, tetapi frasa selanjutnya disesuaikan agar lebih natural: "ini mungkin tidak meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda").

Pertanyaan Terkait

QApa tingkat akurasi AI Overviews Google menurut penelitian New York Times dan Oumi?

AMenurut penelitian New York Times dan Oumi, tingkat akurasi AI Overviews Google adalah sekitar 91% dengan model Gemini 3, meningkat dari 85% pada model Gemini 2.

QBerapa banyak jawaban tidak akurat yang dihasilkan AI Overviews per jam berdasarkan volume pencarian Google?

ADengan volume 5 triliun pencarian per tahun dan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban tidak akurat per jam, atau hampir 1 juta per menit.

QApa masalah utama dengan tautan referensi yang disediakan AI Overviews meskipun jawabannya benar?

AMasalahnya adalah 'kutipan tanpa dasar', di mana tautan yang disertakan tidak mendukung informasi yang diberikan. Proporsi masalah ini meningkat dari 37% (Gemini 2) menjadi 56% (Gemini 3).

QSitus apa yang sering dikutip sebagai sumber rendah kualitas oleh AI Overviews?

AFacebook dan Reddit adalah sumber kutipan terbesar kedua dan keempat. Facebook bahkan lebih sering dikutip dalam jawaban tidak akurat (7%) dibandingkan jawaban akurat (5%).

QBagaimana Google membantah temuan penelitian Oumi?

AGoogle menyatakan penelitian tersebut 'memiliki kelemahan serius', dengan alasan: benchmark SimpleQA mengandung ketidakakuratan, penggunaan model AI Oumi sendiri (HallOumi) menambah error, dan kueri uji tidak mencerminkan perilaku pencarian pengguna nyata.

Bacaan Terkait

Penerbit ETF Bitcoin Memprediksi Harga $1.000.000 Per Koin Seiring Arus Masuk yang Meningkat

VanEck's Matthew Sigel memperkirakan harga Bitcoin dapat mencapai $1 juta dalam lima tahun, didorong oleh adopsi demografis dan permintaan dari investor institusional serta bank sentral. Prediksi ini muncul di tengah arus masuk yang kuat ke ETF Bitcoin AS, dengan catatan $1,97 miliar pada April 2026 sebagai bulan terbaik tahun ini. Sigel menyamakan kurva adopsi Bitcoin dengan industri video game, yang awalnya niche lalu menjadi arus utama. Sementara itu, laporan VanEck lainnya memberikan proyeksi jangka panjang hingga $53,4 juta per koin pada 2050, dengan asumsi Bitcoin digunakan dalam penyelesaian perdagangan global dan sebagai aset cadangan. Eksekutif lain seperti Matt Hougan dari Bitwise dan Samson Mow dari Jan3 juga menyuarakan target serupa, menekankan potensi Bitcoin sebagai penyimpan nilai global.

bitcoinist2j yang lalu

Penerbit ETF Bitcoin Memprediksi Harga $1.000.000 Per Koin Seiring Arus Masuk yang Meningkat

bitcoinist2j yang lalu

Bitcoin Realized Cap Kembali Naik ke Zona Positif Saat Pasar Regains Kekuatan

Dengan harga Bitcoin kembali melampaui level kritis $80.000, indikator Bitcoin Realized Cap menunjukkan sinyal pemulihan dengan bergerak kembali ke zona positif. Peningkatan sekitar +0.25% ini terjadi setelah penurunan tajam lebih dari -2.6% pada Februari lalu, yang menandakan bahwa modal mulai kembali mengalir ke pasar. Analis Darkfost dari CryptoQuant mencatat bahwa fase ini merepresentasikan transfer aset dari investor lemah ke tangan kuat, meski sentimen pasar secara keseluruhan masih berhati-hati. Selain itu, metrik Bitcoin Net Realized Profit/Loss juga telah berbalik positif untuk pertama kalinya dalam lebih dari 5 bulan, menunjukkan lebih banyak koin yang kini dipindahkan dengan keuntungan daripada kerugian. Ini merupakan tanda perbaikan keyakinan pasar, meski bukan indikator langsung dimulainya pasar bull. Secara keseluruhan, data on-chain mengisyaratkan proses penyembuhan dan pergeseran dinamika pasar ke arah yang lebih kuat.

bitcoinist4j yang lalu

Bitcoin Realized Cap Kembali Naik ke Zona Positif Saat Pasar Regains Kekuatan

bitcoinist4j yang lalu

Apa yang Terjadi dengan Altcoin XDC dan Mengapa Baru Saja Melampaui Bitcoin?

Analis kripto X Finance Bull menyoroti altcoin XDC yang baru-baru ini melampaui Bitcoin sebagai koin paling banyak dikunjungi di CoinMarketCap dalam tujuh hari terakhir. Menurutnya, lonjakan perhatian ini bukanlah kebetulan karena jaringan XDC dirancang untuk mendigitalisasi kesenjangan pembiayaan perdagangan senilai $2,5 triliun, yang masih mengandalkan dokumen kertas dan penyelesaian manual. XDC menawarkan fitur seperti kapasitas 2.000 TPS, finalitas 2 detik, biaya hampir nol, serta mematuhi standar pesan ISO 20022 yang sama digunakan oleh SWIFT. Jaringan ini telah diadopsi oleh berbagai pihak, termasuk BitGo untuk penyimpanan institusional, Liqi yang memproses volume harian lebih dari $100 juta, dan TradeTrust Singapura untuk dokumen perdagangan digital. Faktor pendukung lainnya adalah kehadiran USDC dari Circle di jaringan XDC, klasifikasi token sebagai komoditas digital oleh SEC dan CFTC, serta peningkatan melalui hard fork Cancun yang menyelaraskannya dengan standar Ethereum terbaru. Dengan kapitalisasi pasar sekitar $635 juta dan harga perdagangan sekitar $0,03, analis menilai XDC masih undervalued mengingat potensi pasar pembiayaan perdagangan yang bernilai triliunan dolar.

bitcoinist5j yang lalu

Apa yang Terjadi dengan Altcoin XDC dan Mengapa Baru Saja Melampaui Bitcoin?

bitcoinist5j yang lalu

Denyut Pasar BTC: Minggu ke-20

Pulsa Pasar BTC Pekan 20: Sentimen Bullish Tumbuh dengan Landasan Hati-hati Harga Bitcoin bergerak naik dari kisaran tinggi $77K ke rendah $82K, didukung sentimen bullish yang kuat yang tercermin dari lonjakan Spot CVD dan volume spot. Namun, momentum harga mulai moderat, menunjukkan tekanan beli dan jual yang lebih seimbang serta potensi fase stabilisasi. Di pasar berjangka, minat spekulatif (Open Interest) dan momentum bullish (Perpetual CVD) meningkat, meski pembayaran funding untuk posisi long menurun, mengisyaratkan minat yang mulai bergeser ke sisi short. Di pasar opsi, ekspektasi bergerak ke netral-cenderung bullish dengan permintaan lindung nilai turun, meski spread volatilitas yang melebar mencerminkan ketidakpastian yang masih tinggi. Aktivitas on-chain menguat secara signifikan, ditandai peningkatan alamat aktif harian, volume transfer, dan total biaya, menunjukkan peningkatan penggunaan jaringan. Likuiditas stabil dengan tekanan jual jangka pendek berkurang dan ada sinyal modest net inflow modal (Realized Cap Change). Metrik profitabilitas membaik dengan lebih banyak supply kembali mendatangkan keuntungan, namun persentasenya masih di bawah level yang biasanya memicu profit-taking masif, menunjukkan optimisme yang terukur, bukan euforia. Kesimpulannya, struktur pasar Bitcoin terus membaik dengan dukungan aktivitas on-chain yang kuat, profitabilitas lebih sehat, dan posisi holder yang stabil. Meski nada bullish terbangun, arus modal yang lunak dan sentimen hati-hati menunjukkan pasar tetap sensitif terhadap perubahan selera risiko.

insights.glassnode6j yang lalu

insights.glassnode6j yang lalu

IREN Gila: Jual Miner, Beli GPU, Saham Naik 16%

IREN, perusahaan pertambangan Bitcoin, membuat langkah radikal dengan menjual 5.800 unit penambang S21 Pro miliknya, mencatat kerugian penurunan nilai aset sebesar $1,4 miliar. Anehnya, keputusan ini justru membuat sahamnya melonjak 16% setelah laporan keuangan triwulanan dirilis. Lonjakan ini didorong oleh transisi agresif IREN ke bisnis komputasi AI. Perusahaan mengumumkan kontrak kerja sama senilai $3,4 miliar dengan NVIDIA untuk membangun infrastruktur AI 5GW, disertai komitmen investasi ekuitas dari NVIDIA. IREN juga memiliki kontrak layanan cloud GPU senilai $9,7 miliar dengan Microsoft. Untuk mendukung ambisi ini, IREN mengakuisisi pengembang pusat data Nostrum di Spanyol dan perusahaan perangkat lunak Mirantis. Mereka juga mengadopsi kebijakan menjual semua Bitcoin yang ditambang setiap hari, sehingga tidak menyimpan cadangan kripto sama sekali. IREN bukan satu-satunya perusahaan tambang yang beralih ke AI, namun langkah mereka dianggap paling ekstrem dengan sepenuhnya meninggalkan operasi penambangan inti. Manajemen menargetkan pendapatan tahunan berulang sebesar $3,7 miliar dari AI pada akhir 2026. Pergerakan ini mencerminkan pergeseran industri, di mana daya komputasi berpindah dari menambang kripto ke pasar AI yang lebih menguntungkan.

marsbit6j yang lalu

IREN Gila: Jual Miner, Beli GPU, Saham Naik 16%