Ribuan Juta Kesalahan per Jam, Investigasi Mengungkap 'Halusinasi Akurasi' Pencarian AI Google

marsbitDipublikasikan tanggal 2026-04-10Terakhir diperbarui pada 2026-04-10

Abstrak

Sebuah investigasi oleh The New York Times dan perusahaan AI Oumi mengungkap bahwa fitur AI Overviews (Ringkasan AI) Google memiliki tingkat akurasi sekitar 91%. Namun, dengan volume pencarian tahunan Google yang mencapai 5 triliun, angka ini berarti kesalahan terjadi hampir 57 juta kali per jam. Lebih buruk lagi, bahkan ketika jawabannya benar, 56% tautan rujukan yang disertakan tidak mendukung kesimpulan yang diberikan. Masalahnya diperparah dengan seringnya AI mengutip sumber berkualitas rendah seperti Facebook dan Reddit. Selain itu, sistem ini sangat rentan dimanipulasi. Seorang jurnalis BBC berhasil "meracuni" hasil AI dalam waktu 24 jam dengan artikel palsu. Google membantah temuan ini, menyebut metodologi penelitian Oumi memiliki "kelemahan serius" karena menggunakan model AI mereka sendiri (HallOumi) untuk mengevaluasi dan menguji kueri yang tidak realistis. Namun, argumen ini justru memunculkan pertanyaan lebih besar tentang keandalan sistem AI pencarian mereka.

Penulis: Claude, Deep Tide TechFlow

Panduan Deep Tide: Tes terbaru dari The New York Times bersama perusahaan rintisan AI Oumi menunjukkan bahwa fitur Ringkasan AI (AI Overviews) pada Pencarian Google memiliki akurasi sekitar 91%. Namun, dengan skala Google yang memproses sekitar 5 triliun kueri pencarian per tahun, ini berarti setiap jamnya menghasilkan lebih dari 57 juta jawaban yang salah. Yang lebih rumit, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak dapat mendukung kesimpulannya.

Google sedang mengirimkan informasi yang salah kepada pengguna dalam skala yang belum pernah terjadi sebelumnya, dan kebanyakan orang tidak menyadarinya.

Menurut laporan The New York Times, perusahaan rintisan AI Oumi yang ditugaskan oleh mereka, menggunakan tes standar industri SimpleQA yang dikembangkan oleh OpenAI untuk menilai keakuratan fitur AI Overviews milik Google. Tes ini mencakup 4326 kueri pencarian, dilakukan dalam dua putaran: pada Oktober tahun lalu (didukung Gemini 2) dan Februari tahun ini (setelah ditingkatkan ke Gemini 3). Hasilnya menunjukkan akurasi Gemini 2 sekitar 85%, dan meningkat menjadi 91% dengan Gemini 3.

Angka 91% terdengar baik, tetapi dalam skala Google, ceritanya menjadi berbeda. Google memproses sekitar 5 triliun kueri pencarian per tahun. Dengan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban yang tidak akurat per jam, atau mendekati 1 juta per menit.

Jawaban Benar, Sumbernya Salah

Yang lebih mengkhawatirkan daripada akurasi adalah masalah 'lepasnya jangkar' pada sumber rujukan.

Data Oumi menunjukkan, pada era Gemini 2, 37% dari jawaban yang benar memiliki masalah 'rujukan tanpa dasar', yaitu tautan yang disertakan dalam ringkasan AI tidak mendukung informasi yang diberikan. Setelah peningkatan ke Gemini 3, persentase ini justru meningkat, melonjak menjadi 56%. Dengan kata lain, model ini semakin tidak bisa 'mengerjakan PR'-nya ketika memberikan jawaban yang benar.

Pertanyaan CEO Oumi Manos Koukoumidis tepat sasaran: "Bahkan jika jawabannya benar, bagaimana Anda tahu itu benar? Bagaimana Anda memverifikasinya?"

Banyaknya rujukan AI Overviews ke sumber berkualitas rendah memperburuk masalah ini. Oumi menemukan bahwa Facebook dan Reddit masing-masing adalah sumber rujukan kedua dan keempat terbanyak untuk AI Overviews. Dalam jawaban yang tidak akurat, Facebook dirujukan dengan frekuensi 7%, lebih tinggi daripada dalam jawaban akurat yang hanya 5%.

Sebuah Artikel Palsu dari Wartawan BBC, 'Meracuni' Sukses dalam 24 Jam

Cacat serius lainnya dari AI Overviews adalah sangat mudah dimanipulasi.

Seorang wartawan BBC menguji dengan sebuah artikel yang sengaja dibuat palsu. Kurang dari 24 jam, ringkasan AI Google menyajikan informasi palsu di dalamnya sebagai fakta kepada pengguna.

Ini berarti siapa pun yang memahami mekanisme kerja sistem dapat 'meracuni' hasil pencarian AI dengan menerbitkan konten palsu dan meningkatkan trafiknya. Tanggapan juru bicara Google Ned Adriance terhadap hal ini adalah bahwa fungsi AI pencarian dibangun di atas mekanisme peringkat dan keamanan yang sama yang digunakan untuk memblokir spam, dan menyebut bahwa "sebagian besar contoh dalam tes adalah kueri yang tidak realistis yang tidak akan dicari oleh orang secara nyata".

Bantahan Google: Tesnya Sendiri yang Bermasalah

Google mengajukan beberapa keberatan terhadap penelitian Oumi. Juru bicara Google menyatakan bahwa penelitian tersebut "memiliki kelemahan serius", dengan alasan termasuk: tolok ukur SimpleQA sendiri mengandung informasi yang tidak akurat; Oumi menggunakan model AI mereka sendiri, HallOumi, untuk menilai kinerja AI lain, yang mungkin memperkenalkan kesalahan tambahan; konten tes tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Pengujian internal Google juga menunjukkan bahwa ketika Gemini 3 dijalankan secara independen di luar kerangka kerja Pencarian Google, proporsi keluaran yang salah (hallucination) mencapai 28%. Namun Google menekankan bahwa AI Overviews, dengan memanfaatkan sistem peringkat pencarian, berkinerja lebih baik dalam hal akurasi dibandingkan model itu sendiri.

Namun, seperti yang ditunjukkan oleh komentar PCMag mengenai paradoks logika ini: Jika alasan pembelaan Anda adalah "melaporkan bahwa AI kami tidak akurat juga menggunakan AI yang mungkin tidak akurat", ini恐怕 tidak mungkin meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda. (Terjemahan catatan: "恐怕" dari teks asli dipertahankan sebagai "mungkin" karena konteksnya, tetapi frasa selanjutnya disesuaikan agar lebih natural: "ini mungkin tidak meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda").

Pertanyaan Terkait

QApa tingkat akurasi AI Overviews Google menurut penelitian New York Times dan Oumi?

AMenurut penelitian New York Times dan Oumi, tingkat akurasi AI Overviews Google adalah sekitar 91% dengan model Gemini 3, meningkat dari 85% pada model Gemini 2.

QBerapa banyak jawaban tidak akurat yang dihasilkan AI Overviews per jam berdasarkan volume pencarian Google?

ADengan volume 5 triliun pencarian per tahun dan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban tidak akurat per jam, atau hampir 1 juta per menit.

QApa masalah utama dengan tautan referensi yang disediakan AI Overviews meskipun jawabannya benar?

AMasalahnya adalah 'kutipan tanpa dasar', di mana tautan yang disertakan tidak mendukung informasi yang diberikan. Proporsi masalah ini meningkat dari 37% (Gemini 2) menjadi 56% (Gemini 3).

QSitus apa yang sering dikutip sebagai sumber rendah kualitas oleh AI Overviews?

AFacebook dan Reddit adalah sumber kutipan terbesar kedua dan keempat. Facebook bahkan lebih sering dikutip dalam jawaban tidak akurat (7%) dibandingkan jawaban akurat (5%).

QBagaimana Google membantah temuan penelitian Oumi?

AGoogle menyatakan penelitian tersebut 'memiliki kelemahan serius', dengan alasan: benchmark SimpleQA mengandung ketidakakuratan, penggunaan model AI Oumi sendiri (HallOumi) menambah error, dan kueri uji tidak mencerminkan perilaku pencarian pengguna nyata.

Bacaan Terkait

Unicoin Foundation Diluncurkan, Menyelaraskan Dampak Sosial dengan Masa Depan Crypto yang Bertanggung Jawab

**Yayasan Unicoin Diluncurkan, Selaraskan Dampak Sosial dengan Masa Depan Crypto yang Bertanggung Jawab** Unicoin Inc. meluncurkan Yayasan Unicoin, sebuah organisasi berorientasi misi yang didedikasikan untuk memanfaatkan teknologi blockchain guna menciptakan dampak sosial yang berarti dan memperluas akses ke ekonomi digital. Berdasarkan inisiatif andalannya "Crypto for Good," Yayasan ini bertujuan mendemonstrasikan bagaimana cryptocurrency dapat berkontribusi pada inisiatif sosial dan ekonomi yang lebih luas. Melalui program pendidikan dan pengembangan ekosistem, Yayasan menyediakan titik masuk yang dapat diskalakan ke ekonomi digital bagi komunitas yang kurang terwakili. Pendekatan berbasis pendidikan ini berfokus pada literasi keuangan dan penciptaan kekayaan jangka panjang, serta mempercepat kewirausahaan melalui pelatihan praktis dan dukungan startup. Pembentukan Yayasan ini mencerminkan keselarasan dengan prinsip transparansi dan tata kelola yang bertanggung jawab. Yayasan akan diketuai oleh Robert Newman dan diatur oleh dewan direksi yang terdiri dari 27 investor Unicoin, memastikan keselarasan dengan komunitas. Restrukturisasi ini didukung oleh hampir 99% dari lebih dari 4.000 pemegang saham yang memberikan suara. Yayasan Unicoin diharapkan dapat memperkuat reputasi global Unicoin, memperluas komunitas, dan mendorong adopsi, sekaligus memberdayakan individu dan mendukung proyek-proyek berdampak untuk ekonomi global yang lebih inklusif dan berkelanjutan.

TheNewsCrypto27m yang lalu

Unicoin Foundation Diluncurkan, Menyelaraskan Dampak Sosial dengan Masa Depan Crypto yang Bertanggung Jawab

TheNewsCrypto27m yang lalu

Harga Bitcoin Mungkin Alami Keruntuhan Lain, Tapi Bagaimana Prognosis Jangka Panjangnya?

Harga Bitcoin baru saja mencapai rekor tertinggi baru di atas $78.000, memicu sentimen bullish di pasar crypto. Namun, analis Behdark memperingatkan bahwa kenaikan ini bisa jadi jebakan sebelum harga mengalami koreksi tajam. Pola teknis yang terbentuk menunjukkan kemungkinan penurunan menuju level support kunci. Titik resistensi utama berada di $77.000 dan $80.552, di mana penolakan bisa memicu penurunan. Jika koreksi terjadi, target pertama adalah $72.800, kemudian $67.885. Break di bawah level ini berpotensi memicu crash 10% menuju $67.677, meski masih di atas support siklus $60.000. Analis menyarankan investor untuk waspada terhadap potensi penurunan jangka pendek ini, sekaligus melihatnya sebagai peluang akumulasi sebelum kenaikan jangka panjang.

bitcoinist1j yang lalu

Harga Bitcoin Mungkin Alami Keruntuhan Lain, Tapi Bagaimana Prognosis Jangka Panjangnya?

bitcoinist1j yang lalu

Pasar Prediksi di Bawah Bias

Pasar prediksi sering disalahartikan sebagai perjudian, namun esensinya adalah alat keuangan yang memungkinkan transfer risiko dan penghargaan bagi mereka yang memiliki keunggulan informasi. Berbeda dengan perjudian murni yang bergantung pada keberuntungan, pasar prediksi—seperti poker—dapat menghasilkan keuntungan positif melalui strategi dan analisis yang tepat. Pasar ini menawarkan presisi dalam memprediksi hasil peristiwa dunia nyata, sehingga menghindari gangguan faktor makro yang sering memengaruhi pasar tradisional. Kritik terhadap pasar prediksi sering kali mengabaikan perannya dalam lindung nilai risiko dan efisiensi kapital. Dalam industri seperti olahraga (dengan nilai ekonomi triliunan dolar), pasar prediksi memungkinkan perusahaan mengelola eksposur risiko. Likuiditas pasar secara alami mengatur peristiwa yang relevan, mengurangi potensi insider trading pada peristiwa tidak likuid. Media arus utama sering menentang pasar prediksi karena mengancam monopoli informasi mereka. Namun, pasar ini justru mendemokratisasi akses informasi, memberikan insentif bagi pengungkapan kebenaran, dan melawan narasi yang dikendalikan institusi. Dalam regulasi yang tepat, pasar prediksi dapat menjadi kekuatan positif untuk transparansi dan keadilan informasi.

marsbit2j yang lalu

marsbit2j yang lalu

Mengapa Anda Selalu Rugi di Polymarket? Karena Anda Bertaruh pada Berita, Sementara 'Tukang Perahu' Membaca Aturan

Di Polymarket, banyak trader kalah karena hanya fokus pada berita, sementara trader profesional ("车头") mempelajari aturan pasar dengan cermat seperti pengacara. Artikel ini menjelaskan mekanisme penyelesaian sengketa di Polymarket, yang melibatkan proses proposal, tantangan, diskusi di Discord, dan voting oleh pemegang token UMA. Meski mirip pengadilan tradisional, sistem Polymarket memiliki kelemahan krusial: tidak ada pemisahan antara pihak yang memutuskan dan yang memiliki kepentingan finansial, sehingga hasil voting bisa bias. Diskusi sering tidak efektif karena pengaruh kelompok dan perubahan posisi, serta hasil akhir tidak transparan tanpa penjelasan rinci. Kunci sukses di Polymarket adalah memahami aturan secara mendalam, bukan hanya memprediksi peristiwa.

marsbit2j yang lalu

Mengapa Anda Selalu Rugi di Polymarket? Karena Anda Bertaruh pada Berita, Sementara 'Tukang Perahu' Membaca Aturan

marsbit2j yang lalu

Warsh, Kambing Hitam Berikutnya Trump di Fed?

Kevin Warsh menghadapi audiensi konfirmasi sebagai calon Ketua Fed di tengah tekanan politik dari Donald Trump yang menuntut pemotongan suku bunga signifikan. Warsh, yang pernah kalah dari Powell delapan tahun lalu, mengusulkan reformasi radikal termasuk mengurangi frekuensi komunikasi Fed dan mengecilkan neraca senilai $6,7 triliun. Namun, ia terjebak dalam dilema: menuruti Trump berisiko memicu inflasi seperti era 1970-an, sedangkan menolak bisa membuatnya menjadi sasaran kemarahan politik. Proses konfirmasi Senatif juga terhambat oleh ancaman pemblokiran dari senator Republik Thom Tillis terkait investigasi kriminal terhadap Powell. Analis memperingatkan masa jabatan Warsh mungkin singkat, dengan pasar mempertanyakan kemampuannya menyeimbangkan tekanan politik dengan kredibilitas institusi.

marsbit3j yang lalu

Warsh, Kambing Hitam Berikutnya Trump di Fed?

marsbit3j yang lalu

Trading

Spot

Futures

Ribuan Juta Kesalahan per Jam, Investigasi Mengungkap 'Halusinasi Akurasi' Pencarian AI Google

Abstrak

Jawaban Benar, Sumbernya Salah

Sebuah Artikel Palsu dari Wartawan BBC, 'Meracuni' Sukses dalam 24 Jam

Bantahan Google: Tesnya Sendiri yang Bermasalah

Pertanyaan Terkait

Bacaan Terkait

Unicoin Foundation Diluncurkan, Menyelaraskan Dampak Sosial dengan Masa Depan Crypto yang Bertanggung Jawab

Harga Bitcoin Mungkin Alami Keruntuhan Lain, Tapi Bagaimana Prognosis Jangka Panjangnya?

Pasar Prediksi di Bawah Bias

Mengapa Anda Selalu Rugi di Polymarket? Karena Anda Bertaruh pada Berita, Sementara 'Tukang Perahu' Membaca Aturan

Warsh, Kambing Hitam Berikutnya Trump di Fed?

Trading

Kategori Populer

Tag Populer