Ribuan Juta Kesalahan per Jam, Investigasi Mengungkap 'Halusinasi Akurasi' Pencarian AI Google

marsbitDipublikasikan tanggal 2026-04-10Terakhir diperbarui pada 2026-04-10

Abstrak

Sebuah investigasi oleh The New York Times dan perusahaan AI Oumi mengungkap bahwa fitur AI Overviews (Ringkasan AI) Google memiliki tingkat akurasi sekitar 91%. Namun, dengan volume pencarian tahunan Google yang mencapai 5 triliun, angka ini berarti kesalahan terjadi hampir 57 juta kali per jam. Lebih buruk lagi, bahkan ketika jawabannya benar, 56% tautan rujukan yang disertakan tidak mendukung kesimpulan yang diberikan. Masalahnya diperparah dengan seringnya AI mengutip sumber berkualitas rendah seperti Facebook dan Reddit. Selain itu, sistem ini sangat rentan dimanipulasi. Seorang jurnalis BBC berhasil "meracuni" hasil AI dalam waktu 24 jam dengan artikel palsu. Google membantah temuan ini, menyebut metodologi penelitian Oumi memiliki "kelemahan serius" karena menggunakan model AI mereka sendiri (HallOumi) untuk mengevaluasi dan menguji kueri yang tidak realistis. Namun, argumen ini justru memunculkan pertanyaan lebih besar tentang keandalan sistem AI pencarian mereka.

Penulis: Claude, Deep Tide TechFlow

Panduan Deep Tide: Tes terbaru dari The New York Times bersama perusahaan rintisan AI Oumi menunjukkan bahwa fitur Ringkasan AI (AI Overviews) pada Pencarian Google memiliki akurasi sekitar 91%. Namun, dengan skala Google yang memproses sekitar 5 triliun kueri pencarian per tahun, ini berarti setiap jamnya menghasilkan lebih dari 57 juta jawaban yang salah. Yang lebih rumit, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak dapat mendukung kesimpulannya.

Google sedang mengirimkan informasi yang salah kepada pengguna dalam skala yang belum pernah terjadi sebelumnya, dan kebanyakan orang tidak menyadarinya.

Menurut laporan The New York Times, perusahaan rintisan AI Oumi yang ditugaskan oleh mereka, menggunakan tes standar industri SimpleQA yang dikembangkan oleh OpenAI untuk menilai keakuratan fitur AI Overviews milik Google. Tes ini mencakup 4326 kueri pencarian, dilakukan dalam dua putaran: pada Oktober tahun lalu (didukung Gemini 2) dan Februari tahun ini (setelah ditingkatkan ke Gemini 3). Hasilnya menunjukkan akurasi Gemini 2 sekitar 85%, dan meningkat menjadi 91% dengan Gemini 3.

Angka 91% terdengar baik, tetapi dalam skala Google, ceritanya menjadi berbeda. Google memproses sekitar 5 triliun kueri pencarian per tahun. Dengan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban yang tidak akurat per jam, atau mendekati 1 juta per menit.

Jawaban Benar, Sumbernya Salah

Yang lebih mengkhawatirkan daripada akurasi adalah masalah 'lepasnya jangkar' pada sumber rujukan.

Data Oumi menunjukkan, pada era Gemini 2, 37% dari jawaban yang benar memiliki masalah 'rujukan tanpa dasar', yaitu tautan yang disertakan dalam ringkasan AI tidak mendukung informasi yang diberikan. Setelah peningkatan ke Gemini 3, persentase ini justru meningkat, melonjak menjadi 56%. Dengan kata lain, model ini semakin tidak bisa 'mengerjakan PR'-nya ketika memberikan jawaban yang benar.

Pertanyaan CEO Oumi Manos Koukoumidis tepat sasaran: "Bahkan jika jawabannya benar, bagaimana Anda tahu itu benar? Bagaimana Anda memverifikasinya?"

Banyaknya rujukan AI Overviews ke sumber berkualitas rendah memperburuk masalah ini. Oumi menemukan bahwa Facebook dan Reddit masing-masing adalah sumber rujukan kedua dan keempat terbanyak untuk AI Overviews. Dalam jawaban yang tidak akurat, Facebook dirujukan dengan frekuensi 7%, lebih tinggi daripada dalam jawaban akurat yang hanya 5%.

Sebuah Artikel Palsu dari Wartawan BBC, 'Meracuni' Sukses dalam 24 Jam

Cacat serius lainnya dari AI Overviews adalah sangat mudah dimanipulasi.

Seorang wartawan BBC menguji dengan sebuah artikel yang sengaja dibuat palsu. Kurang dari 24 jam, ringkasan AI Google menyajikan informasi palsu di dalamnya sebagai fakta kepada pengguna.

Ini berarti siapa pun yang memahami mekanisme kerja sistem dapat 'meracuni' hasil pencarian AI dengan menerbitkan konten palsu dan meningkatkan trafiknya. Tanggapan juru bicara Google Ned Adriance terhadap hal ini adalah bahwa fungsi AI pencarian dibangun di atas mekanisme peringkat dan keamanan yang sama yang digunakan untuk memblokir spam, dan menyebut bahwa "sebagian besar contoh dalam tes adalah kueri yang tidak realistis yang tidak akan dicari oleh orang secara nyata".

Bantahan Google: Tesnya Sendiri yang Bermasalah

Google mengajukan beberapa keberatan terhadap penelitian Oumi. Juru bicara Google menyatakan bahwa penelitian tersebut "memiliki kelemahan serius", dengan alasan termasuk: tolok ukur SimpleQA sendiri mengandung informasi yang tidak akurat; Oumi menggunakan model AI mereka sendiri, HallOumi, untuk menilai kinerja AI lain, yang mungkin memperkenalkan kesalahan tambahan; konten tes tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Pengujian internal Google juga menunjukkan bahwa ketika Gemini 3 dijalankan secara independen di luar kerangka kerja Pencarian Google, proporsi keluaran yang salah (hallucination) mencapai 28%. Namun Google menekankan bahwa AI Overviews, dengan memanfaatkan sistem peringkat pencarian, berkinerja lebih baik dalam hal akurasi dibandingkan model itu sendiri.

Namun, seperti yang ditunjukkan oleh komentar PCMag mengenai paradoks logika ini: Jika alasan pembelaan Anda adalah "melaporkan bahwa AI kami tidak akurat juga menggunakan AI yang mungkin tidak akurat", ini恐怕 tidak mungkin meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda. (Terjemahan catatan: "恐怕" dari teks asli dipertahankan sebagai "mungkin" karena konteksnya, tetapi frasa selanjutnya disesuaikan agar lebih natural: "ini mungkin tidak meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda").

Pertanyaan Terkait

QApa tingkat akurasi AI Overviews Google menurut penelitian New York Times dan Oumi?

AMenurut penelitian New York Times dan Oumi, tingkat akurasi AI Overviews Google adalah sekitar 91% dengan model Gemini 3, meningkat dari 85% pada model Gemini 2.

QBerapa banyak jawaban tidak akurat yang dihasilkan AI Overviews per jam berdasarkan volume pencarian Google?

ADengan volume 5 triliun pencarian per tahun dan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban tidak akurat per jam, atau hampir 1 juta per menit.

QApa masalah utama dengan tautan referensi yang disediakan AI Overviews meskipun jawabannya benar?

AMasalahnya adalah 'kutipan tanpa dasar', di mana tautan yang disertakan tidak mendukung informasi yang diberikan. Proporsi masalah ini meningkat dari 37% (Gemini 2) menjadi 56% (Gemini 3).

QSitus apa yang sering dikutip sebagai sumber rendah kualitas oleh AI Overviews?

AFacebook dan Reddit adalah sumber kutipan terbesar kedua dan keempat. Facebook bahkan lebih sering dikutip dalam jawaban tidak akurat (7%) dibandingkan jawaban akurat (5%).

QBagaimana Google membantah temuan penelitian Oumi?

AGoogle menyatakan penelitian tersebut 'memiliki kelemahan serius', dengan alasan: benchmark SimpleQA mengandung ketidakakuratan, penggunaan model AI Oumi sendiri (HallOumi) menambah error, dan kueri uji tidak mencerminkan perilaku pencarian pengguna nyata.

Bacaan Terkait

Dialog dengan Ray Dalio: Saat Ini Berada dalam Gelembung AI, 1% Portofolio Investasi Adalah Bitcoin

Sumber: The Diary Of A CEO Ray Dalio, pendiri Bridgewater Associates yang meramalkan krisis keuangan 2008, memperingatkan bahwa ledakan AI saat ini menunjukkan tanda-tanda klasik gelembung ekonomi yang dapat pecah dan memicu resesi. Dalam wawancara podcast, dia menjelaskan dinamika "siklus besar" yang didorong oleh ketimpangan kekayaan, defisit pemerintah, dan perubahan geopolitik. Dalio mengidentifikasi pola di mana antusiasme berlebihan terhadap teknologi revolusioner baru, seperti AI, menyebabkan harga aset melambung dan pinjaman berlebihan. Ketika kondisi berubah (seperti kenaikan suku bunga atau kebutuhan tunai), gelembung ini dapat pecah, menyebabkan penurunan harga aset, kerugian luas, dan kontraksi ekonomi. Untuk melindungi kekayaan di masa ketidakpastian, Dalio sangat menekankan pentingnya **diversifikasi portofolio**—termasuk saham, obligasi, emas, dan real estat—daripada mengandalkan uang tunai saja. Dia mengungkapkan bahwa sekitar **1% portofolionya adalah Bitcoin**, yang diakuinya sebagai aset keras, tetapi dia lebih menyukai **emas fisik** karena sejarahnya sebagai penyimpan nilai dan aset bebas liabilitas. Mengenai dampak AI, Dalio percaya bahwa teknologi ini akan menggantikan tidak hanya tenaga fisik tetapi juga kemampuan kognitif manusia, berpotensi memperlebar kesenjangan antara pemilik modal dan pekerja. Masa depan akan menguntungkan mereka yang dapat memadukan kecerdasan manusia (seperti emosi dan intuisi) dengan kemitraan AI. Secara geopolitik, Dalio menggambarkan dunia yang memasuki fase "penurunan" dalam tatanan global, dengan Amerika Serikat menghadapi tantangan internal dan eksternal, termasuk konflik seperti di Iran yang mengungkap kelemahannya. Dia memprediksi dunia mungkin menjadi lebih terregionalisasi di masa depan. Secara keseluruhan, kunci untuk navigasi melalui periode kompleks ini adalah pemahaman akan pola sejarah, adaptasi, dan diversifikasi yang cermat.

marsbit21m yang lalu

Dialog dengan Ray Dalio: Saat Ini Berada dalam Gelembung AI, 1% Portofolio Investasi Adalah Bitcoin

marsbit21m yang lalu

Rekor! Beli Bersih Asing 7,2 Triliun Won dalam Sehari, Wall Street: Tekanan Likuiditas di Pasar Saham Korea Telah Mereda

**Ringkasan: Rekor Pembelian Asing dan Peningkatan Likuiditas di Pasar Saham Korea** Aliran modal asing menunjukkan perubahan signifikan di pasar saham Korea (KOSPI). Pada 31 Juli, investor asing melakukan pembelian bersih rekor sebesar 7,2 triliun Won Korea dalam sehari, menandai pembalikan dari tren penjualan bersih besar-besaran dalam beberapa bulan terakhir. Secara bulanan, penjualan bersih asing menyusut drastis menjadi 9,8 triliun Won di Juli, turun dari 48,4 triliun dan 44,5 triliun Won pada Juni dan Mei. Tekanan penjualan dari lembaga domestik juga mereda. Dana pensiun dan reksa dana domestik justru menjadi pembeli bersih 1,0 triliun Won di Juli, setelah dua bulan sebelumnya menjadi penjual bersih. Faktor pendukung lainnya adalah peraturan baru dari Komisi Jasa Keuangan (FSC) yang memberlakukan syarat lebih ketat bagi investor ritel untuk masuk ke ETF leverage saham tunggal, yang langsung mengurangi volume perdagangan instrumen tersebut hingga sekitar 50%. Kebijakan ini diperkirakan dapat menekan volatilitas pasar. Citigroup mempertahankan target indeks KOSPI di level 10.000 poin, menyoroti memudarnya angin penentu likuiditas. Analis mereka menilai faktor fundamental seperti industri chip memori yang solid, valuasi historis yang rendah, fundamental ekonomi Korea yang kuat, dan dukungan kebijakan berpotensi menjadi pendorong bagi pasar.

marsbit22m yang lalu

Rekor! Beli Bersih Asing 7,2 Triliun Won dalam Sehari, Wall Street: Tekanan Likuiditas di Pasar Saham Korea Telah Mereda

marsbit22m yang lalu

Pembaruan! AI Generasi Berikut OpenAI Pecahkan 10 Masalah Kelas Medali Fields

**OpenAI Model Astra Pecahkan 10 Masalah Matematika Kelas Fields Medal!** OpenAI mengumumkan terobosan besar dari model internal terbarunya, Astra. Model ini dilaporkan telah membuat kemajuan signifikan dalam **10 masalah matematika yang belum terpecahkan**, dengan biaya komputasi hanya sekitar **$2000**. Hasilnya dipublikasikan dalam makalah setebal 249 halaman. Beberapa pencapaian utama meliputi: 1. **Menyelesaikan masalah "non-sofic group"** yang diajukan Mikhail Gromov tahun 1999, dengan membangun contoh kelompok yang tak hingga dan finitely presented yang bukan sofic. Ini dianggap sebagai kemajuan bersejarah. 2. **Memecahkan batas lama dalam masalah pengepakan bola berdimensi tinggi** (sphere packing), meningkatkan batas yang telah bertahan sejak 1978 untuk dimensi tak hingga. 3. **Menyangkal dugaan "Connes Rigidity"** dengan membangun keluarga tak terhitung dari kelompok berbeda yang menghasilkan aljabar von Neumann yang sama persis. Semua bukti telah diverifikasi menggunakan asisten pembuktian formal Lean 4, memastikan ketepatannya. Para ahli matematika menyebut temuan ini sebagai **momen bersejarah**, setara dengan prestasi penghargaan Fields Medal, dan menandai kemampuan AI untuk melakukan penalaran matematika mendalam di berbagai bidang. OpenAI juga membagikan proses penalaran model, menunjukkan langkah maju yang besar menuju AGI (Artificial General Intelligence).

marsbit2j yang lalu

Pembaruan! AI Generasi Berikut OpenAI Pecahkan 10 Masalah Kelas Medali Fields

marsbit2j yang lalu

Bagaimana Membuat Diri Sendiri Tak Tergantikan oleh Kecerdasan Buatan

**Ringkasan: Bagaimana Membuat Diri Anda Tak Tergantikan oleh AI** Artikel ini membahas ancaman nyata dalam era AI: bukan kehilangan pekerjaan, tetapi "perbudakan gaji"—ketergantungan pada sistem dan orang lain untuk bertahan hidup. Solusinya adalah menjadi "individu super" yang "tak bisa dipekerjakan" dengan membangun bisnis atau karya sendiri. Kunci untuk bertahan dan berkembang di masa depan bukan sekadar keterampilan teknis, tetapi menguasai lima elemen yang sulit digantikan AI: 1. **Otonomi (Agency):** Kemampuan bertindak tanpa menunggu perintah. 2. **Rasa (Taste):** Pengalaman untuk mengetahui apa yang bernilai untuk ditawarkan. 3. **Kemampuan Persuasi (Persuasion):** Keterampilan menarik perhatian dan pengakuan. 4. **Ketekunan (Persistence):** Memahami bahwa kegagalan adalah bagian dari proses. 5. **Iterasi (Iteration):** Kemampuan memperbaiki kesalahan berdasarkan umpan balik. Lima elemen ini dapat dikembangkan dengan **membuat konten** (media). Dibandingkan pemrograman (code), konten lebih unggul karena nilainya subjektif, membutuhkan penilaian manusia, dan merupakan alat distribusi yang ampuh untuk membangun koneksi dan otoritas. Untuk memulai transformasi: 1. **Ubah lingkungan** Anda secara drastis untuk memicu perubahan identitas. 2. **Gali "bahan mentah"** Anda: Identifikasi pengetahuan mendalam, masalah yang pernah Anda selesaikan, dan minat unik masa kecil Anda. 3. **Temukan "poros pemikiran balik"**: Tentukan pendapat kontra-intuitif atau keyakinan Anda yang bertentangan dengan arus utama dalam bidang Anda. 4. **Luncurkan ide pertama** Anda besok. Gabungkan jawaban dari langkah 2 dan 3, lalu publikasikan. Umpan balik nyata dari dunia adalah guru terbaik. Intinya, bangunlah *karier seumur hidup* yang autentik berdasarkan pengalaman dan sudut pandang unik Anda. Dengan memanfaatkan AI sebagai alat dan fokus pada pengembangan diri yang tak tergantikan, Anda dapat mengambil kendali atas hidup dan masa depan Anda.

marsbit2j yang lalu

Bagaimana Membuat Diri Sendiri Tak Tergantikan oleh Kecerdasan Buatan

marsbit2j yang lalu

Kunci Bitcoin Disimpan Offline Berkat Lemparan Dadu, Tetapi Tidak Semua Orang Akan Melakukannya

Berdasarkan insiden kerentanan generator angka acak pada perangkat hardware wallet Coldcard, artikel ini membahas metode pembuatan kunci Bitcoin menggunakan dadu untuk menghasilkan entropi mandiri. Claude Shannon mengukur ketidakpastian dengan konsep entropi, di mana satu lemparan dadu enam sisi setara dengan sekitar 2,585 bit. Praktik melempar dadu 50 hingga 99 kali dapat menghasilkan frasa pemulihan 12 kata yang aman (128 bit entropi), melampaui ketergantungan pada generator perangkat. Namun, insiden Coldcard mengungkap bahwa meskipun seed utama dibuat dari dadu aman, fungsi lain seperti dompet kertas, kunci kloning, dan password masih berpotensi menggunakan generator cacat. Peneliti keamanan Kevin Loaec menekankan bahwa perlindungan hanya berlaku untuk seed utama, bukan keseluruhan sistem. Proses manual ini membutuhkan ketelitian tinggi, rentan kesalahan, dan tidak praktis bagi kebanyakan pengguna baru. Oleh karena itu, meski kuat secara matematis, metode ini lebih cocok untuk pengguna berpengalaman. Artikel menyarankan pemilik Coldcard untuk memperbarui firmware, memeriksa fungsi yang pernah digunakan, dan mempertimbangkan skema multisignature dengan perangkat dari produsen berbeda untuk mitigasi risiko. Tujuan jangka panjang adalah perangkat yang dapat menghasilkan keacakan kuat secara mandiri, tanpa memerlukan prosedur rumit dari pengguna.

cryptonews.ru5j yang lalu

Kunci Bitcoin Disimpan Offline Berkat Lemparan Dadu, Tetapi Tidak Semua Orang Akan Melakukannya

cryptonews.ru5j yang lalu

Trading

Spot

Ribuan Juta Kesalahan per Jam, Investigasi Mengungkap 'Halusinasi Akurasi' Pencarian AI Google

Abstrak

Jawaban Benar, Sumbernya Salah

Sebuah Artikel Palsu dari Wartawan BBC, 'Meracuni' Sukses dalam 24 Jam

Bantahan Google: Tesnya Sendiri yang Bermasalah

Pertanyaan Terkait

Bacaan Terkait

Dialog dengan Ray Dalio: Saat Ini Berada dalam Gelembung AI, 1% Portofolio Investasi Adalah Bitcoin

Rekor! Beli Bersih Asing 7,2 Triliun Won dalam Sehari, Wall Street: Tekanan Likuiditas di Pasar Saham Korea Telah Mereda

Pembaruan! AI Generasi Berikut OpenAI Pecahkan 10 Masalah Kelas Medali Fields

Bagaimana Membuat Diri Sendiri Tak Tergantikan oleh Kecerdasan Buatan

Kunci Bitcoin Disimpan Offline Berkat Lemparan Dadu, Tetapi Tidak Semua Orang Akan Melakukannya

Trading

Kategori Populer

Tag Populer