Ribuan Juta Kesalahan per Jam, Investigasi Mengungkap 'Halusinasi Akurasi' Pencarian AI Google

marsbitDipublikasikan tanggal 2026-04-10Terakhir diperbarui pada 2026-04-10

Abstrak

Sebuah investigasi oleh The New York Times dan perusahaan AI Oumi mengungkap bahwa fitur AI Overviews (Ringkasan AI) Google memiliki tingkat akurasi sekitar 91%. Namun, dengan volume pencarian tahunan Google yang mencapai 5 triliun, angka ini berarti kesalahan terjadi hampir 57 juta kali per jam. Lebih buruk lagi, bahkan ketika jawabannya benar, 56% tautan rujukan yang disertakan tidak mendukung kesimpulan yang diberikan. Masalahnya diperparah dengan seringnya AI mengutip sumber berkualitas rendah seperti Facebook dan Reddit. Selain itu, sistem ini sangat rentan dimanipulasi. Seorang jurnalis BBC berhasil "meracuni" hasil AI dalam waktu 24 jam dengan artikel palsu. Google membantah temuan ini, menyebut metodologi penelitian Oumi memiliki "kelemahan serius" karena menggunakan model AI mereka sendiri (HallOumi) untuk mengevaluasi dan menguji kueri yang tidak realistis. Namun, argumen ini justru memunculkan pertanyaan lebih besar tentang keandalan sistem AI pencarian mereka.

Penulis: Claude, Deep Tide TechFlow

Panduan Deep Tide: Tes terbaru dari The New York Times bersama perusahaan rintisan AI Oumi menunjukkan bahwa fitur Ringkasan AI (AI Overviews) pada Pencarian Google memiliki akurasi sekitar 91%. Namun, dengan skala Google yang memproses sekitar 5 triliun kueri pencarian per tahun, ini berarti setiap jamnya menghasilkan lebih dari 57 juta jawaban yang salah. Yang lebih rumit, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak dapat mendukung kesimpulannya.

Google sedang mengirimkan informasi yang salah kepada pengguna dalam skala yang belum pernah terjadi sebelumnya, dan kebanyakan orang tidak menyadarinya.

Menurut laporan The New York Times, perusahaan rintisan AI Oumi yang ditugaskan oleh mereka, menggunakan tes standar industri SimpleQA yang dikembangkan oleh OpenAI untuk menilai keakuratan fitur AI Overviews milik Google. Tes ini mencakup 4326 kueri pencarian, dilakukan dalam dua putaran: pada Oktober tahun lalu (didukung Gemini 2) dan Februari tahun ini (setelah ditingkatkan ke Gemini 3). Hasilnya menunjukkan akurasi Gemini 2 sekitar 85%, dan meningkat menjadi 91% dengan Gemini 3.

Angka 91% terdengar baik, tetapi dalam skala Google, ceritanya menjadi berbeda. Google memproses sekitar 5 triliun kueri pencarian per tahun. Dengan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban yang tidak akurat per jam, atau mendekati 1 juta per menit.

Jawaban Benar, Sumbernya Salah

Yang lebih mengkhawatirkan daripada akurasi adalah masalah 'lepasnya jangkar' pada sumber rujukan.

Data Oumi menunjukkan, pada era Gemini 2, 37% dari jawaban yang benar memiliki masalah 'rujukan tanpa dasar', yaitu tautan yang disertakan dalam ringkasan AI tidak mendukung informasi yang diberikan. Setelah peningkatan ke Gemini 3, persentase ini justru meningkat, melonjak menjadi 56%. Dengan kata lain, model ini semakin tidak bisa 'mengerjakan PR'-nya ketika memberikan jawaban yang benar.

Pertanyaan CEO Oumi Manos Koukoumidis tepat sasaran: "Bahkan jika jawabannya benar, bagaimana Anda tahu itu benar? Bagaimana Anda memverifikasinya?"

Banyaknya rujukan AI Overviews ke sumber berkualitas rendah memperburuk masalah ini. Oumi menemukan bahwa Facebook dan Reddit masing-masing adalah sumber rujukan kedua dan keempat terbanyak untuk AI Overviews. Dalam jawaban yang tidak akurat, Facebook dirujukan dengan frekuensi 7%, lebih tinggi daripada dalam jawaban akurat yang hanya 5%.

Sebuah Artikel Palsu dari Wartawan BBC, 'Meracuni' Sukses dalam 24 Jam

Cacat serius lainnya dari AI Overviews adalah sangat mudah dimanipulasi.

Seorang wartawan BBC menguji dengan sebuah artikel yang sengaja dibuat palsu. Kurang dari 24 jam, ringkasan AI Google menyajikan informasi palsu di dalamnya sebagai fakta kepada pengguna.

Ini berarti siapa pun yang memahami mekanisme kerja sistem dapat 'meracuni' hasil pencarian AI dengan menerbitkan konten palsu dan meningkatkan trafiknya. Tanggapan juru bicara Google Ned Adriance terhadap hal ini adalah bahwa fungsi AI pencarian dibangun di atas mekanisme peringkat dan keamanan yang sama yang digunakan untuk memblokir spam, dan menyebut bahwa "sebagian besar contoh dalam tes adalah kueri yang tidak realistis yang tidak akan dicari oleh orang secara nyata".

Bantahan Google: Tesnya Sendiri yang Bermasalah

Google mengajukan beberapa keberatan terhadap penelitian Oumi. Juru bicara Google menyatakan bahwa penelitian tersebut "memiliki kelemahan serius", dengan alasan termasuk: tolok ukur SimpleQA sendiri mengandung informasi yang tidak akurat; Oumi menggunakan model AI mereka sendiri, HallOumi, untuk menilai kinerja AI lain, yang mungkin memperkenalkan kesalahan tambahan; konten tes tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Pengujian internal Google juga menunjukkan bahwa ketika Gemini 3 dijalankan secara independen di luar kerangka kerja Pencarian Google, proporsi keluaran yang salah (hallucination) mencapai 28%. Namun Google menekankan bahwa AI Overviews, dengan memanfaatkan sistem peringkat pencarian, berkinerja lebih baik dalam hal akurasi dibandingkan model itu sendiri.

Namun, seperti yang ditunjukkan oleh komentar PCMag mengenai paradoks logika ini: Jika alasan pembelaan Anda adalah "melaporkan bahwa AI kami tidak akurat juga menggunakan AI yang mungkin tidak akurat", ini恐怕 tidak mungkin meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda. (Terjemahan catatan: "恐怕" dari teks asli dipertahankan sebagai "mungkin" karena konteksnya, tetapi frasa selanjutnya disesuaikan agar lebih natural: "ini mungkin tidak meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda").

Pertanyaan Terkait

QApa tingkat akurasi AI Overviews Google menurut penelitian New York Times dan Oumi?

AMenurut penelitian New York Times dan Oumi, tingkat akurasi AI Overviews Google adalah sekitar 91% dengan model Gemini 3, meningkat dari 85% pada model Gemini 2.

QBerapa banyak jawaban tidak akurat yang dihasilkan AI Overviews per jam berdasarkan volume pencarian Google?

ADengan volume 5 triliun pencarian per tahun dan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban tidak akurat per jam, atau hampir 1 juta per menit.

QApa masalah utama dengan tautan referensi yang disediakan AI Overviews meskipun jawabannya benar?

AMasalahnya adalah 'kutipan tanpa dasar', di mana tautan yang disertakan tidak mendukung informasi yang diberikan. Proporsi masalah ini meningkat dari 37% (Gemini 2) menjadi 56% (Gemini 3).

QSitus apa yang sering dikutip sebagai sumber rendah kualitas oleh AI Overviews?

AFacebook dan Reddit adalah sumber kutipan terbesar kedua dan keempat. Facebook bahkan lebih sering dikutip dalam jawaban tidak akurat (7%) dibandingkan jawaban akurat (5%).

QBagaimana Google membantah temuan penelitian Oumi?

AGoogle menyatakan penelitian tersebut 'memiliki kelemahan serius', dengan alasan: benchmark SimpleQA mengandung ketidakakuratan, penggunaan model AI Oumi sendiri (HallOumi) menambah error, dan kueri uji tidak mencerminkan perilaku pencarian pengguna nyata.

Bacaan Terkait

Pertarungan "Perang" Bursa Korea dengan Badan Pengawas, Menantang Batasan Penegakan dan Legislasi

Industri kripto Korea Selatan sedang mengalami konflik terbuka dengan regulator. Otoritas Intelijen Keuangan (FIU) telah memberlakukan hukuman berat, seperti penangguhan operasi parsial dan denda besar, kepada bursa besar seperti Upbit (Dunamu) dan Bithumb karena dugaan pelanggaran anti-pencucian uang (AML), termasuk transaksi dengan VASP luar negeri yang tidak terdaftar. Namun, bursa-bursa kini melawan melalui jalur hukum. Pengadilan telah memenangkan Dunamu dalam beberapa tuntutan dan menangguhkan eksekusi hukuman terhadap Bithumb, dengan alasan FIU tidak cukup jelas dalam menjelaskan standar pelanggaran dan dasar hukum hukuman beratnya. Di front lain, asosiasi industri DAXA menentang rencana amandemen undang-undang yang akan mewajibkan pelaporan transaksi mencurigakan (STR) untuk semua transfer aset kripto di atas 10 juta won (sekitar Rp 120 juta). DAXA berargumen aturan "satu ukuran untuk semua" ini akan membanjiri sistem dengan laporan yang tidak relevan, justru melemahkan efektivitas pengawasan AML, dan melampaui kewenangan hukum yang ada. Konflik ini menyoroti ketegangan dalam regulasi kripto Korea: kerangka hukum menyeluruh belum matang, sementara penegakan aturan AML yang ada semakin ketat. Perlawanan dari bursa menandai pergeseran, di mana tindakan regulator kini lebih sering ditantang di pengadilan dan dalam proses legislatif. Hasil jangka panjang dari konflik ini dapat membentuk kerangka regulasi yang lebih matang dan berkelanjutan.

marsbit18m yang lalu

Pertarungan "Perang" Bursa Korea dengan Badan Pengawas, Menantang Batasan Penegakan dan Legislasi

marsbit18m yang lalu

Setelah Penyimpanan 50 Kali Lipat, Justin Sun Selalu Memandang ke Sepuluh Tahun Berikutnya

Kebanyakan orang Tiongkok mengenal Justin Sun dari kisah-kisah kontroversialnya, seperti membatalkan makan malam dengan Warren Buffett, memakan pisang senilai $6,2 juta, atau terbang melewati Garis Karman pada usia 35 tahun. Namun, di balik sensasi itu, Sun telah menunjukkan ketajaman investasinya selama satu dekade terakhir. Pada 2016, ia menyarankan generasi muda untuk berinvestasi di Bitcoin, NVIDIA, Tesla, dan Tencent alih-alih membeli properti. Saran itu terbukti brilian: hingga Mei 2026, NVIDIA menghasilkan return hampir 24.000% dan Tesla sekitar 2.683%. Ia juga secara akurat memperkirakan lonjakan saham penyimpanan (storage). Pada November 2025, ia menyebut Western Digital/Sandisk sebagai "peluang investasi terbaik tahun depan," dan saham Sandisk kemudian melonjak hampir 50 kali dalam setahun. Kini, Sun memfokuskan pandangannya pada empat bidang masa depan: AI berwujud (embodied AI), drone, komputasi spasial, dan eksplorasi luar angkasa. Ia melihat robot humanoid, drone otonom (seperti yang digunakan dalam perang dan logistik), serta teknologi pemahaman ruang fisik (seperti Apple Vision Pro) sebagai langkah berikutnya dalam revolusi AI. Pada Agustus 2025, ia sendiri terbang ke luar angkasa dengan Blue Origin, dan berambisi menjadikan blockchain sebagai infrastruktur untuk ekonomi luar angkasa. Logika investasinya adalah bertaruh pada tren yang pasti dengan mendiversifikasi di seluruh ekosistem. Misalnya, di robotika, ia melihat Tesla untuk "tubuh" (Optimus) dan NVIDIA untuk "otak" (platform GR00T). Di drone militer, ia merujuk pada AeroVironment dan Kratos. Untuk luar angkasa, IPO SpaceX yang akan datang dianggap akan mengubah seluruh lanskap industri. Bagi Sun, dua dekade terakhir mengubah aliran informasi, tetapi dua dekade mendatang akan mengubah cara dunia fisik beroperasi—dari pabrik otomatis hingga medan perang yang didominasi drone. Pesannya sederhana: masa depan ada pada AI fisik, dan kita harus melihat melampaui horizon yang dekat.

marsbit1j yang lalu

Setelah Penyimpanan 50 Kali Lipat, Justin Sun Selalu Memandang ke Sepuluh Tahun Berikutnya

marsbit1j yang lalu

IPO Terbesar dalam Sejarah Mendekat, Melampaui SpaceX, 28 Tahun AI Berkembang Mandiri, Hitung Mundur Ledakan Kecerdasan

**Judul: IPO Terbesar Sepanjang Masa Mendekat, Lampaui SpaceX, AI Mulai Perbaiki Diri Sendiri pada 2028, Hitung Mundur Ledakan Kecerdasan Dimulai** Anthropic, perusahaan AI yang didirikan pada 2021, dilaporkan sedang mempertimbangkan penawaran umum perdana (IPO) dengan valuasi mendekati $1 triliun, yang dapat melampaui SpaceX sebagai salah satu IPO terbesar dalam sejarah. Lonjakan valuasi ini didorong oleh pertumbuhan pendapatan yang fenomenal. ARR (Annual Recurring Revenue) perusahaan ini melesat dari $10 miliar pada Januari 2025 menjadi $45 miliar pada Mei 2026, meningkat 500% hanya dalam lima bulan. Dua produk utama, Claude Code dan Cowork, menjadi pendorong pertumbuhan dengan memanfaatkan ledakan permintaan AI untuk pengkodean dan kolaborasi kantor. Namun, narasi yang lebih besar berasal dari peringatan salah satu pendiri, Jack Clark. Dalam sebuah wawancara, Clark memprediksi bahwa ada kemungkinan lebih dari 50% sistem AI akan mampu memperbaiki dan membuat versi dirinya yang lebih baik secara mandiri pada akhir 2028—sebuah fenomena yang disebut "ledakan kecerdasan" (intelligence explosion). Investor melihat potensi transformatif ini. Anthropic juga telah membentuk perusahaan patungan senilai $1.5 miliar dengan Goldman Sachs dan Blackstone, bertujuan untuk menggantikan layanan konsultan tradisional seperti McKinsey dengan AI, menguji kemampuan AI dalam menggantikan tenaga kerja kognitif tingkat tinggi. Valuasi triliunan dolar Anthropic bukan hanya tentang alat AI saat ini, tetapi lebih merupakan taruhan pasar pada masa di mana AI dapat berevolusi secara mandiri, membawa serta peluang dan risiko yang belum pernah terjadi sebelumnya bagi ekonomi dan masyarakat. Hitung mundur menuju 2028 telah dimulai.

marsbit1j yang lalu

IPO Terbesar dalam Sejarah Mendekat, Melampaui SpaceX, 28 Tahun AI Berkembang Mandiri, Hitung Mundur Ledakan Kecerdasan

marsbit1j yang lalu

Trading

Spot
Futures
活动图片