Ribuan Juta Kesalahan per Jam, Investigasi Mengungkap 'Halusinasi Akurasi' Pencarian AI Google

marsbitDipublikasikan tanggal 2026-04-10Terakhir diperbarui pada 2026-04-10

Abstrak

Sebuah investigasi oleh The New York Times dan perusahaan AI Oumi mengungkap bahwa fitur AI Overviews (Ringkasan AI) Google memiliki tingkat akurasi sekitar 91%. Namun, dengan volume pencarian tahunan Google yang mencapai 5 triliun, angka ini berarti kesalahan terjadi hampir 57 juta kali per jam. Lebih buruk lagi, bahkan ketika jawabannya benar, 56% tautan rujukan yang disertakan tidak mendukung kesimpulan yang diberikan. Masalahnya diperparah dengan seringnya AI mengutip sumber berkualitas rendah seperti Facebook dan Reddit. Selain itu, sistem ini sangat rentan dimanipulasi. Seorang jurnalis BBC berhasil "meracuni" hasil AI dalam waktu 24 jam dengan artikel palsu. Google membantah temuan ini, menyebut metodologi penelitian Oumi memiliki "kelemahan serius" karena menggunakan model AI mereka sendiri (HallOumi) untuk mengevaluasi dan menguji kueri yang tidak realistis. Namun, argumen ini justru memunculkan pertanyaan lebih besar tentang keandalan sistem AI pencarian mereka.

Penulis: Claude, Deep Tide TechFlow

Panduan Deep Tide: Tes terbaru dari The New York Times bersama perusahaan rintisan AI Oumi menunjukkan bahwa fitur Ringkasan AI (AI Overviews) pada Pencarian Google memiliki akurasi sekitar 91%. Namun, dengan skala Google yang memproses sekitar 5 triliun kueri pencarian per tahun, ini berarti setiap jamnya menghasilkan lebih dari 57 juta jawaban yang salah. Yang lebih rumit, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak dapat mendukung kesimpulannya.

Google sedang mengirimkan informasi yang salah kepada pengguna dalam skala yang belum pernah terjadi sebelumnya, dan kebanyakan orang tidak menyadarinya.

Menurut laporan The New York Times, perusahaan rintisan AI Oumi yang ditugaskan oleh mereka, menggunakan tes standar industri SimpleQA yang dikembangkan oleh OpenAI untuk menilai keakuratan fitur AI Overviews milik Google. Tes ini mencakup 4326 kueri pencarian, dilakukan dalam dua putaran: pada Oktober tahun lalu (didukung Gemini 2) dan Februari tahun ini (setelah ditingkatkan ke Gemini 3). Hasilnya menunjukkan akurasi Gemini 2 sekitar 85%, dan meningkat menjadi 91% dengan Gemini 3.

Angka 91% terdengar baik, tetapi dalam skala Google, ceritanya menjadi berbeda. Google memproses sekitar 5 triliun kueri pencarian per tahun. Dengan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban yang tidak akurat per jam, atau mendekati 1 juta per menit.

Jawaban Benar, Sumbernya Salah

Yang lebih mengkhawatirkan daripada akurasi adalah masalah 'lepasnya jangkar' pada sumber rujukan.

Data Oumi menunjukkan, pada era Gemini 2, 37% dari jawaban yang benar memiliki masalah 'rujukan tanpa dasar', yaitu tautan yang disertakan dalam ringkasan AI tidak mendukung informasi yang diberikan. Setelah peningkatan ke Gemini 3, persentase ini justru meningkat, melonjak menjadi 56%. Dengan kata lain, model ini semakin tidak bisa 'mengerjakan PR'-nya ketika memberikan jawaban yang benar.

Pertanyaan CEO Oumi Manos Koukoumidis tepat sasaran: "Bahkan jika jawabannya benar, bagaimana Anda tahu itu benar? Bagaimana Anda memverifikasinya?"

Banyaknya rujukan AI Overviews ke sumber berkualitas rendah memperburuk masalah ini. Oumi menemukan bahwa Facebook dan Reddit masing-masing adalah sumber rujukan kedua dan keempat terbanyak untuk AI Overviews. Dalam jawaban yang tidak akurat, Facebook dirujukan dengan frekuensi 7%, lebih tinggi daripada dalam jawaban akurat yang hanya 5%.

Sebuah Artikel Palsu dari Wartawan BBC, 'Meracuni' Sukses dalam 24 Jam

Cacat serius lainnya dari AI Overviews adalah sangat mudah dimanipulasi.

Seorang wartawan BBC menguji dengan sebuah artikel yang sengaja dibuat palsu. Kurang dari 24 jam, ringkasan AI Google menyajikan informasi palsu di dalamnya sebagai fakta kepada pengguna.

Ini berarti siapa pun yang memahami mekanisme kerja sistem dapat 'meracuni' hasil pencarian AI dengan menerbitkan konten palsu dan meningkatkan trafiknya. Tanggapan juru bicara Google Ned Adriance terhadap hal ini adalah bahwa fungsi AI pencarian dibangun di atas mekanisme peringkat dan keamanan yang sama yang digunakan untuk memblokir spam, dan menyebut bahwa "sebagian besar contoh dalam tes adalah kueri yang tidak realistis yang tidak akan dicari oleh orang secara nyata".

Bantahan Google: Tesnya Sendiri yang Bermasalah

Google mengajukan beberapa keberatan terhadap penelitian Oumi. Juru bicara Google menyatakan bahwa penelitian tersebut "memiliki kelemahan serius", dengan alasan termasuk: tolok ukur SimpleQA sendiri mengandung informasi yang tidak akurat; Oumi menggunakan model AI mereka sendiri, HallOumi, untuk menilai kinerja AI lain, yang mungkin memperkenalkan kesalahan tambahan; konten tes tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Pengujian internal Google juga menunjukkan bahwa ketika Gemini 3 dijalankan secara independen di luar kerangka kerja Pencarian Google, proporsi keluaran yang salah (hallucination) mencapai 28%. Namun Google menekankan bahwa AI Overviews, dengan memanfaatkan sistem peringkat pencarian, berkinerja lebih baik dalam hal akurasi dibandingkan model itu sendiri.

Namun, seperti yang ditunjukkan oleh komentar PCMag mengenai paradoks logika ini: Jika alasan pembelaan Anda adalah "melaporkan bahwa AI kami tidak akurat juga menggunakan AI yang mungkin tidak akurat", ini恐怕 tidak mungkin meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda. (Terjemahan catatan: "恐怕" dari teks asli dipertahankan sebagai "mungkin" karena konteksnya, tetapi frasa selanjutnya disesuaikan agar lebih natural: "ini mungkin tidak meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda").

Pertanyaan Terkait

QApa tingkat akurasi AI Overviews Google menurut penelitian New York Times dan Oumi?

AMenurut penelitian New York Times dan Oumi, tingkat akurasi AI Overviews Google adalah sekitar 91% dengan model Gemini 3, meningkat dari 85% pada model Gemini 2.

QBerapa banyak jawaban tidak akurat yang dihasilkan AI Overviews per jam berdasarkan volume pencarian Google?

ADengan volume 5 triliun pencarian per tahun dan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban tidak akurat per jam, atau hampir 1 juta per menit.

QApa masalah utama dengan tautan referensi yang disediakan AI Overviews meskipun jawabannya benar?

AMasalahnya adalah 'kutipan tanpa dasar', di mana tautan yang disertakan tidak mendukung informasi yang diberikan. Proporsi masalah ini meningkat dari 37% (Gemini 2) menjadi 56% (Gemini 3).

QSitus apa yang sering dikutip sebagai sumber rendah kualitas oleh AI Overviews?

AFacebook dan Reddit adalah sumber kutipan terbesar kedua dan keempat. Facebook bahkan lebih sering dikutip dalam jawaban tidak akurat (7%) dibandingkan jawaban akurat (5%).

QBagaimana Google membantah temuan penelitian Oumi?

AGoogle menyatakan penelitian tersebut 'memiliki kelemahan serius', dengan alasan: benchmark SimpleQA mengandung ketidakakuratan, penggunaan model AI Oumi sendiri (HallOumi) menambah error, dan kueri uji tidak mencerminkan perilaku pencarian pengguna nyata.

Bacaan Terkait

Senate Bergerak Menuju UU CLARITY: Target Penandatanganan Agustus Masih Hidup, Untuk Sementara

Setelah melewati tahap penting di Senat, Undang-Undang CLARITY kini memasuki periode kritis yang akan menentukan apakah RUU tersebut dapat mencapai meja Presiden tahun ini. Target penandatanganan pada bulan Agustus masih mungkin, meski jalannya sempit secara prosedural dan politik. Para pendukung RUU, yang bertujuan memberikan kejelasan regulasi untuk aset digital, sedang berusaha menyatukan versi berbeda dari Komite Pertanian dan Perbankan Senat. Tantangan utama termasuk mendapatkan dukungan bipartisan dari setidaknya 60 suara untuk mengatasi filibuster. Beberapa Demokrat di Komite Pertanian masih perlu diyakinkan, sementara dukungan dari Demokrat lain di Komite Perbankan bergantung pada kesepakatan mengenai perlindungan etika bagi pejabat pemerintah yang menangani cryptocurrency. Permintaan tambahan dari senator Demokrat lainnya terkait alat penegakan hukum untuk menindak pelaku jahat di sektor keuangan terdesentralisasi (DeFi) juga menjadi perhatian. Beberapa pelaku industri khawatir permintaan ini dapat melemahkan perlindungan hukum bagi pengembang perangkat lunak. Tenggat waktu efektif dianggap saat reses Agustus, karena setelahnya perhatian akan beralih ke kampanye pemilihan. Namun, ada pula pandangan optimis bahwa modal politik yang telah diinvestasikan akan menjaga RUU ini tetap dalam agenda, meski lingkungan politik bisa berubah jika prosesnya terbawa ke tahun depan dan menghadapi dinamika pemilu paruh waktu.

bitcoinist43m yang lalu

Senate Bergerak Menuju UU CLARITY: Target Penandatanganan Agustus Masih Hidup, Untuk Sementara

bitcoinist43m yang lalu

Cryptocurrency Menargetkan Pasar Pensiun AS Senilai US$49 Triliun

Kripto Menarget Pasar Pensiun AS Senilai $49 Triliun Pasar pensiun AS yang bernilai $49,1 triliun kini menjadi sasaran industri aset kripto melalui akun pensiun swakelola (Self-Directed IRA). IRA Financial, sebuah penyedia terkemuka, baru saja meluncurkan platform yang memungkinkan investor memperdagangkan hampir 100 token kripto secara real-time dalam satu akun yang sama, sekaligus memegang aset seperti saham, properti, emas, dan ekuitas swasta. Pendiri IRA Financial, Adam Bergman, mengkritik lembaga keuangan besar yang dinilai membatasi akses ke aset alternatif dengan alasan risiko. Namun, arah kebijakan telah berubah. Pada Mei 2024, pedoman Departemen Tenaga Kerja AS yang sebelumnya memperingatkan kehati-hatian ekstrem untuk kripto dalam 401(k) dicabut. Tak lama kemudian, Presiden Trump menandatangani perintah eksekutif yang membuka jalan bagi aset digital dalam rencana pensiun tempat kerja. Platform IRA Financial menawarkan perdagangan saham tanpa komisi dan perdagangan kripto dengan komisi sekitar 1%, dengan biaya tahunan di bawah $500 untuk menggabungkan berbagai aset. Bergman menekankan keunggulan satu platform dan satu biaya tetap dibandingkan model tradisional yang mengenakan biaya berdasarkan aset. Namun, peringatan risiko tetap ada. Otoritas pasar modal telah memperingatkan bahwa akun swakelola menawarkan pilihan investasi yang lebih luas tetapi berisiko lebih tinggi. IRA Financial sendiri pernah mengalami peretasan pada 2022 yang mengakibatkan kehilangan $36 juta dalam aset kripto klien. Selain itu, memegang kunci privat untuk kripto dalam IRA dapat membatalkan status akun dan memicu kewajiban pajak. Kesimpulannya, dengan perubahan kebijakan dan kemajuan teknologi, aset kripto semakin masuk ke arus utama perencanaan pensiun AS. Meski menjanjikan peluang diversifikasi dan potensi imbal hasil, investor perlu menyadari sepenuhnya kompleksitas dan risiko yang menyertainya. Disarankan untuk berkonsultasi dengan penasihat keuangan dan pajak sebelum membuat keputusan.

marsbit54m yang lalu

Cryptocurrency Menargetkan Pasar Pensiun AS Senilai US$49 Triliun

marsbit54m yang lalu

Chatbot Sudah Membakar Uang Tiga Tahun, Masihkah Menjadi 'Benua Baru' Era AI?

Dalam beberapa tahun terakhir, chatbot dianggap sebagai "peta harta karun" menuju "benua baru" di era AI, terutama setelah kesuksesan fenomenal ChatGPT. Namun, ekspektasi bahwa chatbot akan menjadi pintu masuk super yang menguasai nilai ekonomi, mirip dengan era internet seluler, mulai dipertanyakan. Realitas bisnis chatbot ternyata sulit. OpenAI, dengan miliaran pengguna aktif, masih merugi karena biaya komputasi yang tinggi per interaksi. Model langganan berbayar menghadapi tantangan, terutama di pasar seperti Tiongkok di mana kebiasaan membayar untuk aplikasi mandiri rendah. Iklan, yang diharapkan menjadi solusi, juga terbukti sulit diimplementasikan secara efektif dalam format dialog karena kurangnya niat beli pengguna, ruang terbatas, dan masalah kepercayaan terhadap jawaban. Analisis menunjukkan chatbot mungkin bukan bentuk akhir. Data dari Anthropic dan penelitian lainnya mengindikasikan mayoritas pengguna memanfaatkan AI untuk membantu pekerjaan, bukan sekadar mengobrol. Tren menuju "Agent" AI yang dapat mengeksekusi tugas multi-langkah, serta integrasi AI ke dalam aplikasi yang ada, sistem operasi, dan perangkat keras (seperti yang dilakukan oleh OpenClaw, Apple Intelligence, dan Meta) menunjukkan masa depan AI mungkin lebih tersebar dan tertanam, daripada terkonsentrasi pada aplikasi chatbot mandiri. Kesimpulannya, chatbot berperan penting dalam memperkenalkan kemampuan AI kepada publik, tetapi sebagai model bisnis mandiri, ia menghadapi tantangan ekonomi mendasar. "Peta lama" yang berfokus pada pencarian pintu masuk super mungkin perlu diperbarui. "Benua baru" yang sesungguhnya dalam era AI kemungkinan terletak pada bagaimana kemampuan AI diintegrasikan dan memberikan nilai di dalam produk serta layanan yang sudah ada, mengubahnya dari dalam.

marsbit1j yang lalu

Chatbot Sudah Membakar Uang Tiga Tahun, Masihkah Menjadi 'Benua Baru' Era AI?

marsbit1j yang lalu

Trading

Spot
Futures
活动图片