Ribuan Juta Kesalahan per Jam, Investigasi Mengungkap 'Halusinasi Akurasi' Pencarian AI Google

marsbitDipublikasikan tanggal 2026-04-10Terakhir diperbarui pada 2026-04-10

Abstrak

Sebuah investigasi oleh The New York Times dan perusahaan AI Oumi mengungkap bahwa fitur AI Overviews (Ringkasan AI) Google memiliki tingkat akurasi sekitar 91%. Namun, dengan volume pencarian tahunan Google yang mencapai 5 triliun, angka ini berarti kesalahan terjadi hampir 57 juta kali per jam. Lebih buruk lagi, bahkan ketika jawabannya benar, 56% tautan rujukan yang disertakan tidak mendukung kesimpulan yang diberikan. Masalahnya diperparah dengan seringnya AI mengutip sumber berkualitas rendah seperti Facebook dan Reddit. Selain itu, sistem ini sangat rentan dimanipulasi. Seorang jurnalis BBC berhasil "meracuni" hasil AI dalam waktu 24 jam dengan artikel palsu. Google membantah temuan ini, menyebut metodologi penelitian Oumi memiliki "kelemahan serius" karena menggunakan model AI mereka sendiri (HallOumi) untuk mengevaluasi dan menguji kueri yang tidak realistis. Namun, argumen ini justru memunculkan pertanyaan lebih besar tentang keandalan sistem AI pencarian mereka.

Penulis: Claude, Deep Tide TechFlow

Panduan Deep Tide: Tes terbaru dari The New York Times bersama perusahaan rintisan AI Oumi menunjukkan bahwa fitur Ringkasan AI (AI Overviews) pada Pencarian Google memiliki akurasi sekitar 91%. Namun, dengan skala Google yang memproses sekitar 5 triliun kueri pencarian per tahun, ini berarti setiap jamnya menghasilkan lebih dari 57 juta jawaban yang salah. Yang lebih rumit, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak dapat mendukung kesimpulannya.

Google sedang mengirimkan informasi yang salah kepada pengguna dalam skala yang belum pernah terjadi sebelumnya, dan kebanyakan orang tidak menyadarinya.

Menurut laporan The New York Times, perusahaan rintisan AI Oumi yang ditugaskan oleh mereka, menggunakan tes standar industri SimpleQA yang dikembangkan oleh OpenAI untuk menilai keakuratan fitur AI Overviews milik Google. Tes ini mencakup 4326 kueri pencarian, dilakukan dalam dua putaran: pada Oktober tahun lalu (didukung Gemini 2) dan Februari tahun ini (setelah ditingkatkan ke Gemini 3). Hasilnya menunjukkan akurasi Gemini 2 sekitar 85%, dan meningkat menjadi 91% dengan Gemini 3.

Angka 91% terdengar baik, tetapi dalam skala Google, ceritanya menjadi berbeda. Google memproses sekitar 5 triliun kueri pencarian per tahun. Dengan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban yang tidak akurat per jam, atau mendekati 1 juta per menit.

Jawaban Benar, Sumbernya Salah

Yang lebih mengkhawatirkan daripada akurasi adalah masalah 'lepasnya jangkar' pada sumber rujukan.

Data Oumi menunjukkan, pada era Gemini 2, 37% dari jawaban yang benar memiliki masalah 'rujukan tanpa dasar', yaitu tautan yang disertakan dalam ringkasan AI tidak mendukung informasi yang diberikan. Setelah peningkatan ke Gemini 3, persentase ini justru meningkat, melonjak menjadi 56%. Dengan kata lain, model ini semakin tidak bisa 'mengerjakan PR'-nya ketika memberikan jawaban yang benar.

Pertanyaan CEO Oumi Manos Koukoumidis tepat sasaran: "Bahkan jika jawabannya benar, bagaimana Anda tahu itu benar? Bagaimana Anda memverifikasinya?"

Banyaknya rujukan AI Overviews ke sumber berkualitas rendah memperburuk masalah ini. Oumi menemukan bahwa Facebook dan Reddit masing-masing adalah sumber rujukan kedua dan keempat terbanyak untuk AI Overviews. Dalam jawaban yang tidak akurat, Facebook dirujukan dengan frekuensi 7%, lebih tinggi daripada dalam jawaban akurat yang hanya 5%.

Sebuah Artikel Palsu dari Wartawan BBC, 'Meracuni' Sukses dalam 24 Jam

Cacat serius lainnya dari AI Overviews adalah sangat mudah dimanipulasi.

Seorang wartawan BBC menguji dengan sebuah artikel yang sengaja dibuat palsu. Kurang dari 24 jam, ringkasan AI Google menyajikan informasi palsu di dalamnya sebagai fakta kepada pengguna.

Ini berarti siapa pun yang memahami mekanisme kerja sistem dapat 'meracuni' hasil pencarian AI dengan menerbitkan konten palsu dan meningkatkan trafiknya. Tanggapan juru bicara Google Ned Adriance terhadap hal ini adalah bahwa fungsi AI pencarian dibangun di atas mekanisme peringkat dan keamanan yang sama yang digunakan untuk memblokir spam, dan menyebut bahwa "sebagian besar contoh dalam tes adalah kueri yang tidak realistis yang tidak akan dicari oleh orang secara nyata".

Bantahan Google: Tesnya Sendiri yang Bermasalah

Google mengajukan beberapa keberatan terhadap penelitian Oumi. Juru bicara Google menyatakan bahwa penelitian tersebut "memiliki kelemahan serius", dengan alasan termasuk: tolok ukur SimpleQA sendiri mengandung informasi yang tidak akurat; Oumi menggunakan model AI mereka sendiri, HallOumi, untuk menilai kinerja AI lain, yang mungkin memperkenalkan kesalahan tambahan; konten tes tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Pengujian internal Google juga menunjukkan bahwa ketika Gemini 3 dijalankan secara independen di luar kerangka kerja Pencarian Google, proporsi keluaran yang salah (hallucination) mencapai 28%. Namun Google menekankan bahwa AI Overviews, dengan memanfaatkan sistem peringkat pencarian, berkinerja lebih baik dalam hal akurasi dibandingkan model itu sendiri.

Namun, seperti yang ditunjukkan oleh komentar PCMag mengenai paradoks logika ini: Jika alasan pembelaan Anda adalah "melaporkan bahwa AI kami tidak akurat juga menggunakan AI yang mungkin tidak akurat", ini恐怕 tidak mungkin meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda. (Terjemahan catatan: "恐怕" dari teks asli dipertahankan sebagai "mungkin" karena konteksnya, tetapi frasa selanjutnya disesuaikan agar lebih natural: "ini mungkin tidak meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda").

Pertanyaan Terkait

QApa tingkat akurasi AI Overviews Google menurut penelitian New York Times dan Oumi?

AMenurut penelitian New York Times dan Oumi, tingkat akurasi AI Overviews Google adalah sekitar 91% dengan model Gemini 3, meningkat dari 85% pada model Gemini 2.

QBerapa banyak jawaban tidak akurat yang dihasilkan AI Overviews per jam berdasarkan volume pencarian Google?

ADengan volume 5 triliun pencarian per tahun dan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban tidak akurat per jam, atau hampir 1 juta per menit.

QApa masalah utama dengan tautan referensi yang disediakan AI Overviews meskipun jawabannya benar?

AMasalahnya adalah 'kutipan tanpa dasar', di mana tautan yang disertakan tidak mendukung informasi yang diberikan. Proporsi masalah ini meningkat dari 37% (Gemini 2) menjadi 56% (Gemini 3).

QSitus apa yang sering dikutip sebagai sumber rendah kualitas oleh AI Overviews?

AFacebook dan Reddit adalah sumber kutipan terbesar kedua dan keempat. Facebook bahkan lebih sering dikutip dalam jawaban tidak akurat (7%) dibandingkan jawaban akurat (5%).

QBagaimana Google membantah temuan penelitian Oumi?

AGoogle menyatakan penelitian tersebut 'memiliki kelemahan serius', dengan alasan: benchmark SimpleQA mengandung ketidakakuratan, penggunaan model AI Oumi sendiri (HallOumi) menambah error, dan kueri uji tidak mencerminkan perilaku pencarian pengguna nyata.

Bacaan Terkait

Dua Struktur Hidup Market Maker dan Arbitrageur

Dalam perdagangan mikro-frekuensi tinggi, dua kelompok utama bertahan lama: pembuat pasar yang bergantung pada spread dengan mengajukan penawaran satu sisi dan sering menggunakan order "maker", serta arbitrase lintas bursa yang mengejar selisih harga dan suku bunga pendanaan, biasanya sebagai "taker". Artikel ini membahas karakteristik eksposur risiko kedua pendekatan tersebut. Eksposur risiko muncul karena pertukaran antara kendali waktu dan harga. Pembuat pasar, sebagai pembuat order, mendapatkan hak menetapkan harga tetapi menyerahkan kendali atas waktu eksekusi kepada "taker". Risiko utama bagi pembuat pasar adalah "risiko persediaan" dan penetapan harga yang adil, sementara arbitrase lintas bursa menghadapi eksposur akibat asimetri aturan, latensi pencocokan, dan fragmentasi di berbagai bursa. Fragmentasi untuk pembuat pasar berasal dari sifat pasif dan tidak kontinu dari pencocokan order book, sering kali terpencar secara acak dalam sumbu waktu. Di sisi lain, fragmentasi arbitrase lintas bursa bersifat eksternal dan aktif, disebabkan oleh perbedaan aturan seperti ukuran lot minimum yang bervariasi antar bursa. Dalam hal karakteristik eksposur, pembuat pasar menghadapi situasi di mana persediaan dapat menguntungkan dalam kondisi pasar yang rata atau dapat merugikan selama tren satu arah yang kuat. Arbitrase lintas bursa lebih terpapar pada risiko teknis seperti likuidasi otomatis (ADL) bursa, penyimpangan oracle, manipulasi pendanaan, dan kerusakan korelasi aset. Hubungan antara eksposur risiko dan keuntungan juga berbeda. Pembuat pasar mengejar probabilitas kemenangan tinggi, perputaran cepat, dan keuntungan per transaksi rendah, dengan eksposur persediaan yang berkontribusi pada keuntungan selama dalam batas kendali. Arbitrase lintas bursa mengejar selisih harga yang pasti dan pendanaan struktural, di mana eksposur risiko cenderung menjadi pengurangan keuntungan, dan mereka mentoleransi fragmentasi untuk menghindari biaya slipage yang lebih tinggi. Pada akhirnya, kedua pendekatan berevolusi menuju sistem hibrida yang menggabungkan elemen "maker" dan "taker" berdasarkan pertimbangan biaya, latensi, dan kondisi pasar. Pembuat pasar menjual waktu dan mengekspos persediaan kepada pasar, sementara arbitrase menjual ruang (modal) dan menenggelamkan modal ke dalam pasar. Keduanya menggunakan berbagai bentuk eksposur risiko untuk memperoleh kepastian yang kecil namun krusial di pasar.

链捕手3j yang lalu

Dua Struktur Hidup Market Maker dan Arbitrageur

链捕手3j yang lalu

Mendadak: Reorganisasi Besar-besaran di OpenAI, Presiden Brockman Mengambil Alih Kekuasaan

**OpenAI Lakukan Reorganisasi Besar-besaran, Presiden Brockman Ambil Alih Kendali Produk** OpenAI mengumumkan reorganisasi besar dan penggabungan tiga produk intinya—ChatGPT, Codex, dan API—menjadi satu organisasi produk terpadu. Presiden sekaligus salah satu pendiri, Greg Brockman, mengambil alih kendali penuh atas strategi produk. Nick Turley, sosok kunci di balik pertumbuhan ChatGPT, dialihkan untuk menangani produk *enterprise*. Ashley Alexander, mantan wakil presiden Instagram, menggantikannya memimpin produk konsumen. Sementara itu, Thibault Sottiaux, yang sebelumnya memimpin Codex, kini mengepalai tim produk dan platform gabungan yang baru. Restrukturisasi ini bertujuan untuk fokus pada "Agentic Future" (Era Agen Cerdas). Langkah ini juga merupakan persiapan untuk meluncurkan "Super App", sebuah aplikasi desktop yang menggabungkan ChatGPT, kemampuan pemrograman Codex, dan *browser* Atlas yang akan datang untuk menjalankan tugas digital secara otonom. Langkah reorganisasi terjadi di tengah tekanan kompetisi yang ketat. Saingan utama, Anthropic, dikabarkan telah mengamankan pendanaan dengan valuasi mencapai $900 miliar, melampaui valuasi OpenAI. Selain itu, Google diperkirakan akan meluncurkan produk AI baru pada konferensi Google I/O minggu depan. Restrukturisasi ini juga dilihat sebagai respons terhadap sejumlah kepergian eksekutif kunci dan ketidakpastian cuti sakit CEO AGI Deployment, Fidji Simo. Dengan IPO yang dikabarkan akan berlangsung tahun ini, OpenAI berupaya menampilkan cerita yang lebih terfokus dan kuat kepada calon investor pasar modal.

marsbit3j yang lalu

Mendadak: Reorganisasi Besar-besaran di OpenAI, Presiden Brockman Mengambil Alih Kekuasaan

marsbit3j yang lalu

Siapa yang Akan Mendefinisikan Aturan di Era AI? Anthropic Membahas Lanskap AI AS-China pada 2028

Anthropic, perusahaan AI AS, menerbitkan analisis tentang persaingan AI AS-China menuju 2028. Mereka mengidentifikasi empat bidang persaingan: kemampuan model, adopsi domestik, distribusi global, dan ketahanan. Saat ini, AS dan sekutunya memimpin dalam daya komputasi (komputasi), elemen kunci untuk pengembangan AI mutakhir, berkat inovasi perusahaan dan kebijakan kontrol ekspor. Namun, lab AI China tetap kompetitif dengan memanfaatkan celah kontrol ekspor untuk mengakses chip canggih dan melakukan "serangan distilasi" untuk meniru kemampuan model AS. Anthropic menguraikan dua skenario untuk 2028: 1. **Kepemimpinan AS yang Meluas:** Jika AS menutup celah akses komputasi dan distilasi, serta mempercepat adopsi AI, keunggulan model AS dapat mencapai 12-24 bulan. Ini akan mengamankan pengaruh AS dalam tata kelola AI global. 2. **Persaingan Ketat (Neck-and-neck):** Jika China terus mengakses chip dan kemampuan model AS, mereka dapat mengejar ketertinggalan. Model China yang "cukup baik dan murah" serta infrastruktur global (seperti Huawei) dapat meningkatkan adopsi worldwide, menggeser keseimbangan kekuatan. Kesimpulannya, Anthropic mendorong pembuat kebijakan AS untuk mengamankan keunggulan dengan: memperketat kontrol ekspor dan penegakan hukum terhadap chip, membatasi serangan distilasi, dan mendorong ekspor teknologi AI yang tepercaya ke pasar global. Tindakan saat ini akan menentukan siapa yang membentuk masa depan AI pada 2028.

marsbit4j yang lalu

Siapa yang Akan Mendefinisikan Aturan di Era AI? Anthropic Membahas Lanskap AI AS-China pada 2028

marsbit4j yang lalu

Trading

Spot
Futures
活动图片