Ribuan Juta Kesalahan per Jam, Investigasi Mengungkap 'Halusinasi Akurasi' Pencarian AI Google

marsbitDipublikasikan tanggal 2026-04-10Terakhir diperbarui pada 2026-04-10

Abstrak

Sebuah investigasi oleh The New York Times dan perusahaan AI Oumi mengungkap bahwa fitur AI Overviews (Ringkasan AI) Google memiliki tingkat akurasi sekitar 91%. Namun, dengan volume pencarian tahunan Google yang mencapai 5 triliun, angka ini berarti kesalahan terjadi hampir 57 juta kali per jam. Lebih buruk lagi, bahkan ketika jawabannya benar, 56% tautan rujukan yang disertakan tidak mendukung kesimpulan yang diberikan. Masalahnya diperparah dengan seringnya AI mengutip sumber berkualitas rendah seperti Facebook dan Reddit. Selain itu, sistem ini sangat rentan dimanipulasi. Seorang jurnalis BBC berhasil "meracuni" hasil AI dalam waktu 24 jam dengan artikel palsu. Google membantah temuan ini, menyebut metodologi penelitian Oumi memiliki "kelemahan serius" karena menggunakan model AI mereka sendiri (HallOumi) untuk mengevaluasi dan menguji kueri yang tidak realistis. Namun, argumen ini justru memunculkan pertanyaan lebih besar tentang keandalan sistem AI pencarian mereka.

Penulis: Claude, Deep Tide TechFlow

Panduan Deep Tide: Tes terbaru dari The New York Times bersama perusahaan rintisan AI Oumi menunjukkan bahwa fitur Ringkasan AI (AI Overviews) pada Pencarian Google memiliki akurasi sekitar 91%. Namun, dengan skala Google yang memproses sekitar 5 triliun kueri pencarian per tahun, ini berarti setiap jamnya menghasilkan lebih dari 57 juta jawaban yang salah. Yang lebih rumit, bahkan ketika jawabannya benar, lebih dari setengah tautan rujukan tidak dapat mendukung kesimpulannya.

Google sedang mengirimkan informasi yang salah kepada pengguna dalam skala yang belum pernah terjadi sebelumnya, dan kebanyakan orang tidak menyadarinya.

Menurut laporan The New York Times, perusahaan rintisan AI Oumi yang ditugaskan oleh mereka, menggunakan tes standar industri SimpleQA yang dikembangkan oleh OpenAI untuk menilai keakuratan fitur AI Overviews milik Google. Tes ini mencakup 4326 kueri pencarian, dilakukan dalam dua putaran: pada Oktober tahun lalu (didukung Gemini 2) dan Februari tahun ini (setelah ditingkatkan ke Gemini 3). Hasilnya menunjukkan akurasi Gemini 2 sekitar 85%, dan meningkat menjadi 91% dengan Gemini 3.

Angka 91% terdengar baik, tetapi dalam skala Google, ceritanya menjadi berbeda. Google memproses sekitar 5 triliun kueri pencarian per tahun. Dengan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban yang tidak akurat per jam, atau mendekati 1 juta per menit.

Jawaban Benar, Sumbernya Salah

Yang lebih mengkhawatirkan daripada akurasi adalah masalah 'lepasnya jangkar' pada sumber rujukan.

Data Oumi menunjukkan, pada era Gemini 2, 37% dari jawaban yang benar memiliki masalah 'rujukan tanpa dasar', yaitu tautan yang disertakan dalam ringkasan AI tidak mendukung informasi yang diberikan. Setelah peningkatan ke Gemini 3, persentase ini justru meningkat, melonjak menjadi 56%. Dengan kata lain, model ini semakin tidak bisa 'mengerjakan PR'-nya ketika memberikan jawaban yang benar.

Pertanyaan CEO Oumi Manos Koukoumidis tepat sasaran: "Bahkan jika jawabannya benar, bagaimana Anda tahu itu benar? Bagaimana Anda memverifikasinya?"

Banyaknya rujukan AI Overviews ke sumber berkualitas rendah memperburuk masalah ini. Oumi menemukan bahwa Facebook dan Reddit masing-masing adalah sumber rujukan kedua dan keempat terbanyak untuk AI Overviews. Dalam jawaban yang tidak akurat, Facebook dirujukan dengan frekuensi 7%, lebih tinggi daripada dalam jawaban akurat yang hanya 5%.

Sebuah Artikel Palsu dari Wartawan BBC, 'Meracuni' Sukses dalam 24 Jam

Cacat serius lainnya dari AI Overviews adalah sangat mudah dimanipulasi.

Seorang wartawan BBC menguji dengan sebuah artikel yang sengaja dibuat palsu. Kurang dari 24 jam, ringkasan AI Google menyajikan informasi palsu di dalamnya sebagai fakta kepada pengguna.

Ini berarti siapa pun yang memahami mekanisme kerja sistem dapat 'meracuni' hasil pencarian AI dengan menerbitkan konten palsu dan meningkatkan trafiknya. Tanggapan juru bicara Google Ned Adriance terhadap hal ini adalah bahwa fungsi AI pencarian dibangun di atas mekanisme peringkat dan keamanan yang sama yang digunakan untuk memblokir spam, dan menyebut bahwa "sebagian besar contoh dalam tes adalah kueri yang tidak realistis yang tidak akan dicari oleh orang secara nyata".

Bantahan Google: Tesnya Sendiri yang Bermasalah

Google mengajukan beberapa keberatan terhadap penelitian Oumi. Juru bicara Google menyatakan bahwa penelitian tersebut "memiliki kelemahan serius", dengan alasan termasuk: tolok ukur SimpleQA sendiri mengandung informasi yang tidak akurat; Oumi menggunakan model AI mereka sendiri, HallOumi, untuk menilai kinerja AI lain, yang mungkin memperkenalkan kesalahan tambahan; konten tes tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Pengujian internal Google juga menunjukkan bahwa ketika Gemini 3 dijalankan secara independen di luar kerangka kerja Pencarian Google, proporsi keluaran yang salah (hallucination) mencapai 28%. Namun Google menekankan bahwa AI Overviews, dengan memanfaatkan sistem peringkat pencarian, berkinerja lebih baik dalam hal akurasi dibandingkan model itu sendiri.

Namun, seperti yang ditunjukkan oleh komentar PCMag mengenai paradoks logika ini: Jika alasan pembelaan Anda adalah "melaporkan bahwa AI kami tidak akurat juga menggunakan AI yang mungkin tidak akurat", ini恐怕 tidak mungkin meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda. (Terjemahan catatan: "恐怕" dari teks asli dipertahankan sebagai "mungkin" karena konteksnya, tetapi frasa selanjutnya disesuaikan agar lebih natural: "ini mungkin tidak meningkatkan kepercayaan pengguna terhadap keakuratan produk Anda").

Pertanyaan Terkait

QApa tingkat akurasi AI Overviews Google menurut penelitian New York Times dan Oumi?

AMenurut penelitian New York Times dan Oumi, tingkat akurasi AI Overviews Google adalah sekitar 91% dengan model Gemini 3, meningkat dari 85% pada model Gemini 2.

QBerapa banyak jawaban tidak akurat yang dihasilkan AI Overviews per jam berdasarkan volume pencarian Google?

ADengan volume 5 triliun pencarian per tahun dan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban tidak akurat per jam, atau hampir 1 juta per menit.

QApa masalah utama dengan tautan referensi yang disediakan AI Overviews meskipun jawabannya benar?

AMasalahnya adalah 'kutipan tanpa dasar', di mana tautan yang disertakan tidak mendukung informasi yang diberikan. Proporsi masalah ini meningkat dari 37% (Gemini 2) menjadi 56% (Gemini 3).

QSitus apa yang sering dikutip sebagai sumber rendah kualitas oleh AI Overviews?

AFacebook dan Reddit adalah sumber kutipan terbesar kedua dan keempat. Facebook bahkan lebih sering dikutip dalam jawaban tidak akurat (7%) dibandingkan jawaban akurat (5%).

QBagaimana Google membantah temuan penelitian Oumi?

AGoogle menyatakan penelitian tersebut 'memiliki kelemahan serius', dengan alasan: benchmark SimpleQA mengandung ketidakakuratan, penggunaan model AI Oumi sendiri (HallOumi) menambah error, dan kueri uji tidak mencerminkan perilaku pencarian pengguna nyata.

Bacaan Terkait

Perusahaan Donald Trump Menjual Lagi Sejumlah Besar Bitcoin!

Perusahaan milik Donald Trump, Trump Media & Technology Group, diduga kembali mentransfer sejumlah besar Bitcoin ke bursa kripto CryptoCom. Data analisis blockchain menunjukkan sekitar 2.628 BTC, senilai kurang lebih $165 juta, dipindahkan dari alamat yang dikaitkan dengan perusahaan tersebut. Sebelumnya, perusahaan dilaporkan membeli total 11.542 BTC dengan harga rata-rata $118.500 per koin. Sejak 2026, sekitar 7.281 BTC telah ditarik dari alamat-alamat ini, dengan sisa sekitar 4.261 BTC yang masih disimpan. Kerugian total Trump Media dari investasi Bitcoin ini, baik yang telah direalisasikan maupun belum, diperkirakan mencapai sekitar $555 juta. Penting untuk dicatat bahwa pengiriman aset ke bursa kripto tidak selalu berarti penjualan. Transfer bisa dilakukan untuk keperluan penyimpanan, pengelolaan likuiditas, atau operasi keuangan lainnya. Meski demikian, perpindahan dari dompet "dingin" ke bursa terpusat sering dianggap sebagai indikasi persiapan penjualan.

cryptonews.ru1j yang lalu

Perusahaan Donald Trump Menjual Lagi Sejumlah Besar Bitcoin!

cryptonews.ru1j yang lalu

Mengapa Bitcoin Bertahan di $64.000 Setelah Jeda Ketat dari The Fed

Bitcoin berakhir di bulan Juli mendekati level $64.000, bertahan di tengah volatilitas pasca keputusan Federal Reserve AS untuk mempertahankan suku bunga dalam kisaran 3,50-3,75%. Meskipun tiga anggota komite voting mendukung kenaikan suku bunga, sinyal keseluruhan dari Fed tetap ketat, membatasi minat terhadap aset berisiko. Pasar kripto menunjukkan ketahanan dengan aliran bersih masuk $32,1 juta ke ETF Bitcoin spot, mengakhiri serangkaian arus keluar. Di sisi lain, ETF Ethereum mengalami penarikan dana sekitar $18,65 juta. Kapitalisasi pasar agregat bertahan di sekitar $2,29 triliun. Secara teknis, Bitcoin menemukan dukungan di zona $63.000-63.500 dengan hambatan utama di dekat $66.000. Sementara Ethereum diperdagangkan sekitar $1.900 dengan tekanan harga, metrik jaringan seperti antrian validator yang panjang menunjukkan komitmen jangka panjang. Pergerakan di altcoin beragam: ETF Solana mencatat aliran masuk yang kuat sekitar $19 juta, sementara XRP dan BNB bergerak dalam konsolidasi. Regulasi juga menjadi perhatian setelah penundaan pembahasan CLARITY Act di Senat AS hingga musim gugur, mengurangi harapan disahkannya undang-undang tersebut pada tahun 2026. Hari terakhir bulan Juli akan dipantau untuk data makro AS seperti inflasi dan pengeluaran konsumen, yang dapat memengaruhi pergerakan pasar. Skenario dasar untuk Bitcoin adalah konsolidasi dalam kisaran $63.000-66.000. Kelangsungan aliran masuk institusional dan pertahanan level kunci akan menjadi sinyal penting untuk pemulihan pasar di paruh kedua tahun 2026.

cryptonews.ru1j yang lalu

Mengapa Bitcoin Bertahan di $64.000 Setelah Jeda Ketat dari The Fed

cryptonews.ru1j yang lalu

Parker Lewis Menjawab Mengapa Bitcoin Tetap Menjadi Uang Terbaik

Parker Lewis, salah satu analis Bitcoin paling terkemuka, mengkritik keras strategi pemasaran perusahaan publik yang memposisikan diri sebagai perbendaharaan kripto. Menurutnya, upaya mereka mengumpulkan modal melalui penjualan "kredit digital" dalam bentuk saham preferen abadi mendistorsi esensi mata uang kripto pertama. Lewis menekankan bahwa Bitcoin tidak memiliki hasil tetap pada tingkat algoritmanya, dan janji dividen reguler adalah permainan berisiko tinggi yang didanai terutama oleh investor baru di pasar yang naik. Untuk menunjukkan risikonya, ia membandingkan pasar kredit global sebesar $300 triliun dengan pasar saham preferen abadi yang hanya $1 triliun, menunjukkan bahwa lembaga keuangan menghindari risiko abadi ini, mengalihkannya ke investor ritel. Ia juga membantah klaim bahwa Bitcoin "terlalu volatil untuk 99% populasi". Volatilitas, katanya, adalah konsekuensi matematis alami dari adopsi massal aset baru dengan pasokan tetap. Setiap gelombang pengguna baru menyebabkan lonjakan harga karena mereka harus menawar lebih tinggi kepada pemegang awal. Lewis menyarankan untuk membeli Bitcoin langsung daripada saham perusahaan seperti MicroStrategy, karena lebih aman secara matematis daripada mempercayakan dana kepada manajer korporat. Fokus pada derivatif korporat mengalihkan perhatian dari ancaman utama: depresiasi uang fiat yang cepat. Lewis mengilustrasikan inflasi sebenarnya dengan "Indeks Ribeye"-nya, mencatat kenaikan harga steak premium dari $19,99 menjadi $37,99 sejak musim semi 2020, setara dengan inflasi 12-13% per tahun, lebih tinggi dari data resmi. Strategi keuangan yang paling bijaksana dan aman dalam inflasi global adalah kepemilikan langsung atas Bitcoin pertama dan kendali penuh atas kunci pribadi. Mengejar imbal hasil korporat yang meragukan melalui saham perbendaharaan kripto hanya meningkatkan risiko sistemik, sementara pemahaman tentang uang terdesentralisasi yang sejati dapat melindungi tabungan dari gejolak makroekonomi.

cryptonews.ru1j yang lalu

Parker Lewis Menjawab Mengapa Bitcoin Tetap Menjadi Uang Terbaik

cryptonews.ru1j yang lalu

Perusahaan ARK Invest Pimpinan Cathy Wood Membeli 109,129 Saham Circle Senilai $6,83 Juta

Perusahaan ARK Invest yang dipimpin oleh Cathie Wood telah membeli sekitar 109.129 saham Circle senilai hampir $6,83 juta. Pembelian dilakukan melalui tiga dana ETF: ARK Innovation ETF (77.103 saham), ARK Next Generation Internet ETF (22.238 saham), dan ARK Fintech Innovation ETF (9.788 saham). Aksi beli ini terjadi beberapa hari setelah Circle mendapatkan lisensi perwalian dari Departemen Layanan Keuangan New York untuk entitas Circle Internet Trust Company LLC, yang akan beroperasi dengan nama Circle New York Trust. CEO Circle Jeremy Allaire menyebut pencapaian lisensi ini sebagai "tujuan jangka panjang perusahaan." Meski mendapat persetujuan regulator, saham Circle (CRCL) justru turun 2,54% menjadi $62,61 pada 31 Juli lalu, kemungkinan karena investor tidak melihat lisensi tersebut sebagai katalis untuk kenaikan saham. Di tengah penjualan saham teknologi, ARK Invest juga membeli saham Tesla, SpaceX, dan Nvidia senilai sekitar $40,2 juta. Secara bersamaan, perusahaan mengurangi kepemilikannya di sejumlah perusahaan lain seperti Shopify, Cloudflare, dan CrowdStrike.

cryptonews.ru1j yang lalu

Perusahaan ARK Invest Pimpinan Cathy Wood Membeli 109,129 Saham Circle Senilai $6,83 Juta

cryptonews.ru1j yang lalu

Pelaku Skema Penipuan dengan XRP yang Mencuri 9 Juta Dolar dari 71 Investor Ditangkap

Menurut surat kabar Korea "Chosun," Kepolisian Seoul menangkap tiga orang yang diduga mengoperasikan platform investasi penipuan terkait $XRP. Grup ini diklaim telah mengumpulkan sekitar 3,4 juta $XRP dari 71 investor antara 16-23 Oktober, sebelum menutup situs dan menghilang. Para tersangka mempromosikan situs Fxrpntwork.com melalui blog, artikel online, dan video YouTube, menjanjikan keamanan pokok dan imbal hasil bulanan 1,5%-1,8%. Investor diinstruksikan mentransfer $XRP dari bursa Korea melalui platform luar negeri ke dompet yang dikendalikan kelompok itu. Polisi memperingatkan investor untuk memverifikasi sumber resmi sebelum mentransfer aset. Pelaku diduga meniru merek Flare Network dan FXRP agar terlihat sah. Polisi mengeluarkan pemberitahuan merah Interpol untuk satu tersangka di luar negeri. Skema penipuan ini mencerminkan pola umum di mana penjahat menyalin branding perusahaan sah dan menjanjikan imbal hasil terjamin—taktik yang sering menjadi tanda penipuan investasi kripto. Investigasi berlanjut untuk mengidentifikasi korban dan kaki tangan tambahan, dengan aset virtual senilai 17,3 miliar won dibekukan.

cryptonews.ru1j yang lalu

Pelaku Skema Penipuan dengan XRP yang Mencuri 9 Juta Dolar dari 71 Investor Ditangkap

cryptonews.ru1j yang lalu

Trading

Spot

Ribuan Juta Kesalahan per Jam, Investigasi Mengungkap 'Halusinasi Akurasi' Pencarian AI Google

Abstrak

Jawaban Benar, Sumbernya Salah

Sebuah Artikel Palsu dari Wartawan BBC, 'Meracuni' Sukses dalam 24 Jam

Bantahan Google: Tesnya Sendiri yang Bermasalah

Pertanyaan Terkait

Bacaan Terkait

Perusahaan Donald Trump Menjual Lagi Sejumlah Besar Bitcoin!

Mengapa Bitcoin Bertahan di $64.000 Setelah Jeda Ketat dari The Fed

Parker Lewis Menjawab Mengapa Bitcoin Tetap Menjadi Uang Terbaik

Perusahaan ARK Invest Pimpinan Cathy Wood Membeli 109,129 Saham Circle Senilai $6,83 Juta

Pelaku Skema Penipuan dengan XRP yang Mencuri 9 Juta Dolar dari 71 Investor Ditangkap

Trading

Kategori Populer

Tag Populer