Pekerjaan dua tahun, kini diselesaikan dalam beberapa minggu.
Belum lama ini, seorang ahli saraf dari Allen Institute, Jérôme Lecoq, dan timnya, berhasil memangkas waktu penulisan sebuah tinjauan pustaka panjang dari hampir 2 tahun menjadi hanya beberapa minggu.
Jérôme Lecoq menumpuk sekitar 10 tinjauan pustaka, banyak di antaranya lebih dari 100 halaman, dan setiap kutipan diperiksa per kalimat oleh sebuah agen cerdas.
Yang membantunya bekerja adalah aplikasi baru dari Anthropic, Claude Science.

30 Juni 2026, Anthropic meluncurkan Claude Science, diposisikan sebagai AI workbench untuk ilmuwan. (Sumber: Blog Resmi Anthropic)
Menurut Anthropic, pekerjaan ini sebelumnya membutuhkan waktu dua tahun bagi ilmuwan dan timnya.
Anthropic memposisikan Claude Science bukan sebagai model penelitian yang lebih pintar, melainkan sebagai AI workbench yang ditujukan untuk ilmuwan.
Terobosannya yang sebenarnya adalah: untuk pertama kalinya membongkar pekerjaan penelitian menjadi sebuah alur kerja (pipeline) yang dapat diaudit langkah demi langkah.
Saat ini, Claude Science telah dibuka dalam versi beta untuk macOS dan Linux, terbuka untuk pengguna Pro, Max, Team, dan Enterprise.
Yang Benar-Benar Berubah, Adalah Seluruh Rantai Alat Penelitian
Siapa pun yang pernah melakukan penelitian, memahami kerumitannya:
Sebuah proyek harus melompat-lompat di antara puluhan database, setiap database memiliki skema dan bahasa kueri sendiri;
Format file beragam, setiap format perlu dibuatkan pipa dan pencari penampilnya secara terpisah;
Di samping, ada sederetan alat: PubMed untuk mencari literatur, Jupyter untuk menjalankan kode, R untuk statistik, terminal kluster untuk mengirimkan tugas......
Terus beralih konteks, waktu yang benar-benar digunakan untuk memikirkan masalah ilmiah sering terkuras oleh pekerjaan memindahkan, menyambung, dan mendebug ini.
Yang dilakukan Claude Science adalah membungkus "menyimpan" fragmen-fragmen skenario ini ke dalam satu lingkungan eksekusi yang sama:
Analisis literatur, komputasi multi-langkah, penajaman grafik, penyusunan naskah, semua tahapan diselesaikan dalam lingkungan yang sama, Anda tidak perlu lagi menghentikan alur pikiran hanya untuk berganti alat.
Ia dapat berjalan di macOS atau Linux lokal Anda, juga dapat terhubung melalui SSH ke mesin jarak jauh, atau diikat ke node login komputasi kinerja tinggi (HPC).
Seperti saat Anda menggunakan Jupyter, data ada di mana, ia akan ke sana.
Bahkan dalam penjadwalan daya komputasi, ia juga menanganinya.
Melipat protein, atau menjalankan pipeline genomik pada data besar, pekerjaan besar seperti ini dulu harus dilayani sendiri oleh peneliti: menyusun tugas komputasi, mengantri menunggu kluster, mengawasi berhasil atau gagal, lalu menarik hasilnya, bolak-balik setengah hari hilang.
Claude Science mengambil alih alur ini: membuat draf rencana terlebih dahulu, meminta persetujuan Anda sebelum menyentuh sumber daya baru, menulis dan mengirimkan tugas setelah Anda dapat meninjau atau membatalkannya, memperluas analisis dari 1 GPU hingga ratusan GPU.

Claude Science mengirimkan satu kali pemindaian hyperparameter scVI 8 set ke kluster A100 lab untuk dijalankan, Notebook di kanan dan agen cerdas berbagi kernel real-time yang sama, variabel dan status disinkronkan secara real-time. (Sumber: Blog Resmi Anthropic)
Yang lebih penting, data sensitif tidak meninggalkan sistem asli, hanya konteks yang benar-benar dibutuhkan setiap langkah yang akan dikirim ke Claude.
Setiap Grafik, Dilengkapi Kode yang Dapat Dilacak
Bidang penelitian secara alami berkaitan dengan grafik, struktur tiga dimensi protein, lintasan genome browser, rumus struktur kimia, ini semua pada dasarnya adalah grafik.
Memanfaatkan hal ini, Claude Science, sambil menghasilkan grafik dan naskah, juga menghasilkan kode yang membuatnya, bahkan dapat merendernya secara native.
Yang lebih kunci adalah dalam hal keterulangan (reproducibility).
Setiap kali Claude Science menghasilkan sebuah grafik, ia akan membundel kode tepat yang menghasilkan grafik itu, lingkungan eksekusi, deskripsi bahasa alami, dan riwayat percakapan lengkap, lalu "mengaitkannya" ke grafik tersebut.

Di kiri, sebuah grafik sel lintas 138 spesies, di kanan layar yang sama tergantung kode tepat yang menghasilkannya, beri anotasi satu kalimat agar agen cerdas dapat mengubah grafik. Setiap hasil dapat diulang, dapat dilacak ke kode. (Sumber: Blog Resmi Anthropic)
Dari pengajuan makalah hingga publikasi, seringkali terpaut lebih dari setengah tahun; beberapa bulan kemudian, ketika reviewer meminta Anda menjalankan ulang grafik tertentu, Anda dapat dengan mudah mereproduksi seluruh rantai input, proses, dan hasil di tempat.
Ingin mengubah grafik? Cukup berbicara — "hapus garis grid", "ganti sumbu vertikal ke logaritma", agen cerdas langsung mengubah kode yang ditulisnya sendiri.
Anda juga dapat memfork sesi di node mana pun, mencoba dua jalur pemikiran sekaligus, thread aslinya sama sekali tidak terganggu.
Sekali kata, penelitian untuk pertama kalinya diintegrasikan menjadi alur kerja yang dapat diaudit, kode, lingkungan, dan riwayat ditempatkan dalam satu loop tertutup.
Satu Agen Cerdas Menulis, Lainnya Khusus Mencari Kesalahan
Di balik Claude Science, bukan satu agen cerdas yang bekerja sendirian.
Yang Anda hadapi adalah agen koordinator yang dapat mengoordinasikan, memegang lebih dari 60 keterampilan dan konektor yang telah dikonfigurasi sebelumnya untuk genomik, sel tunggal, proteomik, biologi struktural, dan kimia informasi.
Ketika pekerjaan banyak, ia sendiri dapat menurunkan lebih banyak agen untuk pembagian kerja, juga dapat memanggil agen ahli yang Anda buat sendiri kapan saja.
Yang paling menarik adalah agen peninjau (reviewer agent).
Ia khusus memeriksa kutipan dan perhitungan, menemukan kutipan yang salah, angka yang tidak dapat dilacak asalnya, grafik yang tidak sesuai dengan kode, ditemukan lalu ditandai dan diperbaiki sendiri.
Dalam kasus di Allen Institute, tim menggunakan pasangan actor-critic, satu agen cerdas bertanggung jawab menulis, yang lain khusus menilai keakuratan dan kebenaran kutipannya.
Struktur ini sudah memiliki sedikit embrio "peer-review internal AI".
Tapi ada satu batasan yang harus dijelaskan, yaitu human-in-the-loop sepanjang proses.
Sebelum menggunakan sumber daya baru, ia akan meminta otorisasi terlebih dahulu, setiap keputusan dapat Anda tinjau ulang dan batalkan. Yang diotomatisasi adalah proses, bukan secara otomatis menggantikan Anda melakukan penemuan ilmiah.
Ia juga terhubung dengan NVIDIA BioNeMo Agent Toolkit, dapat terhubung secara native ke model ilmu kehidupan seperti Evo 2, Boltz-2, OpenFold3.
Model, data, pipeline yang Anda percayai di lab sendiri juga dapat disimpan sebagai keterampilan yang dapat digunakan kembali dan diikatkan di sini, sesi selanjutnya akan mewarisi secara otomatis.
Pertama Kali, Claude Science Mendarat di Ilmu Kehidupan
Tempat pendaratan pertama Claude Science dipilih di ilmu kehidupan.
Genomik, sel tunggal, proteomik, biologi struktural, kimia informasi, siap pakai.
Ia dapat membaca literatur, mengueri 60+ database ilmiah, UniProt, PDB, Ensembl, ClinVar, ChEMBL, GEO, database dengan spesifikasi berbeda-beda ini, Anda tidak perlu lagi belajar menggunakannya satu per satu.

Claude Science telah mengonfigurasi lingkungan sebelumnya untuk genomik, sel tunggal, proteomik, kimia informasi, didukung oleh 60+ database ilmiah. (Sumber: Blog Resmi Anthropic)
Manifold Bio bergerak dalam obat yang menargetkan jaringan.
Mereka menggunakan Claude Science untuk mencalonkan target eksperimen terbaru, untuk setiap jaringan dan target, mengevaluasi ekspresi permukaan, transportasi, dan keamanan satu per satu, lalu mengurutkan kandidat berdasarkan standar yang dipelajari perusahaan dari data mereka sendiri.
Manifold mengatakan, asisten pemrograman biasa tidak dapat melakukan ini, Claude Science dapat menyelesaikannya secara end-to-end, mengambil data yang benar, membuat penilaian yang tepat, dan membawa konteks proyek sebelumnya.
Ada contoh yang lebih tangguh.
Seorang profesor epidemiologi di UCSF Brain Tumor Center menggunakannya untuk studi epidemiologi molekuler glioma otak, menganalisis bagaimana ribuan varian germline berdampak kecil bertumpuk, membentuk kerentanan individu.
Menurut Anthropic, analisis germline ini, Claude Science menyelesaikannya dalam waktu sekitar 1/10 dari sebelumnya, timnya juga telah meninjau ulang hasil secara independen, mengonfirmasi cepat dan stabil.
Namun, skenario percepatan 10 kali lipat ini saat ini terbatas pada penulisan tinjauan pustaka, analisis genomik, dan otomatisasi pipeline tertentu, tidak sama dengan "percepatan 10 kali lipat secara keseluruhan dalam penelitian".
Sementara itu, ambang batas kredibilitas penelitian juga sedang didefinisikan ulang.
Dulu mengukur dapat dipercaya atau tidaknya suatu penelitian, dilihat dari peer review, dan apakah dapat direproduksi oleh orang lain.
Dan keterulangan, dalam jangka panjang merupakan titik sakit terbesar penelitian, kode hilang, lingkungan berubah, beberapa bulan kemudian bahkan penulis sendiri tidak dapat menjalankan grafik yang dihasilkan sebelumnya.
Setiap grafik Claude Science memiliki kode yang dapat dilacak, setiap hasil terhubung dengan lingkungan dan riwayatnya. Rintangan keterulangan ini, mungkin ia yang pertama melampauinya.
Satu Lintasan, Tiga Pemain
Di lintasan penelitian biologi, tiga raksasa teknologi bersaing, hanya dengan cara masing-masing berbeda.
Google bertaruh pada model eksklusif, OpenAI bertaruh pada kecerdasan penelitian model, Anthropic bertaruh pada alur kerja.
Google memegang model milik sendiri seperti AlphaFold, AlphaGenome yang tidak dimiliki orang lain, turun tangan langsung.
OpenAI menempuh jalur lain.
April tahun ini mereka meluncurkan GPT-Rosalind, model mutakhir yang dibangun khusus untuk penalaran biologi dan penemuan obat.
Sekarang melangkah lebih jauh, mulai melatih "daya pertimbangan penelitian" model.
Baru-baru ini mereka meluncurkan GeneBench-Pro, khusus menguji kemampuan model membuat penilaian seperti ahli biologi komputasi: 129 soal, membentang dari genomik, genetika populasi hingga diagnosis klinis, khusus menguji intuisi "apakah data mendukung masalah ini", "langkah mana yang harus diulang kembali".

GPT-5.6 Sol terkuat mendapatkan 28.7%, mode Pro 31.5%; GPT-5 beberapa generasi sebelumnya kurang dari 5%.
OpenAI sendiri mengatakan, dengan kecepatan ini, akhir tahun mungkin sudah dapat dipecahkan.
Tetapi model yang sekuat apa pun hanya dapat memecahkan kurang dari sepertiga. Dan bagian yang tidak dapat dipecahkan itu, justru merupakan posisi ilmuwan manusia.
Kelemahan AI yang terekspos oleh GeneBench-Pro juga jelas:
Model dapat memulai, tetapi tidak dapat menyelesaikan bagian terakhir, misalnya apakah harus membuang sekumpulan data anomali, bagaimana mengubah jalan setelah hipotesis dibatalkan, penilaian seperti ini masih harus diputuskan oleh ilmuwan sendiri.
Claude Science juga tidak menghindari hal ini, solusi diserahkan untuk ditinjau manusia, setiap keputusan diserahkan untuk dibatalkan manusia, yang diotomatisasi adalah proses, hak keputusan tidak diserahkan ke model, manusia tetap berada dalam loop.
Bagi ilmuwan seperti Lecoq, apakah sebuah tinjauan pustaka dapat direproduksi, apakah masih dapat dipertahankan beberapa bulan kemudian, jauh lebih penting daripada tambahan beberapa persen dalam peringkat.
Taruhan Claude Science justru membuat penelitian AI benar-benar terjun ke rutinitas sehari-hari laboratorium.
Referensi:
https://www.anthropic.com/news/claude-science-ai-workbench
https://openai.com/index/introducing-genebench-pro/
Artikel ini dari akun WeChat "Xin Zhi Yuan", penulis: ASI Apokalips





