Data Anthropic: Hampir Setengah Panggilan AI Agent Terfokus pada Teknik Perangkat Lunak, 16 Area Vertikal Ini Masih Menjadi Lautan Biru

marsbitDipublikasikan tanggal 2026-02-24Terakhir diperbarui pada 2026-02-24

Abstrak

Studi terbaru dari Anthropic mengungkapkan bahwa hampir 50% panggilan alat AI Agent terkonsentrasi pada rekayasa perangkat lunak, sementara 16 bidang vertikal lainnya—seperti kesehatan, hukum, keuangan, dan pendidikan—masih sangat sedikit tersentuh, masing-masing di bawah 5%. Ini menunjukkan peluang besar untuk menciptakan sekitar 300 unicorn AI vertikal di masa depan. Temuan kunci lainnya adalah kesenjangan antara kemampuan AI dan kepercayaan pengguna: meskipun model seperti Claude Code dapat menyelesaikan tugas selama hampir 5 jam, pengguna rata-rata hanya menggunakannya sekitar 42 menit. Hal ini mencerminkan "defisit kepercayaan" yang justru menjadi peluang produk berikutnya. Pengguna berpengalaman cenderung lebih banyak melakukan intervensi daripada pengguna baru, menunjukkan pergeseran strategi dari persetujuan bertahap ke pengawasan aktif. Selain itu, AI Agent sering kali berhenti untuk meminta klarifikasi dalam tugas kompleks, yang merupakan fitur keamanan penting. Pendiri Box, Aaron Levie, menekankan pentingnya membangun AI yang mengintegrasikan data proprietary, konteks domain spesifik, dan kemampuan manajemen perubahan di sisi klien. Sektor-sektor seperti kesehatan, hukum, dan pendidikan disebut sebagai lahan subur untuk inovasi, dengan potensi yang jauh lebih besar daripada SaaS tradisional.

Penulis: Garry's List

Kompilasi: Deep Tide TechFlow

Panduan Deep Tide: Anthropic baru saja merilis penelitian penggunaan nyata AI Agent yang paling komprehensif hingga saat ini, dengan data inti: teknik perangkat lunak menyumbang hampir 50% volume panggilan alat Agent, sementara 16 area vertikal seperti kesehatan, hukum, pendidikan, dll. jika digabungkan masih kurang dari setengah sisanya, dengan masing-masing area memiliki porsi di bawah 5%.

Ini bukan sinyal pasar yang jenuh, melainkan peta 300 unicorn AI vertikal—yang lebih berharga adalah temuan kontra-intuitif yang dikutip dalam artikel: model sudah dapat bekerja mandiri hampir 5 jam, tetapi pengguna sebenarnya hanya mengizinkannya bekerja 42 menit, "defisit kepercayaan" ini sendiri adalah peluang produk berikutnya.

Teks lengkap sebagai berikut:

Teknik perangkat lunak menyumbang hampir 50% dari semua panggilan alat AI Agent. Area vertikal seperti kesehatan, hukum, keuangan, dan 16 area lainnya hampir belum tersentuh, masing-masing di bawah 5%. Ini berarti ada 300 unicorn AI vertikal yang menunggu untuk dibangun.

Jika saya memulai bisnis hari ini, saya akan menatap area merah pada grafik batang di atas sampai saya melihat masa depan saya.

Pendiri Box, Aaron Levie, mengatakan:

Grafik ini adalah pengingat yang baik tentang seberapa besar peluang di bidang AI Agent saat ini.

Tentu akan ada banyak peluang Agent di tingkat horizontal, tetapi juga banyak alur kerja yang membutuhkan keahlian domain yang mendalam untuk benar-benar membantu pengguna mengotomatisasi proses unik di area vertikal mereka.

Template-nya adalah: membangun perangkat lunak Agent yang mengakses data proprietary, untuk secara efektif menghubungkan pengguna dengan kolaborasi Agent dalam menangani alur kerja, sambil memiliki kemampuan rekayasa konteks khusus domain yang mendalam, serta kemampuan mendorong manajemen perubahan di sisi klien.

Saat ini masih banyak area yang memiliki celah besar.

Teknik perangkat lunak mendominasi setengah dari semua aktivitas AI Agent. Setengah lainnya tersebar di 16 area vertikal, tidak ada yang melebihi 9%. Kesehatan 1%, hukum 0.9%, pendidikan 1.8%. Ini bukan pasar yang jenuh, melainkan pasar yang hampir belum ada.

Anthropic baru saja merilis penelitian penggunaan nyata AI Agent yang paling komprehensif hingga saat ini. Temuan intinya adalah: teknik perangkat lunak menyumbang 49.7% volume panggilan alat Agent di API mereka. Kesimpulan inti yang tersembunyi di belakangnya adalah: segala hal lainnya adalah lautan biru.

Keterlambatan Deployment

Ada satu data yang seharusnya membuat pendiri bisnis bersemangat: kemampuan model sudah jauh melampaui batas yang ingin dipercayai pengguna.

Evaluasi kemampuan METR menunjukkan bahwa Claude dapat menyelesaikan tugas yang membutuhkan waktu hampir lima jam bagi manusia. Namun dalam penggunaan aktual, durasi sesi pada persentil ke-99.9 hanya sekitar 42 menit. Kesenjangan ini—apa yang dapat dilakukan AI versus apa yang kita izinkan—adalah peluang besar.

Gambar: Durasi pelatihan terpanjang Claude Code hampir dua kali lipat dalam tiga bulan. Ini tidak hanya meningkatkan kemampuan, tetapi juga meningkatkan kepercayaan.

Sumber:x.com

Dari Oktober 2025 hingga Januari 2026, durasi sesi tunggal pada persentil ke-99.9 hampir dua kali lipat, dari kurang dari 25 menit menjadi lebih dari 45 menit. Pertumbuhan stabil di berbagai versi model. Ini bukan hanya model yang lebih kuat, tetapi pengguna belajar melalui penggunaan berulang, secara bertahap memperluas kepercayaan pada Agent.

"Dari Agustus hingga Desember, tingkat keberhasilan Claude Code pada tugas paling menantang pengguna internal dua kali lipat, sementara intervensi manusia per sesi berkurang dari 5.4 kali menjadi 3.3 kali."

Kemampuan sudah ada, deployment belum mengikuti. Ini bukan masalah, melainkan peluang produk.

Bagaimana Kepercayaan Berevolusi

20% pengguna baru secara otomatis menyetujui operasi Claude Code. Pada 750 sesi, lebih dari 40% sesi berjalan dalam mode persetujuan otomatis penuh. Namun ada temuan kontra-intuitif: pengguna berpengalaman justru lebih banyak melakukan intervensi, bukan lebih sedikit. Pengguna baru melakukan intervensi pada 5% putaran, pengguna lama 9%.

Gambar: Kepercayaan adalah keterampilan yang terus terakumulasi. Pengguna baru secara otomatis menyetujui 20% sesi. Pada 750 sesi, proporsi ini melebihi 40%.

Gambar: Anthropic

Sumber: x.com

Ini tidak kontradiktif, melainkan perubahan strategi pengawasan. Pemula menyetujui langkah demi langkah sebelum operasi terjadi, pengguna lama memberikan otorisasi terlebih dahulu, lalu turun tangan jika ada masalah—mereka telah beralih dari persetujuan sebelumnya ke pemantauan aktif.

Berikut adalah temuan yang perlu diperhatikan di tingkat keamanan: pada tugas kompleks, Claude Code meminta klarifikasi lebih dari dua kali frekuensi intervensi manusia aktif. Agent akan berhenti untuk mengonfirmasi, bukan meneruskan tanpa henti. Ini adalah fitur, bukan cacat.

"Inti dari penelitian ini adalah: otonomi yang dijalankan Agent dalam praktik, dibangun bersama oleh model, pengguna, dan produk. Claude akan berhenti dan bertanya ketika tidak yakin, sehingga membatasi independensinya. Pengguna membangun kepercayaan dalam berkolaborasi dengan model, dan menyesuaikan strategi pengawasan mereka sesuai."

Pendekatan AI Vertikal Levie

Aaron Levie menunjuk pada kekayaan dan nilai besar yang menunggu untuk dibuka: membangun perangkat lunak Agent yang mengakses data proprietary, membuatnya benar-benar menyelesaikan orang dan masalah nyata, mengisi konteks hingga penuh untuk memaksimalkan output cerdas, dan—ini bagian yang diabaikan kebanyakan pendiri—mendorong manajemen perubahan di sisi klien.

Poin terakhir inilah yang membuat AI vertikal sangat sulit untuk direplikasi. Siapa pun dapat membuat pembungkus API, tetapi sedikit yang dapat benar-benar menavigasi alur kerja khusus, kendala regulasi, dan resistensi organisasi dalam penagihan medis, penemuan hukum, atau persetujuan izin bangunan.

SaaS telah tumbuh sepuluh kali lipat setiap dekade dalam beberapa dekade terakhir. Lebih dari 40% modal ventura dalam 20 tahun terakhir mengalir ke perusahaan SaaS. Industri ini melahirkan lebih dari 170 unicorn SaaS. Logikanya sederhana: setiap unicorn ini memiliki versi AI vertikal yang menunggu untuk muncul. Dan versi AI mungkin sepuluh kali lebih besar, karena menggantikan bukan hanya perangkat lunak, tetapi juga operator.

Esensi Pembangunan Bersama

Temuan inti Anthropic patut diperhatikan serius oleh siapa pun yang terlibat dalam pembuatan kebijakan AI. Otonomi bukan atribut bawaan model, tetapi dibangun bersama oleh model, pengguna, dan produk. Evaluasi sebelum deployment tidak dapat menangkap ini, Anda harus mengukurnya dalam penggunaan nyata.

Anthropic secara resmi menyatakan:

Teknik perangkat lunak menyumbang sekitar 50% panggilan alat Agent di API kami, tetapi kami juga melihat area lain yang muncul. Seiring batas risiko dan otonomi terus berkembang, pemantauan pasca-deployment menjadi sangat penting. Kami mendorong pengembang model lain untuk memperluas penelitian ini.

Angka di tingkat keamanan meyakinkan: 73% panggilan alat melibatkan manusia dalam loop, hanya 0.8% operasi yang tidak dapat dibatalkan. Skenario deployment berisiko tinggi—seperti kebocoran kunci API atau perdagangan kripto otonom—sebagian besar adalah penilaian keamanan, bukan lingkungan produksi nyata.

"Persyaratan peraturan yang menentukan mode interaksi spesifik—misalnya mewajibkan persetujuan manusia untuk setiap operasi—hanya akan menciptakan gesekan, tidak selalu membawa keuntungan keamanan."

Kebijakan yang memaksa "menyetujui setiap operasi" akan membunuh keuntungan produktivitas, tanpa menambah keamanan. Target yang lebih baik adalah memastikan manusia dapat memantau dan turun tangan, bukan menentukan alur kerja persetujuan spesifik.

Di Mana Unicorn Bersembunyi

Peta sudah digambar. Teknik perangkat lunak sudah ada yang mengerjakan. Kesehatan, hukum, keuangan, pendidikan, layanan pelanggan, logistik—16 area vertikal, masing-masing dengan pangsa pasar satu digit—semuanya menunggu seseorang untuk benar-benar menyematkan keahlian domain ke dalam Agent.

Sebelumnya melahirkan 300 unicorn SaaS, 300 unicorn AI vertikal berikutnya akan segera muncul. Pendiri yang memilih area vertikal, menyematkan keahlian domain ke dalam Agent, dan mencari tahu cara menggerakkan manajemen perubahan, akan memiliki pasar perangkat lunak perusahaan dekade berikutnya.

Model sudah dapat bekerja lima jam, pengguna hanya mengizinkannya bekerja 42 menit. Inilah sinyalnya: kita masih berada di tahap sangat awal, masih banyak hal yang dapat dibangun, dan di banyak tempat yang bahkan belum melihat satu menit pun kecerdasan berperan.

Pertanyaan Terkait

QMenurut data Anthropic, bidang apa yang mendominasi panggilan alat AI Agent?

ARekayasa perangkat lunak (software engineering) mendominasi hampir 50% dari semua panggilan alat AI Agent.

QBerapa lama Claude dapat bekerja secara mandiri menurut evaluasi METR, dan berapa lama pengguna sebenarnya menggunakannya?

AMenurut evaluasi METR, Claude dapat menyelesaikan tugas yang membutuhkan manusia hampir lima jam, tetapi dalam penggunaan aktual, sesi pada persentil ke-99.9 hanya berlangsung sekitar 42 menit.

QApa yang dimaksud dengan 'defisit kepercayaan' dalam konteks AI Agent menurut artikel?

A'Defisit kepercayaan' mengacu pada kesenjangan antara apa yang AI mampu lakukan dan apa yang pengguna bersedia mempercayainya untuk dilakukan, yang merupakan peluang produk besar.

QBidang vertikal apa saja yang disebutkan sebagai peluang yang belum terjamah dalam artikel?

ABidang vertikal yang disebutkan sebagai peluang yang belum terjamah termasuk kesehatan (1%), hukum (0.9%), pendidikan (1.8%), keuangan, layanan pelanggan, dan logistik, dengan masing-masing di bawah 5%.

QBagaimana pola pengawasan pengguna berpengalaman terhadap AI Agent dibandingkan dengan pengguna baru?

APengguna berpengalaman cenderung lebih banyak melakukan intervensi (9% putaran) dibandingkan pengguna baru (5%), karena mereka beralih dari persetujuan langkah-demi-langkah ke pemantauan proaktif.

Bacaan Terkait

Tinjauan Berita Minggu Ini | AS Rilis Data CPI April; Komite Perbankan Senat AS Tinjau "Undang-Undang Kejelasan Pasar Aset Digital 2025"

**Pratinjau Berita Pekan Ini (12-16 Mei)** **Poin Utama:** * **12 Mei (Selasa):** Amerika Serikat merilis data CPI bulan April. **Ronin** akan bermigrasi ke Ethereum Layer 2, menyebabkan jaringan utama mati sekitar 10 jam. * **13 Mei (Rabu):** **Base** berencana meluncurkan peningkatan jaringan independen pertamanya, "Base Azul", ke mainnet. * **14 Mei (Kamis):** Komite Perbankan Senat AS akan membahas RUU **"Digital Asset Market Structure Act of 2025"**. **Carrot** (protokol DeFi di Solana) menutup layanan, batas akhir penarikan dana. **Bursa Moskow** meluncurkan perdagangan berjangka untuk indeks Solana, Ripple, dan Tron. * **15 Mei (Jumat):** **Dmail Network** mulai menghentikan semua layanan secara bertahap. **UX Chain** (blockchain pinjaman di Cosmos) akan sepenuhnya berhenti beroperasi. * **16 Mei (Sabtu):** **Lattice** (infrastruktur game blockchain) menutup bisnis, jaringan Layer 2-nya **Redstone** berhenti beroperasi. **Rincian Singkat:** * **Ronin:** Migrasi ke L2 Ethereum berbasis OP Stack, menggunakan EigenDA. Setelah migrasi, inflasi tahunan RON turun drastis di bawah 1%. * **Base Azul:** Peningkatan pertama independen dari OP Stack, fokus pada keamanan, kinerja, dan pengalaman pengembang. * **RUU Kripto AS:** Pembahasan di Komite Perbankan Senat merupakan langkah penting menuju pengesahan undang-undang yang mengatur pasar aset digital. * **Penutupan Layanan (Carrot, Dmail, UX Chain, Lattice):** Disebabkan oleh berbagai faktor seperti dampak exploit keuangan, biaya operasional tinggi, model bisnis tidak berkelanjutan, dan kurangnya adopsi/pendanaan. Pengguna didorong untuk menarik dana atau data mereka sebelum batas waktu yang ditentukan.

链捕手48m yang lalu

Tinjauan Berita Minggu Ini | AS Rilis Data CPI April; Komite Perbankan Senat AS Tinjau "Undang-Undang Kejelasan Pasar Aset Digital 2025"

链捕手48m yang lalu

Laporan Mingguan ETF Kripto | Inflow Bersih ETF Spot Bitcoin AS Senilai $631 Juta Pekan Lalu; Inflow Bersih ETF Spot Ethereum AS Senilai $70.3 Juta

Laporan Mingguan ETF Kripto: Aliran Bersih ETF Spot Bitcoin AS Mencapai $631 Juta, ETF Spot Ethereum AS $70,3 Juta. Minggu lalu, ETF spot Bitcoin AS mengalami aliran bersih masuk selama tiga hari, dengan total $631 juta, menjadikan total aset bersihnya $106,6 miliar. Aliran utama berasal dari iShares Bitcoin Trust (IBIT) BlackRock, yang menyumbang $596 juta. Sementara itu, ETF spot Ethereum AS mencatat aliran bersih masuk selama empat hari sebesar $70,3 juta, dengan aset bersih mencapai $13,73 miliar. Aliran utama untuk Ethereum berasal dari iShares Ethereum Trust (ETHA) BlackRock sebesar $100 juta. Di Hong Kong, ETF spot Bitcoin mengalami aliran bersih masuk sebesar 15,57 BTC, dengan aset bersih $320 juta. Namun, ETF spot Ethereum Hong Kong tidak mencatat aliran dana masuk, dengan aset bersih tetap di $68,49 juta. Dalam hal opsi, hingga 8 Mei, volume perdagangan nominal opsi untuk ETF spot Bitcoin AS mencapai $976 juta dengan rasio long/short 2,90, menunjukkan sentimen pasar cenderung optimis. Volatilitas tersirat adalah 41,81%. Beberapa perkembangan lain termasuk laporan yang menunjukkan dominasi Coinbase dan Kraken dalam referensi AI sektor kripto AS, serta penundaan oleh SEC AS dalam meninjau aplikasi ETF pasar prediksi pertama yang terkait dengan peristiwa dunia nyata seperti hasil pemilu.

链捕手49m yang lalu

Laporan Mingguan ETF Kripto | Inflow Bersih ETF Spot Bitcoin AS Senilai $631 Juta Pekan Lalu; Inflow Bersih ETF Spot Ethereum AS Senilai $70.3 Juta

链捕手49m yang lalu

Berita Pagi | Trump Media Group Rilis Laporan Keuangan Q1; Tiga Aplikasi DeFi Mengembalikan Hampir $100 Juta Pendapatan kepada Pemegang Token dalam 30 Hari; Michael Saylor Kembali Posting Informasi Bitcoin Tracker

**Berita Utama:** * **Grup Media Trump** melaporkan kerugian belum terealisasi sekitar $400 juta dari investasi aset kripto seperti Bitcoin dalam laporan keuangan Q1-nya. * Tiga aplikasi DeFi utama (**Hyperliquid, Pump.fun, EdgeX**) mengembalikan hampir $100 juta pendapatan kepada pemegang token dalam 30 hari terakhir, menandakan pergeseran fokus ke ekonomi riil di sektor ini. * **Michael Saylor** dari MicroStrategy kembali memposting informasi "Bitcoin Tracker", mengisyaratkan kemungkinan pengungkapan pembelian Bitcoin lebih lanjut oleh perusahaan minggu depan. **Perkembangan Kebijakan & Regulasi:** * **Bank of England** memperingatkan bahwa regulasi stablecoin AS berpotensi memicu persaingan dengan regulator internasional. * **Layanan Pajak Korea Selatan** untuk pertama kalinya menguji pilot penyerahan aset virtual yang disita kepada penyedia penitipan pihak ketiga. **Analisis Pasar & Lainnya:** * **Goldman Sachs** menunda prediksi pemotongan suku bunga Fed hingga Desember 2026, menyoroti tekanan inflasi yang berkelanjutan. Hal ini dapat mengurangi likuiditas yang mengalir ke aset berisiko seperti kripto. * **Polymarket**, platform prediksi, mengumumkan pembaruan untuk mengatasi masalah teknis dan telah menutup beberapa kluster akun yang terlibat dalam aktivitas perdagangan "ghost-fill". * Tren meme coin tetap aktif, dengan daftar teratas yang didominasi oleh token seperti **HEX, SHIB, PEPE (di ETH), FWOG, TROLL (di Solana), dan SKITTEN, PEPE (di Base)**.

链捕手1j yang lalu

Berita Pagi | Trump Media Group Rilis Laporan Keuangan Q1; Tiga Aplikasi DeFi Mengembalikan Hampir $100 Juta Pendapatan kepada Pemegang Token dalam 30 Hari; Michael Saylor Kembali Posting Informasi Bitcoin Tracker

链捕手1j yang lalu

Telegram Secara Langsung Mengambil Kendali TON, Alur Cerita Blockchain Publik Ditulis Ulang oleh Arus Sosial

Pada 4 Mei, pendiri Telegram Pavel Durov mengumumkan bahwa biaya transaksi di jaringan TON telah turun drastis, mendekati nol. Lebih penting lagi, Telegram kini akan mengambil alih peran utama dari TON Foundation, menjadi penggerak inti dan validator terbesar di jaringan TON. Fokus ke depan adalah peningkatan teknis seperti alat baru untuk pengembang dan peningkatan kinerja dalam 2-3 minggu mendatang. Perubahan ini menandai pergeseran signifikan. Sebelumnya, Telegram lebih berperan sebagai pintu masuk, sementara komunitas mengembangkan ekosistem. Kini, Telegram terlibat langsung di lapisan infrastruktur. Tantangan utama TON bukan lagi sekadar mengakses pengguna Telegram yang banyak, tetapi mengubah akses tersebut menjadi skenario penggunaan berkelanjutan di dalam aplikasi, seperti pembayaran kecil, hadiah, dan monetisasi kreator. Penurunan biaya dan percepatan konfirmasi transaksi (menjadi 0,6 detik) sangat penting untuk mendukung transaksi kecil dan frekuensi tinggi yang khas di Telegram. Tujuannya adalah membuat interaksi blockchain menjadi hampir tak terasa oleh pengguna. Durov juga menyoroti imbalan staking TON yang tinggi (18.8% per tahun), tertinggi di antara 50 kripto teratas, yang bertujuan mempertahankan likuiditas dalam ekosistem. Namun, langkah Telegram menjadi validator terbesar juga memunculkan pertanyaan tentang sentralisasi, yang menurut Durov justru akan menarik lebih banyak validator besar dan meningkatkan desentralisasi. Kesimpulannya, TON kini memasuki fase yang lebih menantang: tidak hanya memanfaatkan aliran pengguna Telegram, tetapi menjadi infrastruktur yang mulus tertanam dalam pengalaman penggunaan sehari-hari di Telegram. Kesuksesannya akan diukur oleh kemampuannya mengubah potensi aliran sosial menjadi aktivitas on-chain yang berkelanjutan, di mana blockchain beroperasi di balik layar tanpa disadari pengguna.

Odaily星球日报1j yang lalu

Telegram Secara Langsung Mengambil Kendali TON, Alur Cerita Blockchain Publik Ditulis Ulang oleh Arus Sosial

Odaily星球日报1j yang lalu

Trading

Spot
Futures
活动图片