Siapa yang Paling Mahir Menggunakan Claude Code? Jawabannya Mungkin Bukan Programmer

marsbitDipublikasikan tanggal 2026-06-20Terakhir diperbarui pada 2026-06-20

Abstrak

Laporan ini menganalisis sekitar 400.000 sesi Claude Code dari Oktober 2025 hingga April 2026, mengungkap pola penggunaan alat pemrograman AI ini. Inti temuan menunjukkan adanya pembagian kerja yang jelas: manusia (pengguna) bertanggung jawab atas sekitar 70% keputusan perencanaan (apa yang harus dikerjakan), sementara Claude menangani sekitar 80% keputusan eksekusi (bagaimana cara mengerjakannya). Artinya, AI mengambil alih tugas implementasi teknis seperti menulis kode, menjalankan perintah, dan debugging, namun tujuan dan penilaian hasil tetap bergantung pada manusia. Yang mengejutkan, keberhasilan menggunakan Claude Code tidak hanya bergantung pada latar belakang pemrograman. Pengguna dari profesi non-teknis seperti hukum, keuangan, manajemen, dan penelitian menunjukkan tingkat keberhasilan yang mendekati insinyur perangkat lunak dalam tugas yang menghasilkan kode. Faktor kunci keberhasilan justru adalah keahlian domain pengguna—pemahaman mendalam tentang masalah yang ingin dipecahkan. Pengguna yang dinilai sebagai "ahli" dalam suatu sesi memiliki tingkat keberhasilan terverifikasi dua kali lipat lebih tinggi daripada pengguna "pemula", dan mereka dapat memandu Claude untuk melakukan lebih banyak pekerjaan per instruksi. Selama periode tujuh bulan, penggunaan Claude Code bergeser dari sekadar memperbaiki kode (debugging) ke tugas yang lebih kompleks dan bernilai tinggi seperti pengoperasian perangkat lunak, analisis data, dan penulisan dokumen. Nilai tugas rata-rata yan...

Editor's Note: Laporan ini didasarkan pada analisis sekitar 400.000 sesi Claude Code, membahas bagaimana alat pemrograman AI mengubah hubungan antara manusia dan kode.

Temuan inti artikel adalah: Dalam pemrograman agen, manusia terutama memutuskan "apa yang harus dilakukan", sedangkan Claude bertanggung jawab atas "bagaimana melakukannya". Pengguna menanggung sebagian besar keputusan perencanaan, sementara Claude menanggung sebagian besar pekerjaan pelaksanaan. Dengan kata lain, AI sedang mengambil alih tahapan implementasi seperti menulis kode, mengubah file, menjalankan perintah, debugging, tetapi penetapan tujuan dan penilaian hasil masih bergantung pada manusia.

Yang lebih penting, efektivitas penggunaan Claude Code tidak hanya bergantung pada apakah pengguna adalah seorang programmer. Laporan menunjukkan bahwa dalam tugas-tugas yang menghasilkan kode, tingkat keberhasilan pengguna dari profesi non-teknis seperti hukum, keuangan, manajemen, dan penelitian ilmiah sudah mendekati tingkat keberhasilan insinyur perangkat lunak. Yang benar-benar memengaruhi hasil adalah apakah pengguna memahami masalah yang ingin diselesaikan.

Ini berarti, pemrograman AI menurunkan hambatan implementasi, bukan hambatan penilaian. Di masa depan, orang yang memahami bisnis, memahami konteks, dan dapat mengajukan kebutuhan serta menilai hasil dengan jelas, mungkin akan lebih mampu menggunakan AI dengan baik dibandingkan orang yang hanya pandai menulis kode. AI tidak akan secara otomatis menggantikan pengetahuan domain, justru akan memperbesar nilai pengetahuan domain.

Berikut adalah teks aslinya:

Temuan Kunci

Berdasarkan penelitian sebelumnya, kami mengusulkan sebuah kerangka kerja untuk mempelajari pemrograman agen interaktif. Kerangka kerja ini didasarkan pada analisis perlindungan privasi terhadap sekitar 400.000 sesi Claude Code dari Oktober 2025 hingga April 2026, mengevaluasi komposisi tugas, cara kolaborasi manusia dengan AI, serta tingkat keberhasilan tugas.

Dalam satu sesi khas, manusia bertanggung jawab atas sebagian besar keputusan perencanaan, yaitu memutuskan "apa yang harus dilakukan"; Claude bertanggung jawab atas sebagian besar keputusan eksekusi, yaitu memutuskan "bagaimana menyelesaikannya". Semakin kuat keahlian domain pengguna di suatu bidang, semakin besar volume pekerjaan yang diselesaikan Claude per instruksi yang dipicu. Dalam tugas pengkodean, tingkat keberhasilan rata-rata di antara kelompok-kelompok profesi utama—yaitu apakah menyelesaikan apa yang semula ingin dilakukan pengguna, dan memiliki bukti yang dapat diverifikasi seperti pengujian yang lolos, pengiriman kode—hampir setara dengan insinyur perangkat lunak.

Semakin kuat kemampuan keahlian domain pengguna, semakin besar kemungkinan sesi berakhir dengan sukses. Namun, jarak antara pengguna tingkat menengah dan ahli tidak terlalu besar. Selama tujuh bulan yang kami amati, proporsi sesi yang digunakan untuk debugging turun hampir setengahnya, dan pola penggunaan bergeser ke penggunaan agen yang lebih end-to-end: menerapkan dan menjalankan kode, menganalisis data, serta menulis dokumen non-kode.

Selama tujuh bulan ini, nilai tugas khas meningkat di hampir semua jenis pekerjaan. Kami memperkirakan nilai tugas dengan membandingkannya dengan informasi posting pekerjaan lepas, dan hasilnya menunjukkan peningkatan rata-rata sekitar 25%.

Pendahuluan

Pemrograman agen sedang berkembang pesat. Sejak akhir 2025, proporsi aktivitas agen pengkodean di proyek GitHub telah meningkat lebih dari dua kali lipat, dan pengguna Claude Code sekarang rata-rata menggunakan alat tersebut 20 jam per minggu. Bisakah orang tanpa pengalaman pemrograman formal berhasil memerintahkan sebuah agen untuk menyelesaikan pekerjaan teknis yang kompleks? Bagaimana adopsi cepat dan peningkatan kemampuan alat-alat ini akan memengaruhi kerja pengetahuan yang lebih luas? Saat ini kami belum dapat memberikan jawaban lengkap, tetapi kami dapat melihat beberapa sinyal awal dari data penggunaan Claude Code.

Laporan ini, berdasarkan analisis perlindungan privasi terhadap sekitar 400.000 sesi interaktif yang melibatkan sekitar 235.000 pengguna dari Oktober 2025 hingga April 2026, memberikan bukti tentang cara aktual penggunaan Claude Code. Ini merupakan kelanjutan dari penelitian kami sebelumnya tentang metrik otonomi dalam sesi Claude Code, serta bagaimana Claude Code mengubah pekerjaan internal di Anthropic. Artikel ini akan mengusulkan kerangka kerja untuk menggambarkan penggunaan asisten pemrograman AI interaktif: pekerjaan apa yang dilakukan orang, siapa yang melakukan pekerjaan itu, dan apakah pekerjaan itu berhasil. Fokus kami adalah pada penggunaan Claude Code melalui antarmuka baris perintah (CLI), Claude.ai, atau aplikasi desktop Claude Code. Dengan melacak bagaimana cara penggunaan pemrograman agen berubah seiring peningkatan kemampuan model, kami dapat lebih memahami dampak alat-alat ini terhadap para profesional pemrograman dan pasar tenaga kerja pekerja pengetahuan.

Apa yang terjadi di Claude Code mungkin menandakan arah masa depan pekerjaan pengetahuan: agen akan secara bertahap tertanam dalam pekerjaan non-pengkodean. Kami menemukan bahwa Claude sedang menangani tugas-tugas yang lebih kompleks dan bernilai lebih tinggi. Pada saat yang sama, masih ada pembagian kerja yang jelas dalam pemrograman agen: manusia memutuskan apa yang akan dibangun, agen memutuskan bagaimana membangunnya.

Kami juga melihat bukti bahwa yang benar-benar memperbesar efektivitas alat adalah keahlian domain, bukan kemahiran pemrograman. Khususnya, ahli domain lebih mudah berhasil, dan lebih mudah pulih dari kesalahan dan kesalahpahaman. Namun, jarak antara ahli dan pengguna menengah tidak terlalu besar. Ini menunjukkan bahwa cukup memiliki kemahiran yang memadai di suatu domain untuk hampir sama efektifnya menggunakan alat semacam ini seperti ahli yang mendalam.

Temuan-temuan ini memungkinkan kami untuk melakukan pengamatan awal terhadap kemungkinan pergeseran pasar tenaga kerja. Dalam data kami, keberhasilan bergantung pada apakah seseorang memahami masalah yang ingin dipecahkan, bukan pada apakah ia pernah dilatih pemrograman. Jika pola-pola ini terbukti di seluruh sistem ekonomi, maka hal ini menunjukkan bahwa alat pemrograman agen mungkin sedang menyerap sebagian pekerjaan yang bersifat implementasi, tetapi pada saat yang sama juga memberikan penghargaan kepada mereka yang benar-benar memahami masalah yang dipecahkan dalam pekerjaan mereka. Agen pengkodean tidak sedang menggantikan keahlian domain. Sebaliknya, semakin banyak pemahaman yang dibawa seorang pekerja ke agen, semakin banyak pekerjaan berkualitas tinggi yang dapat diselesaikan agen tersebut.

Pembagian Kerja

Apa yang Dilakukan Orang dengan Claude Code

Untuk memahami bagaimana orang menggunakan Claude Code, kami mengategorikan setiap sesi ke dalam salah satu dari sembilan mode kerja, yaitu satu aktivitas tunggal yang paling menggambarkan tujuan sesi tersebut. Empat mode di antaranya secara langsung melibatkan penulisan atau pemeliharaan kode: membangun sesuatu yang baru, memperbaiki sesuatu yang rusak, menguji kode, dan mengatur agen lain atau alur otomatisasi. Kategori lain adalah mengoperasikan perangkat lunak, termasuk penerapan, konfigurasi, menjalankan alur kerja, dan memantau sistem. Dua kategori lainnya lebih condong pada mencari tahu "apa yang harus dilakukan": memahami bagaimana sistem yang ada beroperasi, serta merencanakan perubahan sebelum melakukan modifikasi. Dua kategori terakhir tidak terkait dengan kode, atau kode hanya merupakan bagian pendukung dalam produk akhir: menganalisis data, serta berkomunikasi melalui presentasi dan dokumen berbasis teks lainnya.

Sekitar 56% sesi terdiri dari menulis kode (25%), memperbaiki kode (26%), atau menguji dan mengatur kode (5%). Mengoperasikan perangkat lunak menyumbang 17%, perencanaan atau eksplorasi 14%, analisis atau penulisan teks 13% (lihat Gambar 1).

Pertama-tama kami meminta model membaca catatan sesi dan mengklasifikasikan setiap sesi berdasarkan itu; kemudian kami menggunakan alat analisis perlindungan privasi kami untuk memvalidasi silang hasil klasifikasi dengan data telemetri yang direkam secara otomatis untuk setiap sesi, termasuk apakah ada baris kode yang baru ditambahkan atau dihapus. Ada konsistensi tinggi antara kedua sumber tersebut. Misalnya, dalam sesi yang ditandai oleh pengklasifikasi kami sebagai membuat atau memodifikasi kode, lebih dari 90% juga menunjukkan perubahan kode dalam data telemetri. Detailnya lihat Lampiran.

Siapa yang Mengambil Keputusan

Seberapa otonomkah Claude Code? Penilaian kemampuan menunjukkan bahwa batas atasnya sudah tinggi, dan masih meningkat. Misalnya, dalam pengujian patokan seperti evaluasi rentang waktu METR, model mutakhir sekarang dapat secara otonom menyelesaikan tugas perangkat lunak yang sebelumnya membutuhkan waktu berjam-jam bagi manusia, dan mengatasi hambatan sendiri dalam prosesnya. Namun dalam penggunaan nyata, bagaimana sebenarnya keadaannya? Di sini, kami memfokuskan pada seberapa banyak pekerjaan pengarahan yang dilakukan manusia dan Claude masing-masing dalam sesi nyata.

Kami meneliti masalah ini dari dua sudut pandang. Pertama, kami memperhatikan sejauh mana orang menyerahkan keputusan kepada Claude; kedua, kami mengamati seberapa banyak tindakan yang mereka delegasikan kepada Claude. Untuk memahami pembagian keputusan dalam suatu sesi, kami membangun pengklasifikasi atribusi keputusan yang melindungi privasi berdasarkan konten sesi. Kami meminta pengklasifikasi untuk membuat daftar semua keputusan yang bermakna dalam sesi, dan membagi keputusan-keputusan ini menjadi keputusan perencanaan dan keputusan eksekusi. Keputusan perencanaan mencakup apa yang harus dilakukan, metode mana yang akan digunakan, apa yang dianggap selesai; keputusan eksekusi mencakup file mana yang akan dimodifikasi, kode apa yang akan ditulis, bahasa apa yang akan digunakan, serta perintah mana yang akan dijalankan. Selanjutnya, pengklasifikasi akan mengaitkan setiap keputusan kepada Claude atau pengguna, dan menghasilkan dua angka untuk setiap sesi: persentase keputusan perencanaan yang diambil pengguna, dan persentase keputusan eksekusi yang diambil pengguna.

Rata-rata, manusia membuat sekitar 70% keputusan perencanaan, tetapi hanya membuat 20% keputusan eksekusi (lihat Gambar 2). Dalam penggunaan nyata, pemrograman agen membentuk pembagian kerja yang jelas: manusia memutuskan apa yang akan dibangun, agen memutuskan bagaimana membangunnya.

Untuk memahami tingkat pendelegasian tindakan dalam suatu sesi, kami tidak melihat konten, melainkan struktur sesi. Sesi Claude Code terdiri dari interaksi bolak-balik antara Claude dan pengguna: pengguna mengirim prompt, Claude menjalankan tindakan; kemudian pengguna mengirim prompt berikutnya, dan seterusnya. Dalam sesi khas, terdapat sekitar empat putaran seperti ini. Dalam data historis kami dari Oktober hingga April, setiap prompt yang dikirim pengguna rata-rata memicu Claude untuk menjalankan sekitar 10 tindakan, terkadang bahkan lebih dari 100 tindakan. Dalam setiap putaran, Claude membaca file, mengedit kode, menjalankan perintah, dan rata-rata menghasilkan 2400 kata.

Seberapa banyak pekerjaan yang diselesaikan Claude di antara pemeriksaan pengguna sangat bergantung pada siapa yang mengambil keputusan. Ketika pengguna mempertahankan kendali atas proses eksekusi, yaitu ketika pengguna membuat lebih dari 80% keputusan eksekusi, Claude menjalankan lebih sedikit tindakan per putaran, sekitar 8 tindakan. Namun, ketika Claude memegang kendali perencanaan, yaitu ketika Claude membuat lebih dari 80% keputusan perencanaan, jumlah tindakan yang diambilnya paling tinggi, sekitar 16 tindakan.

Tingkat Keahlian

Berdasarkan setiap catatan sesi, Claude akan menilai tingkat keahlian tampak pengguna pada tugas tersebut menggunakan skala lima tingkat, dari pemula hingga ahli. Pengklasifikasi tingkat keahlian memfokuskan pada tiga sinyal: seberapa tepat instruksi yang diberikan pengguna, apa yang diminta pengguna untuk divalidasi Claude, serta apakah pengguna yang lebih sering mengoreksi Claude, atau Claude yang lebih sering mengoreksi pengguna. Perlu diperhatikan bahwa tingkat keahlian di sini adalah konsep yang sepenuhnya berbeda dari jabatan atau kemampuan umum, dan yang terpenting, ini adalah spesifik tugas. Seorang insinyur senior yang pertama kali bertanya tentang Rust, mungkin masih menjadi pemula dalam tugas Rust. Seorang akuntan yang belum pernah menggunakan Python, jika dapat secara akurat memberi tahu Claude aturan rekonsiliasi apa yang harus dilakukan oleh skrip Python tertentu, dan dapat menangkap kasus tepi yang salah ditangani pada penutupan bulan, maka dia adalah ahli dalam tugas tersebut.

Tabel berikut menunjukkan bagaimana kami mendefinisikan setiap tingkat keahlian dalam pengklasifikasi, dan memberikan contoh permintaan dari kumpulan data sesi agen pengkodean publik SWE-chat. Percakapan yang dikategorikan sebagai "Pemula" memberikan instruksi umum yang tidak mencerminkan pengetahuan domain tertentu; percakapan yang dikategorikan sebagai "Ahli" menyampaikan pemahaman mendalam tentang basis kode dan lingkungan teknis.

Kami mengukur hubungan antara tingkat keahlian dengan volume output dan aktivitas yang dihasilkan per prompt Claude. Dalam sesi pemula khas, setiap prompt memicu Claude untuk menjalankan sekitar 5 tindakan, dan menghasilkan sekitar 600 kata; sedangkan dalam sesi ahli, rantai tindakan lebih dari dua kali lipatnya, sekitar 12 tindakan, dan output mencapai sekitar 3200 kata, lima kali lipat lebih banyak (lihat Gambar 3). Kesenjangan antara pemula dan ahli ini muncul di setiap jenis pekerjaan dan setiap rentang nilai tugas.

Metrik-metrik ini melengkapi penelitian kami sebelumnya tentang otonomi Claude Code. Penelitian sebelumnya melacak durasi berjalan agen, dan seberapa sering pengguna menyetujui tindakannya secara otomatis. Sebaliknya, metrik atribusi keputusan kami menangkap siapa yang membuat keputusan substantif dalam seluruh sesi, sementara jumlah output dan tindakan yang dipicu per prompt mengukur sejauh mana aktivitas otonom yang dapat dipicu Claude per instruksi manusia.

Siapa yang Menggunakan Claude Code, dan Untuk Apa Mereka Menggunakannya

Pengguna

Untuk memahami siapa yang melakukan pekerjaan ini, kami menyimpulkan profesi setiap pengguna berdasarkan catatan sesi, dan memetakannya ke salah satu dari 23 kategori utama dalam sistem Klasifikasi Pekerjaan Standar (SOC) Biro Statistik Tenaga Kerja AS. Pengklasifikasi diminta untuk hanya menilai berdasarkan sinyal-sinyal berikut: konteks proyek yang dimuat agen di awal sesi, nama dan struktur file, referensi atau produk yang dikutip pengguna, misalnya dokumen hukum, data klinis, laporan keuangan, materi kursus, dll., serta kosakata yang digunakan pengguna. Pengklasifikasi secara eksplisit diminta untuk tidak menganggap "sedang menulis kode" itu sendiri sebagai bukti bahwa pengguna berprofesi pemrograman. Hanya jika ada sinyal jelas yang menunjukkan bahwa pekerjaan perangkat lunak atau data adalah profesi pengguna, sesi akan dikategorikan ke dalam kategori SOC terkait pengkodean, yaitu "Pekerjaan Komputer dan Matematika". Jika seorang pengacara membangun skrip untuk secara otomatis memeriksa apakah sekumpulan kontrak kehilangan klausul tertentu, maka meskipun sesi ini sebagian besar menulis perangkat lunak, ia tetap akan dikategorikan ke dalam profesi hukum. Jika tidak ada sinyal tentang profesi pengguna, sesi tersebut tidak diklasifikasikan.

Kami dapat menyimpulkan profesi di sekitar 70% sesi. Dalam sesi yang dapat dikategorikan ini, "Pekerjaan Komputer dan Matematika" adalah kelompok terbesar, yang tidak mengherankan karena kategori ini mencakup sebagian besar pekerjaan terkait perangkat lunak. Diikuti oleh Operasi Bisnis dan Keuangan, Seni Desain dan Media, Manajemen, serta Ilmu Kehidupan, Ilmu Fisika, dan Ilmu Sosial. Dalam sampel kami, kelompok profesi non-perangkat lunak dengan pertumbuhan tercepat adalah Manajemen, Penjualan, dan profesi Hukum.

Pekerjaan

Dari Oktober 2025 hingga April 2026, komposisi pekerjaan yang diselesaikan orang menggunakan Claude Code berubah secara signifikan. Perubahan paling mencolok adalah proporsi sesi yang digunakan untuk memperbaiki kode rusak turun dari 33% menjadi 19% (lihat Gambar 4). Sebagai gantinya, ada lebih banyak pekerjaan yang berpusat pada kode. Proporsi pengoperasian perangkat lunak naik dari 14% menjadi 21%. Penulisan dan analisis data meningkat hampir dua kali lipat, dari sekitar 10% menjadi sekitar 20%.

Nilai tugas itu sendiri juga meningkat. Kami memperkirakan nilai ekonomi setiap sesi dengan memperkirakan biaya pekerjaan serupa di pasar pekerja lepas, dan mengkalibrasinya menggunakan kumpulan data pekerjaan nyata yang dipublikasikan. Menurut metrik ini, nilai perkiraan rata-rata sesi meningkat 27% selama periode Oktober hingga April. Peningkatan ini muncul di berbagai jenis pekerjaan. Nilai tugas membangun, mengoperasikan, dan memperbaiki masing-masing meningkat sekitar 43%, 34%, dan 32%. Perkiraan harga ini relatif kasar, jadi kami terutama menggunakannya untuk membandingkan tren seiring waktu antara tugas yang berbeda, bukan sebagai nilai dolar yang dapat langsung dibaca. Detail tentang cara membangun estimator nilai tugas, lihat Lampiran.

Keberhasilan Bergantung pada Apa yang Dibawa Pengguna

Memperkirakan nilai tugas adalah salah satu cara untuk memahami bagaimana Claude Code membantu orang menyelesaikan pekerjaan. Sudut pandang lain adalah mengamati berapa banyak sesi yang berhasil, dan karakteristik sesi apa yang terkait dengan keberhasilan. Dalam semua metrik keberhasilan, kami melihat pola yang jelas: semakin tinggi tingkat keahlian yang ditampilkan pengguna dalam sesi, semakin besar kemungkinan sesi itu berhasil. Sebagian besar peningkatan terkonsentrasi di tingkat keahlian yang lebih rendah, artinya, kesenjangan dari pemula ke pengguna menengah lebih besar daripada dari pengguna menengah ke ahli.

Sebelum menganalisis karakteristik sesi yang berhasil, kami perlu menjelaskan secara akurat bagaimana mengukur keberhasilan. Kami tidak dapat mengamati hasil dunia nyata pengguna, atau secara langsung menanyakan apakah mereka menyelesaikan apa yang ingin mereka lakukan melalui Claude. Oleh karena itu, kami mengandalkan dua metode pengukuran komplementer berbasis catatan sesi. Yang pertama adalah "Keberhasilan yang Dinilai", di mana pengklasifikasi membaca catatan sesi lengkap dan menilai apakah pengguna menyelesaikan tujuan yang semula mereka tetapkan, dengan opsi termasuk berhasil, sebagian berhasil, gagal, tidak ada tujuan jelas. Selanjutnya, dua pengklasifikasi pendamping akan menilai kekuatan bukti penilaian tersebut untuk menentukan "Keberhasilan yang Diverifikasi". Pengklasifikasi sinyal keberhasilan akan mencari bukti keberhasilan yang dapat diverifikasi, terutama termasuk aktivitas git yang sesuai dengan pekerjaan tersebut, misalnya commit dan pull request, rangkaian pengujian yang lolos, serta pengakuan eksplisit dari pengguna. Ini akan memberi nilai sesi pada skala dari "Tidak ada sinyal" hingga "Sinyal Lemah" (1 poin) hingga "Beberapa Sinyal Kuat" (5 poin). Pengklasifikasi sinyal kegagalan paralel lainnya akan memberi nilai pada bukti bahwa sesuatu tidak beres, termasuk kesalahan, pengujian gagal, upaya berulang untuk hal yang sama, serta keberatan pengguna terhadap output, dll. Keberhasilan yang Diverifikasi mensyaratkan dua kondisi sekaligus: sesi dinilai berhasil, dan setidaknya ada satu sinyal keberhasilan kuat yang dapat diverifikasi. Analisis berikut berfokus pada tingkat keberhasilan atau kegagalan dalam sesi, jadi kami mengecualikan sesi yang dinilai oleh pengklasifikasi hasil keberhasilan sebagai "Tidak ada tujuan jelas", yang menyumbang sekitar 7,7% dari sampel lengkap.

Imbalan dari Tingkat Keahlian

Jadi, sesi mana yang paling mudah berhasil? Hasilnya menunjukkan bahwa penilaian tingkat keahlian sesi yang dijelaskan di atas memiliki pengaruh besar terhadap keberhasilan sesi.

Seseorang mungkin khawatir bahwa tingkat keahlian bukanlah faktor pendorong sebenarnya. Mungkin ahli hanya memilih tugas yang berbeda, atau berbeda dalam hal lain. Dalam bagian ini, kami sebagian menanggapi kekhawatiran ini dengan membandingkan sesi dengan jenis pekerjaan yang sama, nilai perkiraan yang sama, bulan yang sama, topik yang sama, dari kelompok profesi besar yang sama, dan melihat bagaimana perbedaan tingkat keahlian pengguna memengaruhi hasil.

Dalam semua metrik keberhasilan, semakin tinggi tingkat keahlian yang ditampilkan pengguna dalam sesi, semakin mungkin sesi itu berhasil. Sesi yang dinilai sebagai Pemula mencapai tingkat keberhasilan 15% pada metrik kami yang paling ketat, "Keberhasilan yang Diverifikasi", dan mencapai tingkat setidaknya sebagian berhasil 77%. Sementara sesi yang dinilai sebagai Menengah ke atas memiliki tingkat Keberhasilan yang Diverifikasi 28% hingga 33%, dan tingkat keberhasilan sebagian 91% hingga 92% (lihat Gambar 5).

Dalam setiap metrik, sebagian besar keuntungan berasal dari peningkatan dari Pemula ke Menengah; dari Menengah ke Ahli, kemiringannya melambat. Detail analisis regresi di balik Gambar 5, lihat Lampiran.

Gradien serupa juga dapat dilihat dalam sesi yang mengalami tantangan. Ketika sinyal kegagalan mencatat bukti kegagalan yang terverifikasi, kami menganggap sesi tersebut "mengalami masalah". Ini mungkin termasuk munculnya kesalahan, pengujian gagal, beberapa kali mencoba menyelesaikan hal yang sama, atau pengguna mengungkapkan kekecewaan dan ketidakpuasan. Dalam sesi yang mengalami masalah, setelah mengontrol semua variabel di atas, proporsi Keberhasilan yang Diverifikasi meningkat dari 4% pada sesi pemula menjadi 15% pada sesi ahli (lihat Gambar 5). Jika menggunakan metrik keberhasilan yang lebih longgar, kami menemukan bahwa proporsi setidaknya sebagian berhasil adalah 60% di antara pengguna pemula, dan 80% hingga 81% di antara pengguna menengah hingga ahli.

Kami juga melacak hubungan terbalik lainnya, yaitu hubungan antara tingkat keahlian dengan berbagai metrik kegagalan. Perlu diperhatikan bahwa dalam analisis ini, sesi yang dinilai gagal adalah sesi yang bahkan tidak mencapai keberhasilan sebagian. Jika sesi yang mengalami masalah dinilai gagal, dan tidak menulis baris kode apa pun, kami menyebutnya ditinggalkan. Dalam sesi di mana pengguna tampak sebagai pemula, 19% akhirnya ditinggalkan; sedangkan di antara kelompok pengguna lainnya, angkanya 5% hingga 7%. Dengan kata lain, pengguna dengan pengalaman paling sedikit lebih mudah menyerah ketika berusaha mencapai tujuan tetapi menghadapi kesulitan. Sebagian nilai kemampuan keahlian tampaknya terletak pada kemampuan untuk mengarahkan agen kembali ke jalur yang benar.

Profesi Mungkin Tidak Sepenting Tingkat Keahlian

Pengguna profesi terkait perangkat lunak memiliki tingkat Keberhasilan yang Diverifikasi sekitar 30% di semua sesi, pengguna profesi lain sekitar 26%. Dalam sesi yang menghasilkan kode, yaitu sesi yang setidaknya menambah atau memodifikasi satu baris kode, kedua angka tersebut masing-masing 34% dan 29% (lihat Gambar 6). Jika menggunakan definisi keberhasilan yang lebih longgar, kesenjangan antara profesi terkait perangkat lunak dan profesi lain semakin menyempit. Dalam sesi yang menghasilkan kode, proporsi yang mencapai setidaknya sebagian berhasil untuk kedua jenis pengguna adalah 89% dan 88%. Kesenjangan lima persen tidak besar, dan dalam tujuh bulan tidak membesar maupun menyusut, meskipun tingkat keberhasilan kedua kelompok meningkat. Dalam sesi yang menghasilkan kode, sepuluh kelompok profesi terbesar dalam kumpulan data kami, masing-masing memiliki kesenjangan keberhasilan dengan insinyur perangkat lunak dalam tujuh poin persentase. Profesi Manajemen memiliki tingkat Keberhasilan yang Diverifikasi tertinggi, sedikit lebih tinggi daripada profesi Teknik Perangkat Lunak. Tingkat keberhasilan yang lebih tinggi dari manajer mungkin mencerminkan bahwa keterampilan manajemen dapat ditransfer ke tugas memerintah agen. Tetapi ini juga mungkin sebagian berasal dari cara pengukuran kami: verifikasi sampai batas tertentu bergantung pada konfirmasi eksplisit pengguna dalam sesi, dan manajer mungkin lebih terbiasa mengekspresikan diri ketika mendapatkan hasil yang diinginkan.

Pandangan ke Depan

Hasil laporan ini menguraikan gambaran yang sedang terbentuk: pemrograman agen sedang memperbesar pengetahuan dan keterampilan tertentu, sambil menggantikan keterampilan lain. Dalam sesi yang menghasilkan kode, tingkat keberhasilan di setiap profesi utama tidak jauh berbeda dengan profesi terkait perangkat lunak. Tampaknya, agen pengkodean sedang membuat latar belakang pemrograman menjadi kurang penting untuk keberhasilan menyelesaikan tugas pemrograman.

Pada saat yang sama, sesi yang berhasil lebih mungkin menunjukkan keahlian domain. Sesi yang dinilai sebagai ahli memiliki tingkat Keberhasilan yang Diverifikasi lebih dari dua kali lipat sesi pemula. Ketika sesi mengalami masalah, pemula juga beberapa kali lebih mungkin menyerah daripada pengguna lain. Cara kolaborasi itu sendiri membuat gambaran ini lebih jelas: ahli domain dapat membimbing Claude untuk menyelesaikan lebih banyak pekerjaan dengan setiap instruksi. Oleh karena itu, kemampuan untuk mengarahkan Claude menuju keberhasilan lebih banyak berasal dari penguasaan suatu domain, bukan kemampuan menulis kode. Siapa pun yang memiliki penguasaan ini di bidang apa pun sekarang mungkin dapat menyelesaikan pekerjaan teknis yang sebelumnya tidak dapat mereka lakukan. Dan mereka yang kurang memiliki pemahaman keahlian ini, bahkan dengan alat yang sama, akan mendapatkan lebih sedikit. Selain itu, keuntungan terutama berasal dari kompeten, bukan menguasai. Memiliki pemahaman yang dapat dioperasionalkan di suatu domain sudah memberikan sebagian besar keuntungan; spesialisasi mendalam hanya membawa sedikit keuntungan tambahan di atasnya.

Temuan-temuan ini masih awal. Seperti kebanyakan penelitian kami, kami tidak dapat mengukur hasil dunia nyata, misalnya apakah kode yang ditulis dalam suatu sesi kemudian digunakan atau dibuang, atau apakah itu menghasilkan hasil yang bernilai ekonomi. Selain itu, laporan ini mengecualikan penggunaan non-interaktif, yang menyumbang porsi yang cukup besar dari aktivitas keseluruhan. Mengembangkan kerangka kerja yang dapat mengukur penggunaan semacam ini adalah fokus pekerjaan masa depan. Dan, semua klasifikasi kami terhadap sesi bergantung pada pembacaan model terhadap catatan sesi. Dalam Lampiran, kami menunjukkan bahwa pengklasifikasi konsisten dengan data telemetri independen dalam arah yang diharapkan, dan dalam banyak sesi sesuai dengan penilaian model referensi kuat. Namun, memvalidasi pengklasifikasi dalam skala besar tetap sulit; sesi Claude Code itu sendiri juga menambah kesulitan karena mungkin terlalu panjang dan terlalu kompleks untuk menggunakan penandaan manual sebagai patokan nyata.

Seiring model, pengguna, dan pembagian kerja di antara mereka terus berubah, gambaran dalam laporan ini juga akan terus diperbarui. Kami berharap metrik-metrik ini dapat membantu kami melacak pergeseran besar yang sedang terjadi. Misalnya, jika di masa depan imbalan dari tingkat keahlian mulai menurun, itu akan menunjukkan bahwa model mulai memberikan penilaian kunci yang saat ini dibawa pengguna, dan keuntungan alat-alat ini akan meluas dari ahli domain ke populasi yang lebih luas. Jika proporsi pengguna di luar profesi perangkat lunak yang berhasil menyelesaikan sesi pengkodean terus meningkat, itu mungkin berarti produksi perangkat lunak sedang menjadi bagian dari pekerjaan biasa di berbagai bidang, dan bukan lagi produk dari satu profesi tunggal. Pergeseran-pergeseran ini akan mengubah siapa yang dapat mengambil manfaat dari pemrograman agen, dan seberapa besar, serta memengaruhi kemampuan yang paling dihargai di pasar tenaga kerja.

Pertanyaan Terkait

QMenurut penelitian, siapa yang paling efektif dalam menggunakan Claude Code untuk tugas pemrograman?

APenelitian menunjukkan bahwa pengguna yang paling efektif bukan hanya programmer, tetapi orang-orang yang memiliki keahlian di bidang tertentu, seperti hukum, keuangan, manajemen, atau penelitian. Keberhasilan tugas pemrograman mereka hampir setara dengan insinyur perangkat lunak, karena kunci utamanya adalah pemahaman yang jelas tentang masalah yang ingin diselesaikan.

QBagaimana pembagian tugas antara manusia dan Claude Code dalam sesi pemrograman?

ADalam sesi pemrograman dengan Claude Code, manusia umumnya bertanggung jawab atas keputusan perencanaan, yaitu menentukan 'apa yang harus dilakukan', sementara Claude Code bertanggung jawab atas keputusan eksekusi, yaitu 'bagaimana melakukannya'. Pengguna membuat sekitar 70% keputusan perencanaan dan hanya 20% keputusan eksekusi.

QBagaimana tingkat keahlian pengguna memengaruhi produktivitas dan keberhasilan sesi dengan Claude Code?

ATingkat keahlian pengguna sangat berpengaruh. Sesi yang dinilai sebagai 'ahli' menghasilkan sekitar 12 tindakan dan 3.200 kata per perintah, jauh lebih tinggi daripada sesi 'pemula' yang hanya menghasilkan 5 tindakan dan 600 kata. Keberhasilan yang terverifikasi juga dua kali lebih tinggi pada sesi ahli dibandingkan sesi pemula.

QApa tren perubahan utama dalam cara orang menggunakan Claude Code dari Oktober 2025 hingga April 2026?

ATren utama yang diamati adalah penurunan sesi untuk memperbaiki kode yang rusak (dari 33% menjadi 19%) dan peningkatan sesi untuk mengoperasikan perangkat lunak, analisis data, serta penulisan dokumen. Nilai tugas rata-rata juga meningkat sekitar 25-27% untuk berbagai jenis pekerjaan.

QMengapa pengetahuan domain dianggap lebih penting daripada keahlian pemrograman dalam penggunaan Claude Code yang sukses?

APengetahuan domain lebih penting karena AI mengambil alih implementasi teknis seperti menulis dan men-debug kode, tetapi manusia tetap bertanggung jawab atas penentuan tujuan dan penilaian hasil. Seseorang yang memahami masalah bisnis atau konteksnya dapat memberikan instruksi yang jelas, yang kemudian diterjemahkan oleh Claude Code menjadi solusi teknis yang efektif.

Bacaan Terkait

Chip Optik, Perluasan Kapasitas Produksi Secara Kolektif

Kebutuhan chip optik sedang melonjak, memicu gelombang ekspansi kapasitas global di seluruh rantai pasokan. Di AS, Coherent memperluas pabrik 6 inci InP di Texas dengan pendanaan pemerintah, didukung investasi strategis dari Nvidia. Nokia menambah kapasitas pengujian dan pengemasan chip fotonik. Di Jepang, JX Advanced Metals berinvestasi besar untuk meningkatkan produksi substrat InP hingga 7-10 kali lipat. Di Eropa, IQE dan Tower Semiconductor menyepakati kesepakatan pasokan wafer epitaksial InP jangka panjang, menandakan konvergensi antara platform silicon photonics dan material III-V. Di Cina, perusahaan seperti Suzhou Ray Technology (Soluxe) dan San'an Optoelectronics secara agresif memperluas produksi chip optik dan bahan baku seperti InP. Ekspansi ini didorong oleh permintaan bandwidth yang meledak dari pusat data AI, terlepas dari jalur arsitektur masa depan seperti CPO (Co-Packaged Optics). Laporan Morgan Stanley menekankan bahwa kebutuhan konten optik akan terus tumbuh, baik dengan modul pluggable tradisional, NPO, CPO, atau arsitektur hybrid. Berbagai rute sumber cahaya seperti SiPh + Laser CW, VCSEL, dan MicroLED diperkirakan akan hidup berdampingan untuk aplikasi jarak berbeda dalam pusat data. Pada dasarnya, ini adalah perlombaan kapasitas global di mana AS membangun kembali manufaktur domestik, Jepang menguasai bahan baku, Eropa mendorong integrasi heterogen, dan Cina dengan cepat mengembangkan rantai pasokan terintegrasi secara vertikal. Perlombaan senjata di era fotonik telah memasuki tahap intensif.

marsbit36m yang lalu

Chip Optik, Perluasan Kapasitas Produksi Secara Kolektif

marsbit36m yang lalu

Stablecoin Akhirnya Temukan Pendapatan Riil: Penjelasan Rinci Asuransi Ulang On-Chain Re | Dialog dengan Pendiri Re, Karan Saroya

Re adalah platform reasuransi berbasis blockchain yang menawarkan sumber pendapatan nyata bagi pemegang stablecoin. Platform ini mengumpulkan stablecoin dari DeFi sebagai jaminan untuk perusahaan asuransi AS, menyalurkan premi yang diterima kembali kepada deposan di blockchain. Dengan leverage 5-7x yang diizinkan regulasi, Re mampu menghasilkan pengembalian 12%-14% untuk deposan. Model bisnisnya mengandalkan efisiensi operasional dari kontrak pintar, menggantikan proses permodalan tradisional yang rumit. Re telah mendukung 35 perusahaan asuransi dengan portofolio $5 miliar dan menargetkan $10 miliar dalam 7 bulan ke depan. Platform ini juga menerbitkan token penerimaan (receipt token) yang dapat di-staking ulang di pasar DeFi seperti Morpho dan Fluid, berpotensi mendorong imbal hasil hingga 20%+. Token RE berfungsi sebagai token tata kelola, mengontrol alokasi modal, penerimaan mitra, dan parameter kunci lainnya. Solusi ini menghubungkan modal kripto dengan ekonomi riil, menawarkan pendapatan yang berkelanjutan dan tidak berkorelasi dengan pasar saham atau kripto.

链捕手1j yang lalu

Stablecoin Akhirnya Temukan Pendapatan Riil: Penjelasan Rinci Asuransi Ulang On-Chain Re | Dialog dengan Pendiri Re, Karan Saroya

链捕手1j yang lalu

1996 atau 1999? Ujian Pertama Wash adalah 'Bagaimana Melihat AI'

Artikel ini membahas dilema utama yang dihadapi ketua Federal Reserve terbaru, Christopher Warsh, dalam menanggapi ledakan AI. Inti persoalannya adalah apakah kemajuan AI saat ini mirip dengan situasi 1996 — di mana Alan Greenspan membiarkan ekonomi tumbuh tanpa menaikkan suku bunga karena percaya pada pertumbuhan produktivitas — atau lebih mirip 1999, ketika Greenspan akhirnya menaikkan suku bunga secara agresif untuk mencegah overheating ekonomi. Warsh cenderung pada pendekatan 1996, berargumen bahwa manfaat produktivitas AI membutuhkan waktu untuk terlihat dalam data resmi, dan menaikkan suku bunga terlalu dini justru dapat meredam pertumbuhan yang sebenarnya membantu menekan inflasi. Namun, konteks makroekonominya berbeda: tekanan tarif, defisit fiskal yang membesar, dan memudarnya manfaat globalisasi membuat risiko inflasi lebih tinggi daripada era 1990-an. Di sisi lain, kritikus seperti Austan Goolsbee dari Bank Sentral Chicago berpendapat bahwa ledakan AI yang sudah diantisipasi banyak orang justru dapat memicu kenaikan pengeluaran di muka, mendorong overheating ekonomi dan mengharuskan kenaikan suku bunga yang lebih tajam nantinya. Perdebatan ini mencerminkan perpecahan internal di Fed. Paradoks terakhir bagi Warsh adalah keinginannya untuk menghapus "forward guidance" (panduan kebijakan ke depan), suatu praktik yang justru dibuat pada 1999. Jika ekonomi memburuk, ia harus memilih antara menggunakan alat yang ingin dihapusnya atau menghadapi gejolak pasar akibat ketidakpastian. Jawaban atas semua ini bergantung pada penilaiannya: apakah kita berada di tahun 1996 atau 1999?

marsbit3j yang lalu

1996 atau 1999? Ujian Pertama Wash adalah 'Bagaimana Melihat AI'

marsbit3j yang lalu

Laporan Q1 2026 Ethereum: Biaya Turun, Pengguna dan Volume Transaksi Capai Rekor Tertinggi Sejarah

**Laporan Kuartal I Ethereum 2026: Biaya Turun, Pengguna dan Jumlah Transaksi Capai Rekor Tertinggi** Laporan Ethereum Q1 2026 menunjukkan data yang tampak berlawanan tetapi kritis: jaringan ini mengalami pertumbuhan pengguna, transaksi, dan throughput tertinggi sepanjang masa, sementara biaya transaksi, TVL, volume perdagangan, dan kapitalisasi pasar ETH terdilusi turun. Ini menandai transisi Ethereum ke fase 'biaya rendah untuk skala' setelah peningkatan Fusaka meningkatkan kapasitas data dan membuat ruang blok lebih murah, melepaskan permintaan jaringan (paradoks Jevons). Naratif inti Ethereum bergeser dari blockchain DeFi ke lapisan penyelesaian keuangan global. Ethereum mempertahankan dominasi dalam aset tokenisasi: stablecoin, dana tokenisasi (naik 4.9% QoQ), komoditas tokenisasi (naik 60% QoQ, terutama emas), dan saham tokenisasi. Kehadiran institusi seperti BlackRock, JPMorgan, dan Fidelity semakin memperkuat adopsi. **Data Kunci Q1 2026:** * **Penggunaan (Naik):** Pengguna Bulanan Aktif (MAU): 13.2 juta (+53.5% QoQ). Jumlah Transaksi: 200.4 juta (+38% QoQ). Throughput: 25.78 TPS. * **Nilai & Biaya (Turun):** Biaya Transaksi Lapisan-1: $39.9 juta (-47.9% QoQ). TVL Ekosistem: $316.2B (-11% QoQ). Kapitalisasi Pasar ETH Tercairkan Penuh: $290B (-30.3% QoQ). * **Aset Tokenisasi (Stabil/Tumbuh):** Nilai Pasar: $2034B. Didominasi stablecoin ($1789B), diikuti dana ($194B) dan komoditas ($47B). Ethereum mengorbankan pendapatan biaya jangka pendek untuk ekspansi jaringan, berfokus pada konsolidasi sebagai lapisan penyelesaian default untuk aset keuangan global. Peningkatan kapasitas berkelanjutan (seperti rencana upgrade Glamsterdam) diharapkan dapat lebih mendorong adopsi dan nilai jaringan jangka panjang.

marsbit4j yang lalu

Laporan Q1 2026 Ethereum: Biaya Turun, Pengguna dan Volume Transaksi Capai Rekor Tertinggi Sejarah

marsbit4j yang lalu

CEO Intel Lip-Bu Tan Wawancara Podcast Pertama: Target Kami "10x dalam 5-10 Tahun", Fokus pada Packaging Canggih, Substrat Kaca, dan Berlian Sintetis

CEO Intel Pat Gelsinger menguraikan visi ambisiusnya untuk menciptakan pengembalian 10 kali lipat dalam 5-10 tahun ke depan. Strateginya berfokus pada penguatan pilar bisnis inti (seperti CPU untuk AI cerdas dan inferensi), sambil secara agresif berinvestasi pada teknologi pendobrak batas. Kunci utamanya adalah kemasan lanjutan (seperti EMIB), material baru (termasuk substrat kaca dan wafer berlian sintetis), serta membangun fondasi yang kuat untuk bisnis penempaan (foundry) dengan menekankan kepercayaan, hasil produksi, dan waktu siklus. Dia juga menyoroti kemitraan dengan Elon Musk dalam proyek Terafab dan keyakinannya bahwa potensi penuh Intel, yang melampaui PC ke komputasi tepi dan AI fisik, akan terlihat jelas pada tahun 2030-2032. Gelsinger menekankan pendekatan "merangkak, berjalan, berlari" untuk transformasi perusahaan.

marsbit4j yang lalu

CEO Intel Lip-Bu Tan Wawancara Podcast Pertama: Target Kami "10x dalam 5-10 Tahun", Fokus pada Packaging Canggih, Substrat Kaca, dan Berlian Sintetis

marsbit4j yang lalu

Trading

Spot

Futures

Siapa yang Paling Mahir Menggunakan Claude Code? Jawabannya Mungkin Bukan Programmer

Abstrak

Temuan Kunci

Pendahuluan

Pembagian Kerja

Apa yang Dilakukan Orang dengan Claude Code

Siapa yang Mengambil Keputusan

Tingkat Keahlian

Siapa yang Menggunakan Claude Code, dan Untuk Apa Mereka Menggunakannya

Pengguna

Pekerjaan

Keberhasilan Bergantung pada Apa yang Dibawa Pengguna

Imbalan dari Tingkat Keahlian

Profesi Mungkin Tidak Sepenting Tingkat Keahlian

Pandangan ke Depan

Pertanyaan Terkait

Bacaan Terkait

Chip Optik, Perluasan Kapasitas Produksi Secara Kolektif

Stablecoin Akhirnya Temukan Pendapatan Riil: Penjelasan Rinci Asuransi Ulang On-Chain Re | Dialog dengan Pendiri Re, Karan Saroya

1996 atau 1999? Ujian Pertama Wash adalah 'Bagaimana Melihat AI'

Laporan Q1 2026 Ethereum: Biaya Turun, Pengguna dan Volume Transaksi Capai Rekor Tertinggi Sejarah

CEO Intel Lip-Bu Tan Wawancara Podcast Pertama: Target Kami "10x dalam 5-10 Tahun", Fokus pada Packaging Canggih, Substrat Kaca, dan Berlian Sintetis

Trading

Kategori Populer

Tag Populer