Disusun & Diterjemahkan: Deep Tide TechFlow
Tamu: Alex Albert, Manajer Produk Penelitian Claude
Pembawa Acara: Peter Yang
Sumber Podcast: Peter Yang
Judul Asli: Inside How Anthropic Is Building the Next Claude | Alex Albert
Tanggal Tayang: 17 Mei 2026
Ringkasan Poin Utama
Alex adalah seorang Manajer Produk Penelitian (Research PM) di Anthropic, yang saat ini fokus mengembangkan model Claude generasi berikutnya. Dalam wawancara ini, ia berbagi secara mendalam tentang mekanisme kerja tim penelitian Anthropic, termasuk cara mengintegrasikan umpan balik pengguna ke dalam alur pelatihan model secara efisien, cara memprioritaskan kemampuan kunci mana yang akan dikembangkan, serta bagaimana menyesuaikan model agar "kepribadian" Claude lebih sesuai dengan kebutuhan pengguna. Terakhir, Alex juga menanggapi penelitian internal Anthropic tentang kesadaran, karakter, dan keterpercayaan Claude, dengan menunjukkan bahwa ketika model mulai menjalankan tugas secara mandiri dalam waktu lama, hal yang "dipedulikannya" akan menjadi sama pentingnya dengan kemampuan itu sendiri.
Kutipan Pandangan Menarik
Membangun Model Seperti Produk
- "Kami sampai batas tertentu memperlakukan model sebagai produk. Setiap model baru dimulai dengan menentukan apa persyaratannya, apa yang kami harapkan dapat dilakukannya dengan baik, dan apa yang kami perkirakan akan dikuasainya."
- "Perbedaan menarik antara pengembangan model dan pengembangan produk tradisional adalah kami lebih seperti membesarkan sebuah model. Pengaturan pelatihan, arah teknologi, dan keputusan arsitektur memberi kami beberapa intuisi, tetapi baru ketika pelatihan dimulai, Anda benar-benar tahu seperti apa jadinya."
- "PM penelitian harus memikirkan bagaimana model akan muncul di semua permukaan produk kami, baik melalui API, Claude Code, maupun Claude Cowork. Produk dan model akan bercampur memengaruhi pengalaman pengguna akhir."
- "Ketika sejumlah umpan balik mengalir melalui saluran tertentu, kami dapat menggunakan Claude untuk mengelompokkannya, mengelusternya, menemukan tema utama, lalu membuat versi sintetis untuk masalah ini. Dengan begitu kami dapat menilai apakah ini bisa menjadi file kebutuhan (Eval), atau menjadi cara praktis untuk mendiagnosis masalah."
Tentang Pemikiran Adaptif, Memori, dan "Mimpi"
- "Pemikiran adaptif memungkinkan model memilih sendiri kapan perlu berpikir. Beberapa masalah sangat kompleks, sulit, dan memerlukan perencanaan awal lebih banyak, maka model akan memilih untuk berpikir. Untuk beberapa masalah, mungkin tidak akan memilih untuk berpikir."
- "Di balik keputusan apakah suatu masalah layak untuk dipikirkan lebih dalam, sebenarnya ada banyak konteks."
- "Jika model tidak mengumpulkan konteks yang cukup, tidak benar-benar membangun model mental tentang siapa penggunanya, maka penilaiannya tentang apakah harus berpikir lebih dalam mungkin salah. Karena sebenarnya ia tidak tahu."
- "Di Claude.ai, model akan menulis ke file memori, lalu akan ada proses malam hari yang meninjau ulang memori ini, melakukan pemangkasan dan penataan. Kami baru saja menerapkan hal serupa di agen terkelola (hosted agent)."
- "Inilah konsep 'mimpi'. Mengapa manusia bermimpi, sampai batas tertentu masih belum jelas, tetapi beberapa orang berpendapat bahwa mimpi mungkin merupakan proses konsolidasi ulang memori. Kami bertanya: bisakah kami membawa sesuatu yang serupa ke dalam memori Claude?"
- "Jadi, ketika agen tidak menjalankan tugas untuk Anda, atau ketika berada di latar belakang, ia sebenarnya akan meninjau kembali memorinya, menemukan hal-hal yang mungkin bertentangan, melakukan pemangkasan, pembersihan, melakukan pass kedua."
Kendala Pengembangan Produk dan "Keputusan Tidak Dapat Dibalik"
- "Sekarang tiba-tiba kami memasuki paradigma baru: biaya dan waktu yang diperlukan untuk memproduksi sesuatu menjadi sangat rendah. Anda dapat dengan cepat membuat prototipe, bahkan sekarang dapat membuat MVP awal yang mungkin bisa diluncurkan ke produksi dalam satu hari, bukan dua minggu, tiga minggu, atau empat minggu."
- "Jika sesuatu bukan one-way door (pintu satu arah), artinya kami dapat membatalkannya setelah melakukannya, maka sekarang biayanya sangat rendah, bahkan bisa dikatakan tanpa biaya."
- "Yang benar-benar membutuhkan waktu paling lama adalah keputusan yang tidak dapat dibalik: hal-hal yang memengaruhi pengalaman pengguna akhir, memengaruhi keputusan di masa depan, atau melibatkan pembelian dan investasi sumber daya nyata."
- "Ketika kecepatan membangun menjadi lebih cepat, kendala semakin bergeser ke masalah koordinasi: mengumpulkan orang di ruangan yang sama, menilai apakah strategi benar, memutuskan cara berkomunikasi dengan pengguna, serta menangani hal-hal yang samar namun penting dalam peluncuran."
Cara Kerja PM Asli AI
- "Claude bagi saya adalah partner brainstorming terbaik di dunia. Saya bisa mendapatkan umpan balik dan kritik terhadap suatu ide darinya kapan saja."
- "Banyak pemikiran tidak bisa sepenuhnya di-outsource, karena menulis itu sendiri adalah berpikir. Anda perlu mengeluarkan ide Anda dengan menulis, memutarnya berulang-ulang di kepala. Tetapi Claude dapat membantu Anda keluar dari kebuntuan, memecahkan masalah dari sudut pandang yang mungkin tidak Anda pikirkan sendiri."
- "Untuk orang yang ingin belajar membuat produk, menjadi manajer produk asli AI, saran paling sederhana yang bisa saya berikan adalah: cobalah."
- "Ketika Anda akan menanyakan masalah sulit kepada seseorang, Anda bisa secara paralel menanyakan masalah yang sama kepada Claude, lalu membandingkan hasilnya. Lakukan ini berkali-kali, dan Anda akan membangun peta Anda sendiri: apa yang harus diberikan kepada Claude, di mana ia masih belum dapat diandalkan."
- "AI sedang membuat setiap orang bergerak ke lapisan abstraksi yang lebih tinggi. Ilmuwan data seharusnya tidak lagi terjebak pada pengecekan data manual dan SQL dasar, tetapi harus memikirkan masalah yang lebih sulit dan lebih strategis."
Eval, Karakter Model, dan Keterpercayaan
- "Menguji beberapa puluh sampel sudah cukup untuk membuktikan bahwa model memiliki masalah yang perlu diperbaiki. Tidak harus sangat komprehensif untuk membuktikan suatu masalah dan membentuk tujuan yang dapat dioptimalkan secara berkelanjutan."
- "Semakin mirip dengan bentuk tugas pengguna akhir yang sebenarnya, semakin baik pengujiannya. Kami juga harus memikirkan: apa nilainya bagi klien dan kasus penggunaan kami? Karena, kemampuan Claude melihat sesuatu dalam gambar, pada akhirnya bagaimana memengaruhi hal yang ingin dilakukan pengguna dengan Claude di hilir?"
- "Karakter Claude adalah hal yang sangat kami perhatikan. Seiring model berubah menjadi agen yang menjalankan tugas dalam waktu lama dan terus membuat penilaian, karakternya apa, apa yang ia pedulikan, akan menjadi sangat penting."
- "Menilai karakter model melibatkan indikator yang dapat diukur, dan juga bergantung pada peneliti yang banyak membaca dialog model, mengidentifikasi perubahan halus dalam output. Semakin banyak membaca, Anda akan semakin membentuk intuisi yang lebih tajam."
Masalah Kesadaran dan Agen Jangka Panjang
- "Kami memang memiliki orang yang khusus memikirkan ini, yaitu memikirkan apa artinya Claude sebagai pelaku yang sadar, sebagai agen yang sadar. Saat ini kami tidak memiliki posisi resmi yang mengatakan Claude memiliki kesadaran."
- "Bahkan tanpa menilai apakah Claude memiliki kesadaran atau tidak, kami bisa belajar banyak darinya, misalnya bagaimana ia berinteraksi, bagaimana ia berperilaku."
- "Model akan membuat banyak keputusan yang mungkin sama sekali tidak Anda awasi selama prosesnya. Jadi, apa yang akan dilakukannya, sangat penting."
Bagaimana Anthropic Memperlakukan Setiap Model Baru Sebagai Produk
Pembawa Acara Peter Yang: Alex, senang bertemu Anda hari ini di Claude Code Conference. Anda sebelumnya adalah kepala DevRel Anthropic, dan baru-baru ini menjadi manajer produk untuk tim penelitian, ya? Saya sendiri sudah menjadi PM lebih dari sepuluh tahun. Pekerjaan PM tradisional biasanya memahami masalah pengguna, mengidentifikasi solusi, dan mendorong peluncuran produk. Tetapi saya sama sekali tidak tahu bagaimana PM bekerja di tim penelitian, mari kita bicarakan ini dulu.
Alex Albert:
Pada dasarnya sangat mirip. Saya selalu ingin berkomunikasi dengan pelanggan, sedekat mungkin dengan pengguna kami. Kami sampai batas tertentu memperlakukan model sebagai produk. Jadi untuk setiap model baru, kami akan menentukan apa persyaratannya, apa yang kami harapkan dapat dikuasai oleh model ini, dan apa yang kami pikir mungkin dikuasainya.
Ini juga hal yang menarik dibandingkan dengan pengembangan model dan pengembangan produk: sering kali, kami lebih seperti 'membesarkan' sebuah model. Berdasarkan pengaturan pelatihan, arah teknologi, pilihan arsitektur, serta berbagai keputusan yang kami buat untuk model tertentu ini, kami memiliki beberapa intuisi tentang apa yang akan dikuasainya di masa depan. Tetapi seperti apa sebenarnya jadinya, kami tidak sepenuhnya tahu, sampai ia benar-benar memasuki proses pelatihan.
Pembawa Acara Peter Yang: Jadi tim PM penelitian akan terlibat sejak tahap konsepsi model, mengikutinya sampai pelatihan dan peluncuran? Bisakah memberi beberapa contoh? Misalnya, model berikutnya harus jago coding, atau harus jago kerja pengetahuan, atau apakah tujuannya akan lebih luas?
Alex Albert:
Kurang lebih seperti itu, kami sangat menghargai kemampuan di berbagai aspek. Coding tentu saja selalu menjadi kategori yang penting. Baru-baru ini, kerja pengetahuan juga menjadi sangat penting, jadi dalam beberapa generasi model terakhir kami, kami mencoba membuat model lebih mahir menggunakan produk kami, seperti bekerja di Excel, membuat tabel, dll. Ini adalah arah kemampuan yang relatif baru.
Di sisi lain, setiap generasi model harus memperbaiki dan meningkatkan hal-hal yang tidak dilakukan dengan baik oleh generasi sebelumnya. Kami pergi keluar dan berbicara dengan pelanggan, memahami bagaimana mereka menggunakan model ini: di mana performanya baik? Di mana ia gagal? Perbaikan apa yang bisa kami lakukan? Jika menemukan perilaku yang menarik, apakah ada penyesuaian atau intervensi yang dapat dilakukan saat pelatihan generasi berikutnya.
Pembawa Acara Peter Yang: Apakah pelanggan yang Anda maksud termasuk tim Claude Code, tim internal, dan juga pengguna biasa?
Alex Albert:
Semuanya termasuk, dan ini juga hal yang keren tentang membuat model: ia menyentuh banyak bidang yang berbeda. Sebagai PM penelitian, Anda perlu memikirkan bagaimana model akan terekspos melalui semua permukaan produk kami, baik melalui API, Claude Code, maupun Claude Cowork.
Produk dan model sampai batas tertentu tercampur, dan ini akan memengaruhi pengalaman pengguna akhir yang sebenarnya, jadi Anda harus memikirkan seluruh alur, bagaimana pengguna menggunakan model dalam suatu produk, semuanya akan berdampak.
Pembawa Acara Peter Yang: Kedengarannya sangat sulit. Misalnya, Claude Code, Anda bisa mengatakan itu untuk menulis kode, tetapi ada juga orang seperti saya yang menggunakannya untuk kerja pengetahuan, bahkan sebagai psikolog. Bagaimana Anda tahu hal-hal ini?
Alex Albert:
Ruang ini memang sangat luas. Untungnya kami memiliki sekelompok besar peneliti yang sangat baik, yang mencakup seluruh rentang kemampuan dan masing-masing fokus pada masalah yang berbeda.
Pembawa Acara Peter Yang: Dan banyak orang menggunakan Claude, Anda mungkin juga memiliki semacam pintu masuk umpan balik, bukan? Kalau tidak, umpan balik akan datang seperti selang pemadam kebakaran, bagaimana Anda menanganinya?
Alex Albert:
Kami melakukan banyak hal. Dan satu perubahan menarik yang saya lihat dalam peran ini adalah kami semakin banyak menggunakan Claude untuk membantu PM melakukan pekerjaan PM. Hanya dalam hal pengumpulan umpan balik, Claude sangat membantu saya mengekstrak wawasan dari banyak data. Ketika sejumlah umpan balik mengalir melalui saluran tertentu, kami dapat menggunakan Claude untuk mengelompokkannya, mengelusternya, menemukan tema utama, lalu membuat versi sintetis untuk masalah ini. Dengan begitu kami dapat menilai apakah ini bisa menjadi file kebutuhan (Eval), atau menjadi cara praktis untuk mendiagnosis masalah.
Menambahkan Pemikiran Adaptif ke Claude
Pembawa Acara Peter Yang: Artinya, Anda menggunakan Claude untuk membantu mengidentifikasi masalah Claude sendiri. Apakah ada contoh konkret?
Alex Albert:
Contoh yang sangat relevan saat ini adalah bagaimana kami menangani umpan balik fitur baru. Dalam beberapa model terakhir, salah satu fitur yang relatif baru adalah pemikiran adaptif. Dulu kami memiliki expanded thinking (pemikiran diperluas), saat Anda menyalakannya, model akan berpikir. Pemikiran adaptif memungkinkan model memilih sendiri kapan perlu berpikir.
Beberapa masalah sangat kompleks, sulit, dan memerlukan lebih banyak perencanaan awal, maka ia akan memilih untuk berpikir. Untuk beberapa masalah, mungkin tidak akan memilih untuk berpikir. Fitur ini akan kami sesuaikan terus-menerus antar generasi model, jadi kami sangat serius mendengarkan umpan balik pengguna: apakah ia berpikir dengan benar pada skenario yang benar? Apakah masalah yang Anda harapkan menghabiskan banyak token untuk direnungkan benar-benar memicu pemikiran Claude?
Pembawa Acara Peter Yang: Terkadang saya bertanya tentang masalah kehidupan, jika ia menjawab terlalu cepat, saya sebenarnya agak kecewa, karena saya berharap ia bisa memikirkannya lebih dalam.
Alex Albert:
Saya pikir masalah "apakah berpikir" ini memiliki satu kesulitan: di balik keputusan apakah suatu masalah layak untuk dipikirkan lebih dalam, sebenarnya ada banyak konteks.
Misalnya, seorang yang benar-benar asing bertanya kepada saya: "Apa yang harus saya lakukan sekarang?" Saya mungkin akan memberikan jawaban spontan dengan cepat, karena saya tidak mengenalnya, hanya bisa memberikan saran yang cukup umum. Tetapi jika saya benar-benar mengenal Anda, tahu apa yang Anda pedulikan, minat Anda, apa yang pernah Anda lakukan sebelumnya, saya akan menghabiskan lebih banyak waktu untuk berpikir: Tunggu, apa sebenarnya jawaban terbaik untuk Anda?
Modelnya serupa. Jika ia tidak mengumpulkan konteks yang cukup, tidak benar-benar membangun model mental tentang siapa penggunanya, maka penilaiannya tentang apakah harus berpikir lebih dalam mungkin salah. Karena sebenarnya ia tidak tahu.
Mengapa Claude Mulai "Bermimpi"
Pembawa Acara Peter Yang: Saya memiliki Google Doc yang merangkum kondisi hidup saya, seperti keluarga, anak, hal-hal yang memberi saya energi, hal-hal yang menguras saya. Kemudian saya melampirkannya ke proyek Claude, dan ia akan memberi saya banyak konten jawaban.
Bagaimana cara kerja memori default? Saya menduga, apakah ia akan mengatur ulang semua konten setiap malam?
Alex Albert:
Ini tergantung pada produk spesifiknya, cara implementasi memori berbeda di setiap produk. Misalnya, di Claude.ai, ia akan menulis ke file memori, lalu akan ada beberapa proses malam hari yang meninjau ulang memori ini, melakukan pemangkasan dan penataan. Kami baru saja menerapkan hal serupa di agen terkelola (hosted agent).
Inilah konsep "mimpi". Mengapa manusia bermimpi, sampai batas tertentu masih belum jelas, tetapi beberapa orang berpendapat bahwa mimpi mungkin merupakan proses konsolidasi ulang memori. Kami bertanya: bisakah kami membawa sesuatu yang serupa ke dalam memori Claude?
Jadi, ketika agen tidak menjalankan tugas untuk Anda, atau ketika berada di latar belakang, ia sebenarnya akan meninjau kembali memorinya, menemukan hal-hal yang mungkin bertentangan, melakukan pemangkasan, pembersihan, melakukan pass kedua. Saya pikir ini sangat menarik.
Pembawa Acara Peter Yang: Sederhananya, ada semacam prompt yang memintanya meninjau semua percakapan antara pengguna dan dirinya, mengidentifikasi tema dan merangkumnya.
Kita kembali ke manajemen produk. Sebelum memulai, Anda mengatakan, Anda selalu mencari hambatan terbaru. Jadi, di seluruh alur pengembangan produk, bagian mana yang sudah menjadi sangat lancar, dan bagian mana yang masih menjadi hambatan?
Alex Albert:
Saya pikir sekitar 20 tahun terakhir, proses meluncurkan sesuatu sebenarnya cukup rumit. Kami mengalami peningkatan bertahap, dan memang membuat beberapa hal lebih efisien; beberapa struktur organisasi baru juga datang dan pergi, seperti sprint, planning, dll., kami mencoba banyak metode untuk mempercepat berbagai hal.
Tetapi pada dasarnya, sampai satu atau dua tahun terakhir, tidak banyak yang benar-benar memampatkan jendela waktu utama pengembangan produk. Sekarang tiba-tiba kami memasuki paradigma baru: biaya dan waktu yang diperlukan untuk memproduksi sesuatu menjadi sangat rendah. Anda dapat dengan cepat membuat prototipe, bahkan sekarang dapat membuat MVP awal yang mungkin bisa diluncurkan ke produksi dalam satu hari, bukan dua minggu, tiga minggu, atau empat minggu.
Yang menarik adalah, Claude sendiri terkadang masih terjebak di dunia lama sekitar tahun 2021. Ia akan mengatakan ini mungkin memerlukan seminggu. Ini membawa perubahan yang sangat menarik pada siklus hidup pengembangan produk. Sebagai PM, bagaimana saya harus memikirkan perencanaan? Jika saya menulis PRD, mendefinisikan kebutuhan, mencoba memperkirakan waktu, seperti apa seharusnya hal ini sekarang?
Jika Bukan one-way door (Keputusan Tidak Dapat Dibalik), Maka Pada Dasarnya Tidak Ada Biaya
Pembawa Acara Peter Yang: Apakah Anda masih melakukan perkiraan durasi pekerjaan dan sejenisnya?
Alex Albert:
Ini tergantung pada proyeknya. Beberapa proyek memang memiliki lebih banyak faktor yang perlu dipertimbangkan, tergantung pada ruang lingkup dan kompleksitasnya. Biasanya kami ingin mencari tahu: mana yang merupakan one-way door (keputusan satu arah, yaitu keputusan yang sekali dibuat sulit ditarik kembali, biayanya tinggi, dampaknya akan berlangsung lama)? Mana yang merupakan keputusan yang dapat dibalik? Karena ini adalah tempat Anda harus menginvestasikan waktu paling banyak. Jika sesuatu bukan one-way door, artinya kami dapat membatalkannya setelah melakukannya, maka sekarang biayanya sangat rendah, bahkan bisa dikatakan tanpa biaya.
Tetapi jika suatu hal memengaruhi pengalaman pengguna akhir, memengaruhi keputusan yang harus kami buat kemudian, atau itu adalah tindakan di dunia fisik yang benar-benar harus dibeli, diinvestasikan, dieksekusi, maka lebih sulit untuk dibalik, hal semacam ini membutuhkan lebih banyak waktu dan pemikiran.
Pembawa Acara Peter Yang: Bisakah memberikan contoh dari sisi penelitian?
Alex Albert:
Misalnya, saat kami memikirkan model baru, memilih arsitektur model sebelum pra-pelatihan adalah keputusan yang sangat besar. Dalam beberapa kasus, waktu pelatihan model mungkin memakan waktu hingga satu bulan, jadi kami harus menginvestasikan banyak waktu untuk memikirkan apa pilihan optimalnya.
Model sampai batas tertentu memiliki lebih banyak one-way door, karena mereka membutuhkan banyak waktu, intensitas, daya komputasi, dan berbagai investasi untuk benar-benar masuk ke produksi. Sebaliknya, membuat fitur baru di Claude Code jauh lebih cepat. Itu lebih seperti mengiterasi kode, memberikannya ke tangan pengguna, cepat mendapatkan umpan balik, dan melanjutkan siklus.
Jadi, alurnya masih tergantung pada apa yang sebenarnya Anda luncurkan, tetapi semakin jelas bahwa hambatan bergeser ke masalah koordinasi. Jika kami membangun sesuatu dengan sangat cepat, masih ada satu masalah: Kami perlu mengumpulkan orang-orang ini di ruangan yang sama, menilai apakah ini strategi yang benar; kami harus mencari tahu cara berkomunikasi dengan pengguna; dan juga menangani masalah-masalah samar yang menyertai setiap peluncuran. Di bidang ini, kami juga berharap Claude dapat membantu kami, tetapi ia belum membawa percepatan 10x, 100x seperti yang dilakukannya di coding.
Pembawa Acara Peter Yang: Jadi, ketika Anda merilis sesuatu seperti Opus 4.7, Anda masih perlu menulis dokumen dengan rencana.
Alex Albert:
Masih perlu rencana, Anda masih perlu memikirkan cara menyampaikan hal ini, dan model mungkin tampak luar biasa dalam beberapa tugas yang sulit, tetapi tiba-tiba gagal dalam tugas lain yang tampak sederhana, jadi kami akan menggunakan Claude sebanyak mungkin. Sekarang, area yang paling terpengaruh masih coding, bidang lain masih membutuhkan pemikiran strategis manusia.
Pembawa Acara Peter Yang: Saat rapat review dengan pemasaran atau kolega, apakah Anda akan membuka Claude?
Alex Albert:
Tentu. Bagi saya, salah satu percepatan besar adalah: Saya tidak lagi terlalu mudah terhambat karena "tidak mendapatkan jawaban dan data". Dulu, jika saya memiliki pertanyaan, misalnya, bagaimana performa suatu fitur di lingkungan produksi, berapa banyak pengguna yang menggunakannya setiap hari, apa umpan baliknya, saya mungkin perlu meminta tim ilmu data memulai penyelidikan lengkap, lalu mendapatkan hasilnya beberapa hari kemudian.
Sekarang saya bisa menyelesaikannya dalam 10 menit. Saya membuka sesi Claude Code, ia dapat mengakses basis data produk kami, dapat melihat log, memeriksa masalah, menjelajahi Slack, ini adalah percepatan besar bagi pemikiran strategis saya, karena saya tidak akan terhambat sebelum membuat keputusan berikutnya.
Pembawa Acara Peter Yang: Dalam pemikiran strategis, apakah Anda akan membangun semacam skill, membuat Claude mengajukan serangkaian pertanyaan kepada Anda, membantu Anda memikirkan sesuatu dengan jelas?
Alex Albert:
Tentu, Claude bagi saya adalah partner brainstorming terbaik di dunia, saya bisa mendapatkan umpan balik dan kritik terhadap suatu ide kapan saja. Saya pikir ini sangat kuat, terutama ketika Anda ingin bergerak cepat. Setiap orang di Anthropic sangat sibuk, jadi bisa langsung mendapatkan umpan balik dan kritik terhadap dokumen, ide, atau apa pun yang saya tulis, sangat membantu.
Bagaimana Alex Menggunakan Claude Cowork untuk Uji Tekan Dokumen
Pembawa Acara Peter Yang: Ini mungkin siklus kerja manajer produk yang paling umum: Anda memiliki dokumen, lalu menginginkan umpan balik. Apakah Anda akan menggunakan Claude Code untuk melakukan ini, atau langsung menggunakan Claude.ai?
Alex Albert:
Belakangan ini saya banyak menggunakan Claude Cowork, saya sangat suka format Cowork, ini adalah antarmuka interaksi yang bagus. Tim telah melakukan pekerjaan luar biasa selama beberapa bulan terakhir, dari rilis beberapa bulan lalu, hingga sekarang telah menjadi pengalaman yang menurut saya sangat berkualitas tinggi. Cowork adalah alat yang bagus, salah satu favorit saya.
Pembawa Acara Peter Yang: Jadi Anda memiliki draf dokumen dan beberapa bahan referensi. Apakah Anda memiliki semacam skill yang membuatnya membantu Anda melalui seluruh proses pengambilan keputusan?
Alex Albert:
Ya. Misalnya, saya akan berkata: pikirkan ini dari perspektif X, Y, Z. Apa pertanyaan yang akan Anda ajukan kepada saya? Atau tantang asumsi saya, tunjukkan di mana argumen saya lemah. Banyak pemikiran tidak bisa sepenuhnya di-outsource, karena menulis itu sendiri adalah berpikir. Anda perlu mengeluarkan ide Anda dengan menulis, memutarnya berulang-ulang di kepala. Tetapi Claude dapat membantu Anda keluar dari kebuntuan, memecahkan masalah dari sudut pandang yang mungkin tidak Anda pikirkan sendiri.
Pembawa Acara Peter Yang: Di tim penelitian, apakah Anda juga mengirimkan kode sendiri?
Alex Albert:
Ini tergantung pada masalah spesifiknya. Dalam hal-hal yang saya kirimkan, sebagian besar sebenarnya terkait dengan evaluasi. Saya ingin memastikan dapat mengukur model dalam dimensi yang saya pedulikan, dan memberikan temuan tentang di mana model baik, di mana gagal, kembali ke tim penelitian. Kemudian kami bersama-sama merumuskan strategi, memutuskan bagaimana menyelesaikan masalah ini, intervensi penelitian apa yang harus dilakukan, cara apa yang paling dapat terus meningkatkan nilai dalam evaluasi ini, sehingga benar-benar memperbaiki masalah.
Proses Evaluasi Model Baru
Pembawa Acara Peter Yang: Evaluasi yang Anda maksud sepertinya bukan uji terminal atau sejenisnya, ya? Apakah evaluasi Anda lebih realistis? Bagaimana sebenarnya Anda mengevaluasi model? Apakah akan dibagi menjadi kategori seperti karakter dan lainnya?
Alex Albert:
Misalnya, kami ingin menguji kemampuan visual Claude: apakah ia dapat menghitung berapa banyak benda dalam sebuah gambar. Misalkan saya menemukan sebuah gambar, Claude sepertinya tidak bisa menghitung elemen lebih dari 10. Mungkin sekarang bisa, tapi ini hanya contoh. Saya akan mengambil masalah ini dan memikirkannya: bagaimana saya bisa mendapatkan lebih banyak kasus uji dengan tipe yang sama, sehingga menguji hipotesis saya?
Mungkin saya akan meminta Claude membuat data sintetis untuk saya, mungkin memintanya merender beberapa gambar, lalu memasukkan gambar ini sebagai input visual kembali ke Claude, melihat apakah ia dapat mengenalinya. Mungkin saya akan mencari contoh dari internet, atau menggunakan mekanisme sumber lain apa pun untuk menghasilkan kasus uji ini.
Pembawa Acara Peter Yang: Apakah kita berbicara tentang ribuan kasus uji?
Alex Albert:
Mungkin, tetapi terkadang beberapa puluh sampel sudah cukup untuk membuktikan bahwa model memiliki masalah yang perlu diperbaiki. Tidak harus sangat komprehensif untuk membuktikan suatu masalah dan membentuk tujuan yang dapat dioptimalkan secara berkelanjutan.
Pembawa Acara Peter Yang: Misalkan Anda memberinya 10 gambar, ia tidak dapat mengenali angka yang sangat kecil. Apa yang terjadi selanjutnya? Apakah Anda pergi ke tim penelitian dan berkata: "Ini masalah, bisakah kalian memperbaikinya?"
Alex Albert:
Kami akan memikirkannya dari beberapa sudut pandang . Pertama, tidak hanya menunjukkan model memiliki masalah, tetapi juga memikirkan: apa nilainya bagi klien dan kasus penggunaan kami? Karena, kemampuan Claude melihat sesuatu dalam gambar, pada akhirnya bagaimana memengaruhi hal yang ingin dilakukan pengguna dengan Claude di hilir?
Jadi, semakin realistis evaluasi, semakin mirip dengan bentuk tugas yang dialami pengguna akhir, semakin baik, kami akan berusaha mendapatkan data seperti ini, memastikan data memiliki nuansa ini.
Selanjutnya akan ada serangkaian cara intervensi. Mungkin kami perlu kembali ke tahap pra-pelatihan untuk melihat beberapa hal, mungkin dapat diselesaikan pada tahap pembelajaran penguatan. Pada titik ini, kami harus melakukan brainstorming strategis dengan tim penelitian: apa cara terbaik di sini?
Pembawa Acara Peter Yang: Seberapa cepat siklus untuk mencoba lagi?
Alex Albert:
Ini tergantung pada di mana kami pikir masalahnya berada. Jika itu adalah sesuatu yang dapat diselesaikan di tahap akhir dengan lingkungan pembelajaran penguatan baru, mungkin bisa dibangun dengan sangat cepat.
Pembawa Acara Peter Yang: Ketika Anda menghubungkannya dengan kasus penggunaan pelanggan nyata, ada jutaan orang yang berbicara dengan Claude setiap hari, mungkin seseorang menggunakannya untuk pengajuan pajak, atau melakukan banyak hal lain. Bagaimana Anda memilih kasus penggunaan yang paling ingin diperbaiki? Bagaimana Anda meyakinkan tim: "Inilah yang harus kami optimalkan"?
Alex Albert:
Di sinilah "data berbicara". Intinya: berapa persen pengguna yang mencoba melakukan ini, kami sangat memedulikannya; atau kami memiliki klien yang banyak menggunakan Claude, dan mereka menginginkan kemampuan ini menjadi lebih baik.
Selain itu, banyak alur kami juga sangat didorong oleh penggunaan internal: apa yang kami pedulikan saat menggunakan model sendiri? Saya menemui hambatan ini setiap hari saat menggunakan model, maka kami harus memperbaikinya. Ini juga sangat persuasif.
Bagaimana Anthropic Melatih Karakter Claude
Pembawa Acara Peter Yang: Hal yang paling saya sukai dari Claude adalah karakternya, dan menurut saya itu semakin baik. Ia akan menentang di tempat yang tepat, sementara beberapa model lain hanya akan berkata: "Apa lagi yang bisa saya bantu?" Karakter model bukan hanya kulit luar, kan? Ada pelatihan di baliknya.
Alex Albert:
Ya, ada banyak pelatihan. Ini adalah arah yang sangat kami perhatikan. Kami menyebutnya karakter Claude. Saya pikir ini sangat sangat penting.
Kami memiliki banyak orang yang menginvestasikan banyak waktu untuk meneliti: Bagaimana Claude seharusnya menampilkan dirinya? Apa keyakinannya? Apa nilainya? Bagaimana ia bertindak? Semua pertanyaan ini sangat samar. Di awal, beberapa orang mungkin mengabaikannya, menganggap model hanya sebagai sesuatu yang saya perintahkan untuk melakukan apa, lalu ia melakukannya, mengapa harus peduli bagaimana kedengarannya, apa yang dipikirkannya?
Namun, seiring kami semakin menuju dunia di mana agen menjalankan tugas dalam jangka panjang dan perlu membuat banyak keputusan penilaian, pertanyaan tentang apa karakternya, apa yang ia pedulikan, akan menjadi sangat penting.
Pembawa Acara Peter Yang: Ini tidak seperti kode yang hanya dapat dinilai apakah berjalan. Bagaimana Anda mengevaluasi karakter? Apakah dengan menemukan orang yang lebih baik di dalam Anthropic, lalu membandingkan model dengannya?
Alex Albert:
Ini adalah kombinasi dari berbagai metode. Kami akan melihat beberapa indikator yang dapat diukur, juga dapat meminta Claude melihat output Claude, menilai bagaimana kedengarannya. Bagi peneliti mana pun, keterampilan yang sangat penting adalah membaca catatan percakapan, lalu menilai: Saya melihatnya melakukan ini sekarang, atau sekarang ia berubah menjadi itu. Anda perlu dapat mengidentifikasi perbedaan halus ini.
Seiring waktu, ketika Anda membaca ratusan, ribuan catatan percakapan model, Anda akan secara bertahap membentuk intuisi yang lebih tajam, seperti ketika Anda banyak menggunakan model ini di Claude.ai, Anda akan merasakan seperti apa model itu.
Pembawa Acara Peter Yang: Jadi bukan model ini mendapat skor 7 pada suatu dimensi, tetapi lebih seperti perasaan?
Alex Albert:
Keduanya. Karakter mungkin lebih sulit untuk diukur daripada performa pemrograman, tetapi bukan tidak mungkin diukur, masih ada cara.
Pembawa Acara Peter Yang: Untuk orang yang ingin belajar membuat produk, menjadi manajer produk asli AI, apa saran Anda?
Alex Albert:
Saran paling sederhana yang bisa saya berikan adalah: cobalah. Kedengarannya sederhana, tetapi setiap kali Anda akan melakukan sesuatu, menghadapi masalah sulit, bersiap untuk menanyakan sesuatu kepada seseorang, Anda dapat secara paralel menanyakan masalah yang sama kepada Claude, lalu membandingkan hasilnya.
Misalnya, Anda ingin menganalisis pengguna, mengekstrak tema yang paling dipedulikan pengguna terhadap fitur yang baru dirilis. Anda tentu dapat bertanya kepada tim ilmu data, atau bertanya kepada peneliti pengalaman pengguna, ini masih sangat berharga. Tetapi pada saat yang sama, lemparkan juga masalah ini kepada Claude, berikan beberapa alat, biarkan ia menjelajahi sendiri, berikan waktu untuk benar-benar mendalami masalah ini, lalu bandingkan hasilnya.
Melalui banyak prompt dan pertanyaan, Anda akan perlahan membangun peta Anda sendiri: hal-hal apa yang harus menggunakan Claude, di mana dapat diandalkan, di mana masih belum dapat diandalkan.
Pembawa Acara Peter Yang: Saat membuat keputusan, saya sering memintanya melakukan riset mendalam, karena pencarian biasa tidak cukup bagi saya, saya perlu ia menyelidiki secara mendalam. Hal seperti memindai 1000 halaman web, sangat superhuman. Di dalam Anthropic, jika Anda pergi ke ilmuwan data dan berkata "Bisakah Anda membantu saya dengan ini", mereka mungkin akan bertanya: "Sudahkah Anda bertanya kepada Claude dulu?"
Alex Albert:
Memang ada faktor ini, orang berharap Anda bertanya kepada Claude dulu. Saya pikir kami sedang bergerak ke lapisan abstraksi yang lebih tinggi. Bagi tim ilmu data, sekarang waktu mereka lebih berharga dihabiskan untuk masalah tingkat tinggi, bukan mengambil data secara manual.
Tidak ada yang ingin melakukan hal-hal itu. Setiap orang ingin memikirkan masalah yang lebih sulit, lebih strategis: bagaimana kami mengukur ini dengan cara yang sama sekali baru? Apa lagi hal baru yang dapat dilakukan? Bukan hanya pergi memeriksa DAU terbaru suatu produk.
Saya pernah bekerja dengan banyak ilmuwan data, mereka sering terjebak dalam tugas SQL dasar. Tetapi mereka semua ingin melakukan hal-hal yang lebih strategis, sekarang AI akhirnya dapat membebaskan mereka, kami sebenarnya memberdayakan semua orang di sekitar mereka, sama untuk semua peran.
Misalnya, mendefinisikan fitur baru. Dulu, jika Anda adalah manajer produk, apakah Anda paham teknologi atau tidak, biasanya tidak punya cukup waktu untuk mendalami kode, mencari tahu bagaimana sebenarnya fitur baru ini harus diimplementasikan, berapa banyak pekerjaan yang dibutuhkan, apakah perlu membangun ulang suatu sistem, di mana batasan sebenarnya. Saat itu, cara yang lebih baik adalah mencari tahu bersama mitra teknik.
Sekarang saya bisa mengirim Claude untuk melakukan penyelidikan ini untuk saya. Ia mungkin kembali dan memberi tahu saya: sebenarnya fitur ini hanya perlu mengubah 10 baris kode di sini, lalu menyalakan tanda di suatu sakelar. Itu akan benar-benar mengubah penilaian prioritas saya untuk keputusan ini. Sekarang saat menulis dokumen spesifikasi, saya dapat lebih cepat mencapai penilaian prioritas semacam ini.
Pembawa Acara Peter Yang: Banyak perusahaan tradisional menghabiskan banyak waktu untuk perencanaan tahunan, perencanaan kuartalan, dan peta jalan. Tim penelitian mungkin lebih seperti ini, karena Anda harus memikirkan masalah yang lebih panjang daripada merilis sesuatu setiap hari. Apakah Anda melakukan hal-hal ini?
Alex Albert:
Ya. Ini sedikit seperti pepatah terkenal: Perencanaan tidak tergantikan, tetapi rencana itu sendiri tidak berguna. Tindakan melakukan perencanaan sangat penting, tetapi Anda harus mengakui, rencana mungkin akan benar-benar dibatalkan.
Pembawa Acara Peter Yang: Salah satu tantangan tersulit manajer produk adalah berapa banyak waktu yang harus dihabiskan untuk perencanaan, karena selalu ada keseimbangan antara perencanaan dan peluncuran yang sebenarnya. Apakah ada praktik terbaik di dalam Anthropic? Anda benar-benar bisa membuat Claude menulis dokumen 10 halaman.
Alex Albert:
Sulit memberikan jawaban seragam yang berlaku untuk semua tim, saya pikir itu tergantung pada produknya. Kami pasti tidak akan mengatakan Anda harus menghasilkan dokumen dengan panjang atau jumlah halaman tertentu. Yang lebih penting adalah: Apakah Anda telah melakukan pemikiran yang cukup, memikirkan dampak dari semua keputusan yang tidak dapat dibalik?
Jika sudah, maka format dokumen seperti apa, berapa halaman, tidak penting. Kuncinya adalah apakah kami cukup tenang, tahu tidak ada hal penting yang terlewat, dapat terus bergerak maju, dan menangani masalah di jalan. Selama tidak ada hambatan terpanjang yang dapat menghentikan kami, tidak ada keputusan yang tidak dapat dibalik dengan konsekuensi yang sangat serius, maka dapat dilanjutkan.
Pembawa Acara Peter Yang: Saat menggunakan Claude di rumah, saya akan menjalankan banyak proyek berbeda secara bersamaan, lalu beralih konteks antar proyek, menunggu mereka membangun sesuatu. Apakah pekerjaan manajer produk juga seperti ini? Apakah Anda juga memiliki banyak proyek berbeda?
Alex Albert:
Ya, karena ada banyak proyek berbeda, dan Anda memang harus menunggu agen bekerja, saya pikir ada peluang besar di sini. Seiring kami semakin banyak mengelola agen, mereka menyelesaikan blok kerja yang semakin besar untuk Anda, Anda dapat memulai lebih banyak proyek secara paralel. Bagaimana kami harus memikirkan masalah manajemen konteks kami sendiri? Antarmuka interaksi seperti apa yang paling cocok untuk mengekspos hal-hal ini? Bagaimana saya melacak apa yang benar-benar penting, di mana agen saya terjebak, di mana memerlukan bantuan saya?
Pasti ada cara yang lebih baik daripada daftar obrolan kecil. Saat ini masih terlalu dini untuk mengatakan seperti apa sebenarnya, tetapi kami bahkan di dalam Anthropic melihat banyak eksperimen, mengeksplorasi seperti apa seharusnya.
Pembawa Acara Peter Yang: Apakah insinyur juga membuat prototipe sendiri?
Alex Albert:
Tentu. Ada budaya prototipe yang sangat kuat di dalam perusahaan, orang-orang terus membangun sesuatu, berbagi sesuatu. Ini juga salah satu pengalaman kerja paling keren di sini: di seluruh organisasi, dari penjualan, perekrutan, teknik hingga penelitian, setiap orang memiliki inisiatif yang sangat kuat. Orang-orang akan secara proaktif mulai melakukan sesuatu yang tidak ditugaskan kepada mereka.
Pembawa Acara Peter Yang: Anda harus membiarkan ribuan bunga mekar. Selain Dario yang menulis artikel panjang di Slack, apa budaya perusahaan menarik lainnya di Anthropic?
Alex Albert:
Cara Dario menulis artikel panjang bukanlah hal yang unik baginya. Anthropic memiliki banyak orang yang menginvestasikan banyak waktu dan energi untuk menulis. Kami memiliki budaya menulis yang sangat kuat. Banyak orang akan menulis dokumen, juga menulis pesan Slack yang panjang, menggunakan cara ini untuk berkomunikasi.
Kami juga melakukan sesuatu yang cukup menarik di banyak rapat. Saya pikir ini umum di beberapa tempat, tetapi tidak semua perusahaan memilikinya: orang-orang membawa dokumen ke rapat, lalu akan menghabiskan waktu yang cukup banyak di awal untuk berkomunikasi langsung di dokumen. Terkadang suasana agak lucu, karena banyak orang duduk di ruangan, tetapi sangat sunyi. Orang-orang membaca dalam diam, menulis diskusi panjang, komentar, dll., di dokumen.
Jadi kami sangat bergantung pada dokumen. Saya suka cara ini, karena ini juga cara kerja yang saya sukai, dan sangat bermanfaat bagi Claude. Ketika semua hal dituliskan, kami memiliki korpus informasi yang dapat dirujuk oleh Claude.
Saya sebenarnya mendorong organisasi eksternal juga berpikir ke arah ini: bagaimana mengubah semua pengetahuan implisit menjadi bentuk tertulis? Bisa dengan mentranskripsi rapat, juga mendorong lebih banyak penulisan tentang alur kerja, proses onboarding, dll. Tuliskan semuanya, biarkan Claude dapat mengaksesnya, karena ini adalah lebih banyak konteks yang dimilikinya.
Pembawa Acara Peter Yang: Jadi, meskipun sekarang banyak hal dirilis dengan cepat, Anda tetap menjaga budaya menulis dan dokumentasi yang kuat. Bisa juga dikatakan, mengapa saya harus menulis sendiri? Saya bisa langsung meminta Claude menghasilkan semua file Markdown.
Alex Albert:
Tetapi saya masih akan membacanya, dan bekerja di dalam perusahaan berbeda, Anda masih harus memikirkan sendiri segala sesuatunya.
Masalah Kesadaran yang Sedang Diam-diam Diteliti oleh Anthropic
Pembawa Acara Peter Yang: Di tim penelitian, orang-orang membicarakan hal seperti AGI. Saya pikir AGI adalah konsep yang sangat samar, tetapi satu hal yang saya khawatirkan adalah: jika model-model ini benar-benar memiliki semacam kesadaran, dan saya menyuruh mereka melakukan pekerjaan acak, apakah mereka akan berkata: "Tidak, saya tidak mau." Lalu manusia selesai. Bagaimana pendapat Anda? Saat melatih hal-hal ini, apakah Anda dengan sengaja menghindari kesadaran?
Alex Albert:
Ini pertanyaan besar. Kami memang memiliki orang yang khusus memikirkan ini. Sekarang ada beberapa kolega yang seluruh pekerjaannya adalah memikirkan apa artinya Claude sebagai pelaku yang sadar, sebagai agen yang sadar. Saat ini kami tidak memiliki posisi resmi yang mengatakan Claude memiliki kesadaran.
Bahkan membicarakan hal ini terkadang terdengar agak gila, tetapi kami memang menginvestasikan banyak pemikiran. Dan bahkan tanpa menilai apakah Claude memiliki kesadaran atau tidak, kami bisa belajar banyak darinya, misalnya bagaimana ia berinteraksi, bagaimana ia berperilaku.
Pembawa Acara Peter Yang: Bagaimana cara berpikirnya?
Alex Albert:
Ya. Jika Anda melihat kartu model model kami, saya pribadi merasa itu adalah harta karun informasi. Anda akan melihat kami melakukan banyak pekerjaan, mencoba mengukur bagaimana Claude akan bertindak dalam suatu situasi, apa model mentalnya. Jika dimasukkan ke dalam skenario tertentu, apakah ia akan melakukan X atau Y?
Dengan memikirkan cara berpikir Claude, kami sebenarnya belajar banyak, dan hal-hal ini dapat diubah menjadi pengalaman produk, membuat Claude lebih baik berinteraksi, lebih baik digunakan.
Pembawa Acara Peter Yang: Ini adalah pertanyaan yang sangat menarik, di satu sisi ada dampak hilir jangka panjang, di sisi lain juga ada nilai jangka pendek yang dapat segera dibawa kembali ke pengalaman produk. Karena saya pikir kami akan semakin mempercayai model, membiarkannya melakukan pekerjaan yang semakin panjang, dan tanpa pengawasan manusia.
Alex Albert:
Ya, ia akan membuat banyak keputusan selama proses yang mungkin sama sekali tidak Anda awasi. Jadi, apa yang akan dilakukannya, sangat penting.
Pembawa Acara Peter Yang: Sangat penting. Jika hal ini menulis semua kode Anda, memutuskan sistem basis data mana yang akan digunakan, membuat semua keputusan arsitektur, dalam batas tertentu Anda pasti harus mempercayainya.
Alex Albert:
Benar. Jadi, memiliki karakter berkualitas tinggi seperti yang kami diskusikan sebelumnya, sangat penting.






