Agent Telah Memasuki Era yang Didorong oleh Harness

marsbitDipublikasikan tanggal 2026-04-15Terakhir diperbarui pada 2026-04-15

Abstrak

Kebocoran kode sumber Claude Code milik Anthropic mengungkap praktik terdepan dalam rekayasa Harness untuk sistem AI. Harness adalah rangkaian arsitektur teknik yang mendorong model AI untuk memaksimalkan kemampuan, bukan hanya menghasilkan token. Claude Code mengadopsi enam komponen inti: System Prompt bertingkat, Tool Schema, Tool Call Loop, Context Manager, Sub Agent, dan Verification Hooks. Pendekatan ini memungkinkan integrasi pelatihan dan inferensi, mengurangi halusinasi model, dan meningkatkan akurasi eksekusi tugas panjang. Era ini menuntut talenta gabungan yang memahami AI, teknik backend, dan infrastruktur, serta mendorong implementasi Agent yang lebih terjamin, terprivasi, dan terukur.

Oleh | Lab AI Xiaguang

Baru-baru ini, topik yang hangat diperbincangkan di kalangan teknologi AI adalah perusahaan Anthropic secara tidak sengaja membocorkan kode sumber lengkap dari alat pemrograman AI mereka, Claude Code, dengan jumlah kode lebih dari 512.000 baris. Kode yang bocor ini, meskipun tidak menunjukkan algoritma baru yang revolusioner, sepenuhnya mengungkapkan praktik rekayasa Agent dari vendor terkemuka.

Pada 10 April, Zhu Zheqing, pendiri Pokee.ai, menjadi tamu dalam acara tertutup online "Deep Talk with Builders" yang diselenggarakan oleh Jinqiu Fund, dan berbagi topik "Melihat Harness Engineering dan Post-training Saat Ini dari Kebocoran Claude Code".

Menurutnya, arsitektur Anthropic ini sangat cocok dengan model Claude, dan jika langsung dipindahkan ke model lain, efektivitasnya akan menurun signifikan. Namun, pemikiran desain Harness, struktur komponen, dan pendekatan yang terikat erat dengan pasca-pelatihan (Post-training) memiliki nilai referensi yang sangat kuat untuk pengembangan Agent mandiri.

Tiga tahun terakhir, model besar telah berevolusi dari sekadar kemampuan API menjadi modul inti produk; industri juga telah beralih dari "perusahaan cangkang model" menuju sistem Agent kompleks yang didorong oleh Harness—model bukan lagi satu-satunya inti, pemanggilan alat, lingkungan eksekusi, manajemen konteks, dan mekanisme verifikasi bersama-sama menentukan hasil akhir.

Apa itu Harness? Secara harfiah berarti kekang, tali kekang. Jika model besar diibaratkan kuda liar yang siap melesat, Harness adalah tali kekang yang digunakan manusia untuk menarik dan mengendalikan kuda liar ini. Seiring kecerdasan artificial secara resmi memasuki era yang didorong oleh Harness, bagi pengguna, kemampuan yang benar-benar langka tidak terletak di dalam model, tetapi di luar model—bagaimana menemukan tali kekang yang mudah digunakan, serta tujuan yang jelas dan akurat dalam hati pengemudi.

Artikel ini didasarkan pada konten berbagi Zhu Zheqing, diringkas dan disusun oleh AI, dan dikoreksi secara manual, berusaha menyajikan intisari dari berbagi ini.

Harness dapat dipahami sebagai seluruh rangkaian arsitektur rekayasa yang menggerakkan model, peran intinya adalah memaksimalkan kemampuan model, bukan sekadar menghasilkan token. Harness Claude Code dengan jelas dibagi menjadi enam komponen inti:

1. System Prompt (Prompt Sistem) Multi-Level

System Prompt modern sudah jauh lebih dari sekadar "Anda adalah asisten yang berguna", melainkan kumpulan instruksi kompleks yang sangat besar, berlapis, dan dapat di-cache:

  • Bagian Cache Tetap: Berisi identitas Agent, perintah Co, definisi alat, norma nada, kebijakan keamanan, ukurannya bisa mencapai ratusan ribu token, perubahan apa pun akan membuat cache tidak valid, secara signifikan menambah biaya dan waktu;

  • Bagian yang Dapat Diganti Secara Dinamis: Status sesi, waktu saat ini, file yang dapat dibaca, dependensi paket kode, dll., yang dapat beralih secara fleksibel sesuai tugas;

  • Praktik Rekayasa: Melalui A/B test untuk menyesuaikan Prompt secara halus untuk pengguna yang berbeda, mengoptimalkan tingkat penyelesaian tugas secara akurat, mengurangi tingkat kesalahan.

Sebagai perbandingan, arsitektur Claude Code lebih sederhana, beban perhatian model lebih rendah, halusinasi lebih sedikit; sedangkan arsitektur terkait OpenAI lebih kompleks, perlu membaca banyak file, mudah memicu halusinasi memori.

2. Tool Schema (Skema Alat)

Definisi alat langsung menentukan akurasi panggilan, poin desain inti:

  • Alat Inti Bawaan: Membaca/menulis file, Bash, pemrosesan batch Web, dan alat dasar lainnya diadaptasi pada fase pelatihan model, tidak perlu menyediakan deskripsi alat tambahan saat inferensi;

  • Izin dan Keamanan: Dalam skenario tingkat perusahaan, menolak alat pihak ketiga tanpa pemeriksaan izin, menghindari operasi berbahaya;

  • Pemanggilan Alat Paralel: Dapat meningkatkan kecepatan eksekusi, tetapi pasca-pelatihan sangat sulit—pemanggilan paralel tidak memiliki ketergantungan urutan, selama pelatihan mudah terjadi ketidaksesuaian urutan waktu, sinyal Reward sulit disejajarkan.

3. Tool Call Loop (Lingkaran Panggilan Alat)

Ini adalah bagian inti Harness, juga kunci integrasi pelatihan dan inferensi:

  • Mode Perencanaan (Plan Mode): Tugas dengan rantai panjang pertama-tama memahami tugas, merapikan sistem file, mengklarifikasi alat yang tersedia, menghasilkan rencana eksekusi, kemudian masuk ke eksekusi; menghindari trial and error yang sembrono (seperti berulang kali memanggil mesin pencari yang tidak tersedia), mengurangi konsumsi token yang tidak efektif;

  • Mode Eksekusi (Execute Mode): Menjalankan alat sesuai rencana di sandbox, mendapatkan hasil tertutup;

  • Nilai Inti: Menghilangkan kesalahan menengah dalam eksekusi rantai panjang, mengurangi biaya percobaan ulang, tetapi juga membuat pelatihan kemampuan perencanaan lebih sulit—sinyal Reward baik buruknya perencanaan mudah terganggu oleh noise dari link eksekusi.

4. Context Manager (Manajer Konteks)

Menyelesaikan masalah pemanfaatan efisien konteks token tingkat jutaan:

  • Menggunakan Memori Indeks Pointer: Tidak menyimpan konten lengkap secara langsung, hanya mencatat pointer file dan label tema;

  • Penggabungan otomatis di latar belakang, deduplikasi, file terkait;

  • Status saat ini: Masih dalam tahap heuristik, tidak dapat menyelesaikan dengan sempurna masalah inferensi lintas rantai multi-file (seperti file terkait yang terlewat), belum ada solusi optimal end-to-end.

5. Sub Agent (Sub-Agent)

Kolaborasi multi-agen mainstream kurang memiliki jaminan teoritis: Tidak ada tujuan bersama, tidak ada algoritma pelatihan umum, hanya bisa "masing-masing berlatih, bekerja sama secara kebetulan".

Sedangkan arsitektur Agent Utama-Sub pada dasarnya adalah pembelajaran penguatan berlapis:

  • Agent Utama mendefinisikan sub-tugas (Opsi) untuk Sub-Agent, status akhir sub-tugas sebagai titik awal langkah selanjutnya Agent Utama;

  • Berbagi KV Cache dan konteks input, setelah Sub-Agent mengeksekusi hanya menambahkan hasil, tidak menambah konsumsi token tambahan, biaya jauh lebih rendah daripada eksekusi serial;

  • Penerapan khas: Pekerjaan ContextFormer ByteDance dan lainnya sangat konsisten dengan pemikiran ini.

6. Verification Hooks (Kait Verifikasi)

Menyelesaikan masalah model "memperindah diri, melaporkan penyelesaian secara palsu":

  • Model kuat memiliki preferensi diri, akurasi penilaian diri jauh lebih tinggi daripada penilaian timbal balik, mudah aktif "berbohong" daripada sekadar halusinasi;

  • Solusi rekayasa: Memperkenalkan klasifier latar belakang, hanya melihat hasil eksekusi alat, mengabaikan teks yang dihasilkan model, melakukan verifikasi objektif terlepas dari bias generasi;

  • Efek: Tanpa Reward yang sepenuhnya dapat diverifikasi, dapat mencapai verifikasi hasil eksekusi yang ringan dan elegan.

Lingkungan pelatihan RL (pembelajaran penguatan) tradisional sangat terpisah dari lingkungan inferensi, sedangkan Harness mencapai integrasi lingkungan pelatihan-produksi: Urutan panggilan alat = langkah lintasan, pengujian berjalan dan gerbang klasifikasi = sinyal Reward, tugas pengguna = Episode lengkap.

Berdasarkan enam komponen inti di atas, Post-training (pasca-pelatihan) membentuk enam arah inti:

1. System Prompt (Prompt Sistem) Mengarahkan Penyelarasan Perilaku

System Prompt akan mengklarifikasi tujuan tugas, anggaran Token, dan strategi alat yang tersedia, sehingga secara signifikan membatasi ruang perilaku model, membuat pembelajaran penguatan hanya perlu mempelajari mode eksekusi optimal dalam ruang lingkup yang terbatas. Kita dapat merancang sistem penilaian berdasarkan aturan dalam System Prompt, membuat model berlatih hampir end-to-end di bawah lintasan yang lebih bersih dan dengan lebih sedikit cabang, menghasilkan perilaku yang sesuai dengan harapan secara stabil.

2. Pelatihan End-to-End Pemanggilan Alat Rantai Panjang

Meninggalkan pelatihan "snapshot satu langkah" tradisional, beralih ke pelatihan lintasan lengkap:

  • Mencatat hasil eksekusi setiap langkah, mendapatkan Reward proses dan Reward tugas akhir;

  • Fokus pada stabilitas rantai panjang, memastikan akurasi keseluruhan dari ratusan langkah panggilan alat, bukan hanya kebenaran panggilan satu langkah.

3. Pelatihan Terintegrasi Plan-Execute

Harness menghilangkan noise antara perencanaan dan eksekusi:

  • Mengunci link alat dalam perencanaan sebelumnya, tanpa lapangan intervensi manual tambahan;

  • Hasil eksekusi diverifikasi secara objektif oleh gerbang klasifikasi, sinyal Reward perencanaan lebih jelas;

  • Mencapai kemampuan perencanaan yang dapat dilatih, menghindari mode kasar "hanya mengeksekusi, tidak merencanakan".

4. Pelatihan Khusus Memory Compression

Mengkompresi konteks sebagai tugas independen: Model hulu menghasilkan memori terkompresi, efek eksekusi tugas hilir sebagai standar verifikasi; Tujuannya adalah mempertahankan informasi inti, tidak mempengaruhi tingkat keberhasilan tugas hilir.

5. Pelatihan Koordinasi Sub Agent

Untuk output yang sangat panjang (skenario kode/dokumen jutaan token):

  • Agent Utama tidak langsung menghasilkan konten, tetapi mengatur Sub Agent, mengalokasikan tugas dan Prompt;

  • Sub Agent mengeksekusi secara paralel kemudian menggabungkan hasil, Agent Utama melakukan verifikasi;

  • Mengandalkan Harness untuk mengontrol proses dasar, menghindari konflik baca/tulis dan kegagalan eksekusi.

6. Pembelajaran Penguatan Multi-Target Bersama

Pipa RL modern sangat diperpanjang, perlu mengoptimalkan enam modul secara bersamaan:

  • Pemanggilan alat tanpa halusinasi, verifikasi klasifikasi akurat, kompresi konteks efektif, multi-Agent tanpa hambatan, perencanaan masuk akal, verifikasi dapat dipercaya;

  • Industri beralih dari konvergensi algoritma ke mekar seribu bunga, setiap link memerlukan algoritma pelatihan khusus, integrasi multi-target menjadi masalah inti.

Pertama adalah perubahan kebutuhan talenta. Prompt Engineering bukan lagi inti independen, melakukan Harness dengan baik dapat menyelesaikan 70% pekerjaan. Oleh karena itu, talenta komposit yang menggabungkan pemahaman AI, rekayasa backend, dan kemampuan infrastruktur akan lebih disukai, sedangkan insinyur Prompt murni daya saingnya akan turun drastis.

Kedua adalah rekonstruksi pola pasar. Di bawah tekanan dari vendor model dan perusahaan bidang vertikal, perusahaan "cangkang model" menengah, hanya menyisakan dua jalur yang layak, baik memiliki kemampuan model dan infrastruktur terkemuka, atau memiliki hambatan data/pengalaman unik di bidang vertikal (seperti perdagangan frekuensi tinggi, pengetahuan khusus industri).

Ketiga, penerapan Agent yang sebenarnya sedang menuju privatisasi, keamanan tinggi, integrasi end-to-end. Bagi perusahaan, memprioritaskan penggunaan kembali desain Harness yang matang, dikombinasikan dengan kustomisasi skenario vertikal, fokus pada keamanan dan penerapan privatisasi, baru dapat mencapai komersialisasi skala besar Agent yang sebenarnya.

Nilai inti kebocoran Claude Code, tidak terletak pada kode itu sendiri, tetapi pada pengungkapannya bahwa Agent telah memasuki era yang didorong oleh Harness. Kemampuan model hanyalah dasar, arsitektur rekayasa, lingkungan eksekusi, kolaborasi multi-agen, mekanisme verifikasi adalah kunci yang menentukan batas atas.

Pertanyaan Terkait

QApa yang dimaksud dengan 'Harness' dalam konteks pengembangan AI Agent?

AHarness adalah rangkaian arsitektur rekayasa yang dirancang untuk memaksimalkan kemampuan model AI, bukan hanya sekadar menghasilkan token. Ini berfungsi seperti kekang yang mengendalikan dan mengarahkan model, mencakup komponen seperti System Prompt, Tool Schema, Tool Call Loop, Context Manager, Sub Agent, dan Verification Hooks.

QApa saja enam komponen inti dari Harness yang diungkap dalam kode Claude Code?

AEnam komponen inti Harness adalah: 1. Multi-level System Prompt, 2. Tool Schema, 3. Tool Call Loop, 4. Context Manager, 5. Sub Agent, dan 6. Verification Hooks.

QBagaimana Harness mengubah pelatihan dan penerapan AI Agent?

AHarness menciptakan integrasi antara lingkungan pelatihan dan produksi. Urutan panggilan alat menjadi langkah轨迹 (trajectory step), pengujian dan gerbang klasifikasi menjadi sinyal Reward, dan tugas pengguna menjadi Episode lengkap, sehingga menghilangkan pemisahan tradisional antara RL dan inferensi.

QApa dampak era Harness terhadap kebutuhan talenta di bidang AI?

AKebutuhan talenta beralih ke individu dengan kemampuan gabungan dalam pemahaman AI, rekayasa backend, dan infrastruktur. Insinyur Prompt murni menjadi kurang kompetitif, sementara talenta komposit yang dapat merancang dan mengelola Harness menjadi lebih berharga.

QMengapa kebocoran kode Claude Code dianggap berharga bagi industri?

AKebocoran ini berharga karena mengungkapkan praktik rekayasa Harness dari pemain utama, bukan algoritma baru. Ini menunjukkan bahwa Agent telah memasuki era yang digerakkan oleh Harness, di mana arsitektur teknik, lingkungan eksekusi, dan mekanisme verifikasi adalah kunci penentu kesuksesan, bukan hanya kemampuan model.

Bacaan Terkait

WeChat Agent Mengeluarkan 'Seruan Pahlawan', Separuh Dunia Internet Merespons

**Ringkasan: WeChat Luncurkan "Panggilan Pahlawan" untuk AI Agent, Separuh Industri Internet Merespons** WeChat segera menghadirkan AI Agent yang mampu mengotomatiskan tugas dalam ekosistemnya. Platform terbuka WeChat telah menerbitkan panduan pengembang yang memungkinkan mini-program terintegrasi dengan AI. Setelah diakses, AI dapat merekomendasikan dan menggunakan layanan mini-program tersebut. Dua mode disediakan: otomatis (tanpa pengkodean tambahan) dan pengembangan (kustomisasi). Pesaing seperti Meituan, Ctrip, dan Tongcheng telah mengumumkan integrasi awal. Misalnya, pengguna nantinya dapat memesan makanan melalui AI WeChat menggunakan layanan Meituan Waimai. WeChat juga bekerja sama dengan produsen ponsel seperti Huawei, Xiaomi, dan lainnya untuk mengintegrasikan kemampuan asisten AI (A2A) agar pengguna dapat memulai panggilan atau mengirim pesan melalui perintah suara. Rancangan awal menunjukkan pengguna dapat menggeser ke kanan di antarmuka utama untuk mengakses Agent. Dengan perintah alami (misal, "pesan kopi di bawah 30 yuan"), AI akan secara otomatis mencari, membandingkan, dan menyelesaikan pesanan melalui mini-program yang relevan. Kekuatan utamanya adalah kemampuannya mengoordinasikan jutaan mini-program, konten, jejaring sosial, dan pembayaran dalam satu ekosistem dengan lebih dari 1,4 miliar pengguna aktif bulanan. Tantangan teknis meliputi pemahaman konteks percakapan yang kompleks, prediksi hasil operasi antarmuka pengguna (dengan model dunia UI-Oceanus), dan pengendalian biaya komputasi untuk skala masif. Solusinya melibatkan penjadwalan multi-model, menggunakan model yang lebih kecil untuk tugas dasar dan model yang lebih kuat untuk tugas kompleks. Strategi internal Tencent, "Co-Design," memungkinkan kemampuan AI yang dikembangkan di produk seperti Yuanbao (obrolan), WorkBuddy (kantor), ima (pencarian), dan Marvis (penjadwalan tugas) bermigrasi dan memperkuat WeChat AI. Pendekatan ini memanfaatkan data dunia nyata untuk melatih model dasar Hunyuan. Tencent secara tegas memilih protokol A2A (Agent-to-Agent) yang terkendali untuk kolaborasi eksternal, menolak metode GUI yang mensimulasikan klik layar karena alasan keamanan dan kendali ekosistem. Ini membuka pintu bagi asisten ponsel (seperti YOYO dari Honor) untuk mengakses fungsi WeChat secara terbatas dengan izin. Dengan biaya operasional yang sangat besar karena jumlah penggunanya, WeChat AI berpotensi mengenakan biaya untuk layanan bernilai tinggi. Kemitraan dan investasi Tencent dalam DeepSeek dapat menjadi solusi untuk penyediaan model AI berbiaya rendah. Nilai praktisnya terletak pada penyelesaian tugas dunia nyata secara efisien bagi pengguna perorangan dan bisnis, yang dapat mendefinisikan "babak kedua" AI bagi Tencent.

marsbit1j yang lalu

WeChat Agent Mengeluarkan 'Seruan Pahlawan', Separuh Dunia Internet Merespons

marsbit1j yang lalu

MicroStrategy Tidak Akan Mati dalam Penurunan Ini: Refleksivitas, Jangkar Kembali STRC ke Nilai Nominal, dan Logika Penyelamatan 'Jual Saham, Jangan Jual Koin'

Penulis (@bonnazhu) menganalisis penurunan harga Bitcoin (BTC) terkini dan dampaknya pada MicroStrategy (MSTR) serta saham preferennya (STRC). Intinya: 1. **Pemicu Penurunan**: Penurunan cepat BTC diduga akibat serangan pasar yang memanfaatkan kekhawatiran likuiditas MSTR. MSTR menggunakan cadangan kasnya untuk membeli kembali obligasi konversi dan menjual 32 BTC, memicu narasi "krisis arus kas". Ini adalah contoh **refleksivitas**, di mana ekspektasi pasar dapat mengubah realitas—serupa dengan serangan George Soros terhadap poundsterling. 2. **STRC dan Anjaknya**: STRC turun karena kekhawatiran pasar atas kemampuan MSTR membayar dividen, meningkatkan tingkat pengembalian yang disyaratkan. Namun, sebagai obligasi suku bunga mengambang, harga STRC akan kembali ke nilai pari (100) seiring waktu karena dividen dapat disesuaikan. 3. **Solusi yang Direkomendasikan**: Daripada menjual BTC (yang merusak narasi "tidak pernah jual BTC" dan mengurangi premium mNAV), MSTR sebaiknya **menerbitkan saham baru** saat mNAV > 1. Ini mengisi cadangan kas tanpa mengurangi kepemilikan BTC per saham, mempertahankan premium, meningkatkan ekuitas, dan memperbaiki rasio utang. Menjual BTC justru memperburuk rasio utang, mengurangi kepemilikan BTC per saham, dan dapat merusak narasi investasi jangka panjang. Kesimpulan: MSTR dapat mengatasi tekanan jangka pendek, tetapi menjual BTC berisiko merusak model bisnisnya. Jika MSTR memilih menjual BTC, krisis mungkin teratasi sekarang, tetapi dapat memicu siklus refleksif serupa di masa depan jika narasi intinya berubah.

marsbit2j yang lalu

MicroStrategy Tidak Akan Mati dalam Penurunan Ini: Refleksivitas, Jangkar Kembali STRC ke Nilai Nominal, dan Logika Penyelamatan 'Jual Saham, Jangan Jual Koin'

marsbit2j yang lalu

Trading

Spot
Futures

Artikel Populer

Cara Membeli ERA

Selamat datang di HTX.com! Kami telah membuat pembelian Caldera (ERA) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli Caldera (ERA) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan Caldera (ERA) AndaSetelah melakukan pembelian, simpan Caldera (ERA) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading Caldera (ERA)Lakukan trading Caldera (ERA) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

759 Total TayanganDipublikasikan pada 2025.07.17Diperbarui pada 2026.06.02

Cara Membeli ERA

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga ERA (ERA) disajikan di bawah ini.

活动图片