Pada pertengahan hingga akhir Mei 2026, Deepseek membentuk tim Harness baru secara internal, dengan fokus pada produk agen cerdas kode, dan secara internal menyaingi Claude Code milik Anthropic. Cui Tianyi, mantan insinyur kuantitatif bintang Jane Street, bergabung dengan tim tersebut pada bulan Maret. Chen Deli, peneliti senior, mengkonfirmasi secara terbuka dan bertanggung jawab atas rekrutmen. Dalam deskripsi pekerjaan (JD) Deepseek, tertulis dengan jelas sebuah rumus: 'Model + Harness = Agent'. Ketika kemampuan model dasar besar semakin merata, era hanya bersaing di jumlah parameter sedang berlalu. Deepseek turun tangan langsung membentuk tim toolchain, menandakan bahwa medan perang utama kompetisi AI domestik sedang bergeser dari 'menempa model besar' ke 'membuat toolchain dan implementasi perkantoran'.
Mengapa Deepseek Turun Langsung Membuat Harness?
Untuk waktu yang lama, harapan pengembang terhadap Deepseek berhenti pada model dasar open source yang lebih kuat. Namun, kemampuan kode yang kuat tidak berarti pengembang akan menggunakannya sebagai alat produktivitas. Yang benar-benar mengubah cara kerja bukanlah jawaban kode dalam kotak obrolan, melainkan agen cerdas rekayasa yang dapat masuk ke terminal, memahami proyek, membaca-menulis file, menjalankan perintah, dan memperbaiki kesalahan. Sebelum intervensi resmi, komunitas pengembang telah membuat berbagai agen terminal open source berdasarkan model Deepseek. Dengan membentuk tim Harness saat ini, Deepseek bermaksud menguasai hak desain antarmuka dan closed-loop data pelatihan, mengkonsolidasikan jalan yang telah ditempuh komunitas menjadi produk utama resmi.
Untuk memahami maksud strategis ini, kita harus memahami apa sebenarnya Harness itu. Bagi pembaca non-teknis, istilah 'Harness' mungkin terdengar asing. Dalam rumus Deepseek, model bertanggung jawab atas penalaran, dan Harness bertanggung jawab atas segalanya yang lain. Harness awalnya berarti 'tali kekang' atau 'sabuk pengaman' dalam bidang teknik, dan dalam konteks AI, ini mengacu pada 'infrastruktur runtime' dari sebuah Agent.
Untuk pemahaman yang lebih sederhana, kita dapat mengibaratkan model besar sebagai 'otak' dan 'kecerdasan' seorang pekerja yang sangat pintar, sedangkan Harness adalah 'deskripsi jabatan, standar penilaian KPI, firewall kantor, dan kotak alat' dari pekerja tersebut. Ini bukan 'perancah' yang dipasang sebelum dijalankan, juga bukan 'framework' yang menyediakan blok-blok bangunan, melainkan sebuah sistem yang berjalan terus-menerus. Ia bertanggung jawab mengatur siklus eksekusi, mendistribusikan panggilan alat, mengelola konteks, melaksanakan pemeriksaan keamanan, serta menangani pemulihan kesalahan dan persistensi status. Model besar itu sendiri adalah stateless dan tidak memiliki kemampuan interaksi lingkungan, hanya dapat menerima input teks dan mengeluarkan output teks. Harness-lah yang menutupi kekurangan ini, memungkinkan model benar-benar berinteraksi dengan dunia luar dan melaksanakan tugas-tugas spesifik.
Mengapa perusahaan model dasar harus menguasai runtime ini secara langsung? Intinya, produk Agen bukan hanya saluran keluar kemampuan model, tetapi juga arena pelatihan bagi kemampuan model. JD Deepseek menekankan 'mewujudkan evolusi bersama antara model dan Harness'. Dalam tugas-tugas kompleks yang nyata, model akan menghadapi berbagai kegagalan yang disebabkan oleh batasan lingkungan atau anomali hasil alat. Harness merekam jejak kegagalan ini, yang dapat memberi umpan balik untuk pelatihan model, menciptakan efek flywheel. Jika diserahkan sepenuhnya kepada komunitas, produsen model akan kehilangan umpan balik data lapisan aplikasi yang paling penting, dan hanya menjadi penyedia daya komputasi dan bobot model.
Dari perspektif rekayasa, mengoptimalkan Harness lebih menentukan keberhasilan Agen daripada hanya mengoptimalkan Prompt. Menurut analisis pakar teknologi, dalam operasi Agen, output alat menyumbang 67,6% dari konten yang sebenarnya dilihat Agen dalam konteks, sementara system prompt hanya 3,4%. Ini berarti sebagian besar 'pandangan' model didominasi oleh hasil panggilan alat. Jika Harness menangani format output alat secara tidak tepat, atau gagal mengompres informasi yang berlebihan secara efektif, model akan mengalami 'context corruption', menyebabkan kualitas penalaran selanjutnya menurun drastis.
Yang lebih fatal adalah masalah kesalahan majemuk. Sebuah proses Agen dengan 10 langkah, setiap langkah memiliki keandalan 99%, memiliki tingkat keberhasilan end-to-end sekitar 90%; ketika kompleksitas tugas meningkat menjadi 50 langkah, tingkat keberhasilan anjlok menjadi 60%. Dalam skenario pemeliharaan repositori kode atau otomatisasi perkantoran perusahaan yang nyata, operasi berkelanjutan puluhan langkah adalah hal biasa. Dalam kasus ini, seberapa pun kuatnya kemampuan penalaran model itu sendiri, tidak dapat mengimbangi kerugian akumulasi probabilitas. Hanya melalui mekanisme penanganan dan pemulihan kesalahan dalam Harness, upaya ulang atau koreksi jalur dapat dilakukan saat langkah gagal. Inilah nilai rekayasa Harness, dan alasan mengapa Deepseek harus turun tangan langsung.
Tencent Membuat Konektor, Alibaba Menembus Front-end: Jalur Diferensiasi Toolchain Raksasa Teknologi
Perubahan arah Deepseek bukanlah kasus terisolasi. Menurut laporan industri, memperkuat kemampuan Agen telah menjadi arah pengembangan penting model dasar besar domestik pada tahun 2026. Model dasar secara bertahap menjadi 'listrik, air, dan gas', dan medan perang kompetisi beralih ke lapisan aplikasi. Raksasa teknologi domestik lainnya juga mencari posisi diferensiasi melalui toolchain, tetapi dengan jalur yang berbeda, yang mencerminkan perbedaan aset ekosistem dan target pengguna masing-masing.
Tencent pada Juni 2026 mengeluarkan kartu as baru untuk Agen perusahaan, meluncurkan WorkBuddy Edisi Perusahaan. Posisi intinya adalah desktop workspace agen cerdas perkantoran untuk seluruh skenario, dengan fokus beralih dari efisiensi individu ke kolaborasi organisasi. WorkBuddy Edisi Perusahaan mendukung multi-Agen paralel dan koneksi Connector ke sistem bisnis, berusaha merebut pintu masuk terpadu untuk AI perkantoran. Logika perebutan posisi Tencent didasarkan pada ekosistem WeChat Enterprise dan Tencent Cloud yang sangat besar. Bagi perusahaan besar, titik kritis AI perkantoran bukan pada pengalaman ekstrem alat tunggal, tetapi pada kemampuannya untuk menghubungkan sistem kantor internal yang terisolasi. Dengan membuat konektor, Tencent memungkinkan Agen secara langsung mengatur data dan proses bisnis perusahaan, menekankan pada kolaborasi tingkat organisasi dan pengiriman tugas kompleks. Keuntungan jalur ini adalah hambatannya tinggi; begitu terhubung ke proses bisnis inti perusahaan, biaya penggantian sangat besar. Tantangannya adalah membutuhkan kemampuan layanan perusahaan dan dukungan kustomisasi yang sangat kuat.
Alibaba memilih jalur berbeda, menurunkan ambang batas otomatisasi di sisi web. Alibaba open source framework GUI Agen murni front-end dalam browser, PageAgent. Framework ini tidak memerlukan deployment backend, hanya satu baris kode untuk mengintegrasikan kemampuan operator AI ke dalam situs web. Logika perebutan posisi Alibaba adalah memberdayakan pengembang web, mengubah halaman web apa pun menjadi aplikasi native AI secara instan. Dalam kenyataan di mana banyak sistem perusahaan tradisional tidak menyediakan API, mencapai otomatisasi melalui operasi DOM front-end adalah jalur serangan efektif yang realistis. Keuntungan jalur ini adalah ringan, mudah diintegrasikan, dan dapat dengan cepat mencakup sejumlah besar situs web long tail; namun, perubahan struktur DOM front-end yang sering dapat menimbulkan tantangan stabilitas, menuntut kemampuan pemulihan kesalahan Harness yang lebih tinggi.
Dibandingkan, perusahaan-perusahaan tidak lagi hanya bersaing dalam skor benchmark model, tetapi membangun toolchain berdasarkan aset ekosistem mereka sendiri. Tencent membuat konektor, Alibaba menembus front-end, sementara Deepseek memulai dari skenario rekayasa kode yang paling dibutuhkan pengembang. Diferensiasi ini menunjukkan bahwa industri AI domestik telah menyadari bahwa tidak ada Agen serba guna yang sempurna, hanya solusi vertikal yang diasah melalui rekayasa Harness yang solid dalam skenario tertentu. Bagi pembelian perusahaan, memilih toolchain mana pada dasarnya memilih jalur otomatisasi mana: terikat dalam dengan ekosistem perkantoran, tertanam fleksibel dalam sistem web yang ada, atau memberdayakan alur kerja rekayasa pengembang.
ARR $20 Juta Viktor Membuktikan: Perusahaan Bersedia Membayar untuk Eksekusi Mandiri
Kematangan toolchain sedang mengubah paradigma partisipasi AI di bidang perkantoran. Logika Copilot native adalah 'merancang dan menunggu penyelesaian manusia', di mana AI menghasilkan teks atau kode, tetapi langkah terakhir masih memerlukan intervensi dan eksekusi manusia. Dalam mode ini, AI hanyalah alat efisiensi, tidak dapat benar-benar menggantikan tenaga kerja. Karyawan perusahaan perlu terus memantau output AI, memvalidasi, dan mengimplementasikannya, yang sebenarnya menambah beban kognitif.
Sinyal jelas pergeseran paradigma telah muncul di pasar luar negeri. Sebagai referensi tren luar negeri, perusahaan otomatisasi perkantoran AI asal Polandia, Viktor, memposisikan diri sebagai karyawan AI dalam Slack, mencapai pendapatan tahunan (ARR) $20 juta tanpa tim penjualan, melayani 30.000 perusahaan, dan memperoleh pendanaan Seri A $75 juta pada Mei 2026. Model Viktor mewakili bentuk akhir karyawan AI baru: memiliki komputer cloud, mampu bekerja berkelanjutan untuk waktu lama, menguasai konteks massal dengan kuat, dan langsung memberikan hasil.
Viktor diposisikan sebagai Tier 3 AI Coworker, yang berarti ia menangani bukan lagi tanya jawab sederhana, tetapi tugas kompleks seperti audit pemasaran, manajemen iklan, penelitian prospek yang memerlukan banyak langkah dan berjalan lama. Sisi perusahaan menunjukkan kesediaan membayar yang besar untuk AI seperti ini yang tidak memerlukan konfirmasi akhir manusia dan dapat bekerja berkelanjutan untuk waktu lama. Ledakan data komersial ini membuktikan bahwa titik nilai otomatisasi perkantoran telah bergeser dari 'asisten generasi' ke 'eksekusi mandiri'.
Penyusunan Harness dan toolchain Agen oleh produsen domestik dimaksudkan untuk menangkap tren ini. Ketika Harness dapat menyediakan pagar pengaman yang cukup, persistensi status, dan kemampuan pemulihan kesalahan, AI dapat berubah dari 'magang' yang perlu terus diawasi manusia menjadi 'kontraktor luar' yang dapat memberikan hasil kerja secara independen. Perhatian pembelian perusahaan juga akan beralih dari ukuran parameter model, ke apakah Agen dapat berjalan stabil selama 8 jam tanpa crash, apakah dapat menangani pembatasan API dan perubahan struktur halaman web secara otomatis. Bagi pengembang, ini berarti fokus membangun aplikasi AI akan beralih dari 'bagaimana menulis Prompt yang baik' ke 'bagaimana merancang lingkungan runtime yang kokoh'.
Ledakan Token dan Hambatan Rekayasa 'Framework Tebal'
Setelah beralih ke kompetisi toolchain, tantangan yang dihadapi oleh pembelian perusahaan dan pengembang dalam implementasi nyata tidak berkurang, malah semakin fokus pada level rekayasa.
Masalah pertama adalah ledakan Token. Agen yang berjalan lama dalam siklus 'berpikir, bertindak, umpan balik' sangat rentan terhadap inflasi konteks yang cepat karena output alat yang berlebihan. Komunitas pengembang banyak membahas masalah ini, berpendapat bahwa ini tidak hanya meningkatkan biaya inferensi, tetapi juga menyebabkan perhatian model terpecah dan tingkat kegagalan tugas melonjak. Misalnya, dalam menjalankan tugas pengambilan data web, jika Harness memasukkan seluruh kode HTML halaman web ke dalam konteks tanpa perubahan, model akan segera tersesat dalam informasi yang berlebihan dan melupakan tujuan tugas awal. Oleh karena itu, kemampuan kompresi konteks dan manajemen memori Harness menjadi indikator pertimbangan inti dalam pembelian perusahaan. Sebuah Harness yang baik harus tahu informasi historis mana yang dapat dibuang, hasil alat mana yang perlu diringkas - ini menguji kemampuan arsitektur rekayasa yang mendalam, bukan kecerdasan model itu sendiri.
Hal ini juga memicu kewaspadaan pengembang terhadap framework tipis 'shell'. Jika Harness yang diluncurkan produsen model besar hanyalah enkapsulasi API sederhana, menyediakan jendela dialog dasar dan antarmuka panggilan alat, maka akan kurang nilai debug yang sebenarnya. Kerapuhan di lingkungan produksi menuntut Harness memiliki karakteristik 'framework tebal' seperti isolasi sandbox, kontrol izin granular, melanjutkan dari titik terputus. Hanya runtime dengan hambatan rekayasa yang dalam yang benar-benar dapat memenuhi kebutuhan stabilitas aplikasi tingkat perusahaan. Misalnya, dalam skenario eksekusi kode, Harness harus menyediakan lingkungan sandbox yang aman untuk mencegah kode berbahaya yang dihasilkan model merusak sistem host; dalam tugas berjalan lama, harus mendukung melanjutkan dari titik terputus untuk menghindari mengulang seluruh tugas dari awal karena fluktuasi jaringan.
Selain itu, faktor geopolitik menyisakan ruang hampa pasar yang besar bagi Harness domestik. Produk agen rekayasa terkemuka luar negeri seperti Claude Code memberlakukan pembatasan akses terhadap Tiongkok Daratan dan perusahaan-perusahaan yang didanai Tiongkok. Dalam kondisi tidak dapat langsung menggunakan alat-alat terbaik ini, pengembang domestik hanya dapat mencari alternatif domestik. Pembentukan tim Harness oleh Deepseek bukan hanya tindak lanjut tren teknologi, tetapi juga respons terhadap permintaan substitusi yang sangat besar ini.
Bagi pembelian perusahaan dan pengembang, memahami nilai Harness berarti dalam memilih produk AI, tidak lagi terpesona oleh demonstrasi percakapan yang keren, tetapi bertanya mekanisme pemulihan kesalahannya apa, strategi manajemen konteksnya apa, dan apakah ia dapat benar-benar berintegrasi ke dalam alur kerja yang ada. Pada tahap kompetisi toolchain, perusahaan harus memprioritaskan pemeriksaan kemampuan pengiriman rekayasa dan kompatibilitas ekosistem produsen, daripada hanya membandingkan skor benchmark model; pengembang harus memperhatikan tingkat keterbukaan framework Harness dan kelengkapan toolchain debug, memilih platform yang dapat menyediakan runtime yang dalam dan dapat dikendalikan.







