Oleh | Huruf AI
Ada kabar yang menyebutkan, model pembuatan video ByteDance, Seedance 2.1, akan segera dirilis dalam waktu dekat, dengan perkiraan peningkatan efektivitas pembuatan sebesar 20% dibandingkan versi 2.0. ByteDance mengatakan kepada Huruf AI bahwa kabar ini adalah berita palsu.
Meskipun Seedance 2.1 belum tentu dirilis dalam waktu dekat, kepopuleran Seedance 2.0 di luar negeri yang melonjak adalah hal yang nyata.
Alasannya, di akhir pekan, sebuah artikel berjudul "Chinese AI groups pull ahead of US rivals in video generation race" menjadi viral di luar negeri.
Artikel tersebut menggunakan Seedance 2.0 dan Kuaishou's Kling 3.0 sebagai bukti utama, menyimpulkan hal yang mengejutkan: "Di bidang pembuatan video AI, China tidak hanya unggul dari AS, tetapi keunggulan ini juga akan bertahan selamanya."
Penilaian ini terdengar agak kontra-intuitif, lebih mirip pujian terhadap AI China. Bagaimanapun juga, dalam beberapa tahun terakhir, industri AI selalu didominasi oleh Silicon Valley yang meluncurkan produk tertentu terlebih dahulu, baru kemudian muncul produk serupa dari China. Hal ini telah kita saksikan.
Tapi setelah membaca pandangan media asing, saya menyadari bahwa memang pemikiran saya terlalu sempit. Di bidang pembuatan video AI China, benar-benar lebih unggul daripada AS.
Artikel tersebut secara khusus mewawancarai beberapa pengusaha AI AS, serta pembuat film yang menggunakan teknologi pembuatan video AI, dan hasilnya, semua sepakat bahwa alat AI video China telah melampaui rekan-rekan AS secara menyeluruh.
Yang lebih krusial, keunggulan ini bukan keunggulan teknologi sementara, melainkan keunggulan menyeluruh, unggul di setiap tahap, dari data hingga penerapan.
Tidak hanya itu, keunggulan ini adalah keunggulan yang "tidak dapat disusul". Artinya, posisi terdepan ini akan bertahan selamanya.
Unggul jauh menjadi kenyataan?
Mengapa AI China Akan Selalu Unggul dari AI AS?
Salah satu argumen artikel ini adalah bahwa di bidang pembuatan video AI, kesenjangan di tingkat algoritma sedang menyusut dengan cepat.
Saat ini, arsitektur teknologi antarperusahaan sudah "kurang lebih sama". Transformer, model difusi, mekanisme perhatian spasial-temporal, jalur teknologi dasar ini sudah relatif transparan.
Jadi masalah utamanya terletak pada siapa yang menguasai data pelatihan dengan kualitas lebih tinggi dan jumlah lebih banyak.
Ini kebetulan menjadi keahlian ByteDance dan Kuaishou. Douyin dan Kuaishou pada dasarnya adalah salah satu mesin produksi video terbesar di dunia.
Yang lebih penting, data ini dilengkapi dengan anotasi perilaku pengguna yang lengkap.
Video mana yang disukai, disimpan, dibagikan, video mana yang memiliki tingkat penonton selesai tinggi, data di backend jelas terlihat.
Dan anotasi ini tidak memerlukan pelabelan manual, semuanya dihasilkan secara alami dari perilaku nyata pengguna. Data berkualitas tinggi dengan anotasi seperti ini, bahkan jika Anda ingin membelinya di pasar, belum tentu bisa didapatkan.
Sebaliknya, OpenAI dan Anthropic tidak memiliki akumulasi data video.
Saat meluncurkan Sora, OpenAI terutama bergantung pada data video publik yang diambil dari internet, serta sebagian materi film yang diberi lisensi.
Masalahnya adalah, video publik di internet seringkali kualitasnya tidak merata, ada banyak konten duplikat, konten berkualitas rendah, bahkan konten olahan ulang yang memiliki watermark dan iklan.
Jadi selama proses pelatihan, sering terjadi situasi "banyak usaha, sedikit hasil".
Di platform evaluasi global Artificial Analysis, Seedance 2.0 milik ByteDance, Kling 3.0 milik Kuaishou, bersama HappyHorse milik Alibaba, ketiga alat China ini menduduki peringkat teratas dalam daftar pembuatan video dari teks dan gambar.
Daftar ini dihasilkan dari voting pengguna nyata, artinya, semua orang merasa konten yang dihasilkan oleh ketiga AI pembuatan video ini bagus.
Meskipun Google memiliki YouTube sebagai sumber data, dan juga model pembuatan video Veo 3.
Tapi masalah Google adalah terlalu banyak batasan, durasi video di YouTube umumnya lebih dari 5 menit, sedangkan GPU saat ini belum bisa menampung video sepanjang dan sejernih itu sebagai data pelatihan, yang menyebabkan model mengalami kegagalan selama pelatihan.
Hal ini menyebabkan respons pasar terhadap Veo 3 tidak terlalu baik, lebih rendah daripada model AI pembuatan video China seperti Seedance 2.0 dan Kling 3.0.
Ben Chiang, pendiri Director AI, mengatakan, "Kami telah mencoba kebanyakan model AS, tetapi kinerjanya dalam pembuatan video tidak cukup baik." Jadi saat ini dia terutama menggunakan alat-alat China seperti Kling, Seedance 2.0, dan Hailuo untuk berkarya.
Pembuat film AI independen George Won mengatakan, "Seedance 2.0 adalah alat yang mengubah permainan. Alat ini dapat menangani sudut kamera dan kecepatan yang agresif tanpa kehilangan detail wajah karakter atau kontras pencahayaan. Kebanyakan model AI akan mulai bergoyang atau melayang saat gerakan cepat."
Dan keunggulan data ini juga memungkinkan produk melakukan "penguatan diri".
ByteDance telah mengintegrasikan Seedance 2.0 ke dalam alat kreatif seperti CapCut, sehingga ByteDance setiap hari juga bisa mendapatkan data umpan balik dari lebih dari 50 juta video yang dihasilkan.
Dengan demikian, ByteDance bisa tahu bahwa "video ini memuaskan pengguna, video ini tidak memuaskan pengguna".
Setiap menerima umpan balik seperti ini, arah pengembangan produk Seedance generasi berikutnya menjadi lebih jelas.
Siklus umpan balik yang berkelanjutan, berskala besar, dan dalam konteks nyata seperti ini juga tidak dapat dibandingkan dengan lingkungan laboratorium seperti OpenAI dan Anthropic.
Bahkan dengan sumber daya sebanyak apapun, sulit untuk membangun roda data serupa dalam waktu singkat.
Teknologi bisa dikejar, algoritma bisa ditiru, tetapi akumulasi ekosistem dan data memerlukan waktu, memerlukan basis pengguna, memerlukan siklus produk yang lengkap.
Skenario Penerapan
Perusahaan mengembangkan video AI harus punya "tujuan".
Keunggulan data hanyalah titik awal, yang benar-benar mengubah teknologi menjadi daya saing adalah menemukan skenario aplikasi yang bisa menghasilkan uang. Dengan skenario penerapan, perusahaan baru punya motivasi untuk mengembangkan pembuatan video AI.
Dalam dimensi ini, ByteDance dan Kuaishou juga lebih unggul daripada AI AS.
Skenario penerapan berskala besar pertama adalah video e-commerce.
Dulu, biaya untuk memproduksi satu video profesional untuk sebuah produk bisa mencapai ribuan yuan. Termasuk biaya fotografer, penata cahaya, sewa lokasi, biaya model, pengeditan pascaproduksi, dan sebagainya.
Bagi kebanyakan pedagang kecil dan menengah, toko Taobao biasa mungkin memiliki ratusan produk, memproduksi video untuk semuanya setidaknya memerlukan biaya ratusan ribu yuan.
Teknologi pembuatan video AI telah mengubah situasi ini.
CEO Firework, Vincent Yang, mengatakan, "Seorang pengecer meminta kami membuat 100.000 video untuk halaman produk mereka. Tanpa AI, ini benar-benar tidak layak secara biaya. Sekarang, setiap produk dapat memiliki videonya sendiri, bahkan dapat disesuaikan dengan beberapa versi untuk pelanggan yang berbeda."
Data menunjukkan, halaman produk dengan video memiliki tingkat konversi 30% hingga 80% lebih tinggi daripada halaman yang hanya berisi gambar dan teks. Selain itu, Douyin dan Kuaishou sendiri adalah salah satu platform e-commerce live streaming dan penjualan melalui video pendek terbesar di China.
Video yang dihasilkan AI, setelah selesai bisa langsung dipasang di sebelah.
Model HappyHorse milik Alibaba juga secara eksplisit menetapkan video e-commerce sebagai skenario penerapan inti. Model ini mendukung pembuatan video pendek untuk tampilan produk dan video pembicaraan presenter virtual secara massal. Seorang pedagang dapat mengunggah gambar produk dan deskripsi teks sederhana, sistem akan secara otomatis menghasilkan beberapa versi video penjualan, setiap versi ditujukan untuk target audiens yang berbeda, menggunakan pendekatan dan cara tampilan yang berbeda.
Skenario kedua adalah iklan.
Siklus produksi iklan TVC (iklan komersial televisi) tradisional terlalu lama.
Satu iklan merek berdurasi 30 detik, dari perencanaan kreatif hingga produksi pengambilan gambar, seringkali memerlukan beberapa minggu.
Dengan model pembuatan video, dalam hitungan menit bisa menghasilkan puluhan versi konsep iklan yang berbeda.
Skenario ketiga adalah drama pendek.
Drama pendek AI mengalami pertumbuhan eksplosif pada tahun 2026. Data menunjukkan, jumlah drama pendek AI yang ditayangkan pada Maret 2026 meningkat 138% dibandingkan Januari, jauh melampaui kecepatan produksi konten film tradisional.
Melalui pembuatan video AI, sebuah tim kecil atau bahkan kreator individu dapat membuat drama pendek dalam hitungan hari.
Belum selesai, platform drama pendek Red Fruit milik ByteDance juga telah mengintegrasikan fungsi "mencari produk serupa berdasarkan gambar".
Fungsi ini mudah dipahami, saat Anda menonton drama pendek, jika tertarik dengan pakaian karakter, furnitur di adegan, atau mobil yang diparkir di depan pintu, Anda dapat langsung mengklik pencarian gambar, sistem akan merekomendasikan produk serupa, dan Anda dapat langsung melakukan pembelian.
Ini sama saja mengubah drama pendek menjadi skenario komersial yang dapat menghasilkan konversi.
Sebaliknya, di pasar AS, meskipun ada platform konten seperti Netflix dan YouTube, tidak ada penerapan dan konversi.
Alat video AI AS lebih banyak berhenti pada tahap eksperimen kreatif, satu-satunya skenario penerapan komersial adalah keanggotaan berlangganan.
Dan dari segi fungsionalitas produk, model pembuatan video China juga lebih cocok untuk penerapan komersial.
Seedance 2.0 dapat memasukkan beberapa foto materi, video, dan suara ke dalam video AI yang sama. Sora tidak bisa, hanya bisa menghasilkan video dengan menentukan satu gambar dan teks kepada model.
Ini bukan karena teknologi Sora tidak cukup baik, tetapi karena kekurangan ekosistem bisnis yang lengkap untuk menampung kemampuan teknis ini.
Kesenjangan Kekuatan Komputasi
Tapi AI video China juga memiliki hambatan yang tidak bisa dihindari, yaitu kekuatan komputasi.
AI terdepan AS menganggap kekuatan komputasi sebagai emas, memanen semua kekuatan komputasi yang bisa dibeli di pasaran.
Perjanjian kekuatan komputasi yang baru-baru ini ditandatangani Anthropic totalnya melebihi 10 gigawatt.
Angka ini mencakup menyewa seluruh kekuatan komputasi pusat data SpaceX Colossus 1, yang mencakup 220.000 unit GPU Nvidia; perjanjian 5 gigawatt dengan Amazon; serta perjanjian 3,5 gigawatt dengan Google dan Broadcom.
OpenAI juga demikian.
Melalui kerja sama mendalam dengan Microsoft, OpenAI memperoleh hak penggunaan ratusan ribu unit GPU high-end, dan Microsoft juga membangun beberapa pusat data super besar khusus untuk OpenAI.
Sebaliknya, meskipun perusahaan China telah mencapai kemajuan signifikan dalam optimisasi efisiensi algoritma, masih ada kesenjangan dalam skala absolut kekuatan komputasi.
Menurut statistik media asing, kesenjangan kekuatan komputasi AI antara China dan AS pada tahun 2023 sekitar 3 kali lipat, dan pada awal 2026 telah melebar menjadi sekitar 8 kali lipat.
Selain kekuatan komputasi, AI China juga menghadapi masalah lain.
Pertama adalah hak cipta.
Ambil contoh Seedance 2.0, sekitar sebulan setelah peluncuran, enam raksasa Hollywood termasuk Disney, Warner Bros., Paramount, Skydance, dan Netflix bersama-sama mengirim surat pemberhentian pelanggaran hak cipta kepada ByteDance. Mereka menyatakan bahwa Seedance 2.0, selama tahap pelatihan, menggunakan materi film yang dilindungi hak cipta secara besar-besaran tanpa izin.
Kemudian, ByteDance dengan segera menunda rencana peluncuran global Seedance 2.0 yang semula dijadwalkan pada pertengahan Maret.
Jika Anda menggunakan Seedance 2.0 terus-menerus dari Februari hingga sekarang, Anda akan menyadari bahwa karakter IP yang sebelumnya bisa dihasilkan, sekarang tidak bisa digunakan lagi, digantikan dengan hanya bisa menggunakan karakter "orang biasa".
Kedua adalah ambang batas komersialisasi yang semakin tinggi.
AI pembuatan video AS yang diwakili Sora sering menolak permintaan pembuatan karena ketentuan penggunaan, sedangkan alat China lebih longgar, dan harganya juga lebih murah.
Tapi ini juga membawa "kesulitan yang membahagiakan" bagi perusahaan-perusahaan AI China.
Kebutuhan penggunaan Seedance 2.0 melonjak sejak Februari, beberapa pengguna telah mengalami masalah pembatasan kuota dan waktu tunggu yang lebih lama.
Media asing menyebutkan, ByteDance mengambil pendekatan komersialisasi yang lebih berat terhadap sebagian klien perusahaan AS, meminta klien membayar di muka sekitar 2 juta dolar AS untuk mendapatkan hak akses model dan kuota penggunaan.
Kuaishou juga sama, mereka sedang memisahkan bisnis Kling, dan di masa depan mungkin mendorong Kling untuk melantai di bursa saham secara terpisah.
Ini menunjukkan Kling adalah bisnis independen, memiliki cerita pertumbuhan yang lebih kuat daripada induk perusahaan Kuaishou.
Semakin besar cerita pertumbuhan yang diceritakan, perhitungannya harus semakin jelas.
Tapi biaya video AI lebih tinggi. Pengguna menghasilkan video beberapa detik, di baliknya konsumsi kekuatan komputasi jauh lebih tinggi daripada menghasilkan teks.
Semakin tinggi kualitas video yang dihasilkan, semakin panjang durasinya, biaya inferensi semakin tinggi.
Banyak model pembuatan video seperti ini, awalnya sangat murah, bahkan gratis, setelah pengguna berdatangan, dengan cepat mulai membatasi kuota, antre, menaikkan harga.
Bukan perusahaan tidak ingin meningkatkan kapasitas, tapi "tuan tanah juga tidak punya sisa makanan".
Jadi, yang harus dihadapi AI video China selanjutnya bukan hanya "bisa atau tidak membuat model yang bagus", tetapi "bisa atau tidak mengubah model yang bagus menjadi bisnis yang baik".
Jika harga terlalu rendah, semakin cepat pertumbuhan pengguna, semakin besar kerugiannya; jika harga terlalu tinggi, tidak ada pengguna, maka tidak sebanding dengan hasilnya.
Ketiga adalah kesenjangan generasi kemampuan model.
Pada akhirnya, kemampuan pembuatan video dibangun di atas model bahasa.
Model pembuatan video yang sangat hebat, tetap memerlukan kemampuan pemahaman bahasa sebagai dasar, untuk memahami petunjuk pengguna. Kemudian menggunakan kemampuan penalaran, untuk memahami hubungan logis adegan, karakter, dan menjaga koherensi konten yang dihasilkan.
Menurut penilaian media asing, ChatGPT 5.5 milik OpenAI dan Mythos milik Anthropic telah memimpin perusahaan AI China selama 9 bulan hingga 1 tahun.
Kesenjangan generasi ini tercermin dalam beberapa aspek, seperti kemampuan penalaran, pemahaman konteks, percakapan multi-ronde, penanganan tugas kompleks, dan sebagainya.
Meskipun China unggul dalam bidang vertikal seperti video AI, masih dapat dirasakan perbedaan yang cukup jelas dalam model dasar umum.
Secara keseluruhan, keunggulan AI China di bidang pembuatan video adalah nyata, tetapi juga tidak bisa santai-santai saja. Kesenjangan kekuatan komputasi dan model dasar selalu menjadi pedang yang menggantung di atas kepala. Tapi setidaknya sekarang, kita akhirnya tidak perlu lagi hanya melihat bayangan Silicon Valley dari belakang.








