Oleh | Huruf AI
Jalur video AI belakangan ini agak sepi, Seedance 2.0 terjerat kontroversi hak cipta, OpenAI menutup Sora, membuat suasana muram menyelimuti jalur ini.
Di saat seperti inilah Ali mengeluarkan seekor kuda hitam.
Pada April 2026, HappyHorse-1.0 melesat ke puncak Artificial Analysis, mengalahkan rival seperti ByteDance dan Kuaishou di dua jalur sekaligus: teks-ke-video dan gambar-ke-video (tanpa audio).
Zhang Di kembali ke Alibaba pada November 2025, mengambil alih posisi Kepala Lab Kehidupan Masa Depan Grup Taotian, dan melapor langsung kepada CTO Ali Mama, Zheng Bo.
Artinya, dari kembali hingga mulai terkenal, Zhang Di hanya membutuhkan waktu sekitar 5 bulan.
Kuncinya adalah, HappyHorse, sama seperti Qwen milik Ali, merilis versi open source yang dapat digunakan untuk keperluan komersial.
Sekarang, apa posisi Qwen di Ali? Ia adalah fondasi model besar umum inti tingkat grup Ali, pembawa mutlak strategi AI. Segala sesuatu di Ali saat ini disusun sekitar Qwen.
Jadi, arti HappyHorse bagi Ali mungkin jauh lebih dari sekadar model yang memamerkan teknologi dengan meraih peringkat.
Namun sebelum memahami pemikiran Ali, kita harus membahas terlebih dahulu, siapa Zhang Di.
01 Dari Ali ke Kuaishou Kembali ke Ali
Zhang Di lulusan Jurusan Ilmu Komputer Universitas Jiaotong Shanghai, program sarjana dan magister terintegrasi. Setelah lulus pada 2010, ia bergabung dengan Alibaba, lama bertanggung jawab atas arsitektur rekayasa data besar dan pembelajaran mesin Ali Mama.
Ali Mama bergerak di bidang iklan, rekomendasi, pencarian, dan konversi, yang didukung oleh data skala besar, distribusi skala besar, dan sistem rekayasa yang kompleks. Hal-hal ini terdengar tidak seramai model besar, tetapi merekalah yang kemudian melatih talenta AI perusahaan internet China.
Banyak orang yang benar-benar dapat mengubah model menjadi produk, tidak murni berasal dari laboratorium. Mereka lebih awal mengalami temperamen dalam sistem seperti pencarian, rekomendasi, iklan, dan distribusi konten.
Saya beri beberapa contoh agar Anda paham. CEO Google, Sundar Pichai, berasal dari pengembangan bilah pencarian dan rekomendasi konten Youtube. CEO Microsoft, Satya Nadella, awalnya mengembangkan mesin pencari Bing dan sistem iklan Microsoft.
Karena sistem-sistem ini setiap hari menangani perilaku pengguna dalam jumlah besar, juga menuntut model dapat berjalan stabil dalam bisnis nyata. Ia tidak mengizinkan insinyur hanya membuat demo yang bagus, ia memaksa Anda untuk membuat sesuatu yang benar-benar berguna, dan harus terus-menerus mempertimbangkan trade-off antara latency, biaya, efek, dan umpan balik.
Sepuluh tahun Zhang Di di Ali kira-kira dihabiskan dalam lingkungan seperti ini. Saat itu dunia luar belum menyebut segalanya sebagai model besar, tetapi internal Ali sudah memiliki semacam lapangan latihan yang berpusat pada data, algoritma, dan rekayasa.
Pada 2020, Zhang Di meninggalkan Ali dan pergi ke Kuaishou.
Platform video pendek pada saat itu telah beralih dari persaingan traffic ke tahap persaingan teknologi. Zhang Di di Kuaishou menjabat sebagai Wakil Presiden Teknologi, Kepala Tim Model Besar dan Teknologi Multimedia, dan kemudian memimpin pengembangan arsitektur dasar dan penerapan model besar Keling.
Keling sangat penting artinya bagi Kuaishou.
Keling mengubah Kuaishou dari "platform distribusi konten" masa lalu menjadi "penyedia infrastruktur produksi konten", membangun closed loop lengkap "pembuatan kreatif-produksi video-distribusi satu ketuk-monetisasi traffic-iterasi data".
Pada April 2025, Kuaishou mendirikan Divisi AI Keling dan menaikkan levelnya menjadi divisi tingkat satu perusahaan, melapor langsung kepada CEO Cheng Yixiao, sejajar dengan bisnis utama video pendek.
Jadi ketika ia bergabung sebentar dengan Bilibili pada September 2025, dan kembali ke Ali dua bulan kemudian, gerakan ini sulit dilihat hanya sebagai perpindahan talenta biasa.
Bilibili butuh teknologi video, Ali juga butuh teknologi video, hanya saja kebutuhan Ali lebih kompleks.
Kuaishou membuat pembuatan video, intinya adalah distribusi. Tapi jika Ali membuat pembuatan video, maka ada banyak link yang terlibat. Ada e-niaga, iklan, siaran langsung, layanan cloud, dan merchant luar negeri.
Seperti disebutkan sebelumnya, setelah kembali ke Ali pada November 2025, Zhang Di menjabat sebagai Kepala "Lab Kehidupan Masa Depan" Grup Taotian, level P11.
Dengan pengaturan seperti ini, nuansa Ali masih sangat kental. Ia tidak menempatkan model video sederhana di departemen penelitian murni, posisinya justru lebih dekat dengan Taotian, sebuah lokasi transaksi.
Dengan kata lain, HappyHorse sejak konsepsi, adalah produk yang menekankan penerapan dan terikat dengan ekosistem existing Ali.
Lima bulan kemudian, HappyHorse muncul.
Kecepatan ini memang cepat. Ali memberikan Zhang Di skenario bisnis dan tim baru, ia kembali membuka jalur model video.
Ia bukan mulai dari nol memasuki AI video, juga bukan sekadar空降 (kongjiang - turun dari langit/berasal dari luar) ke Ali.
Jalur karirnya seperti benang yang berputar keluar lalu kembali. Pertama belajar di Ali bagaimana sistem komersial skala besar beroperasi, lalu pergi ke Kuaishou untuk mengubah pembuatan video menjadi produk, kemudian kembali ke Ali, menempatkan kemampuan ini ke dalam mesin komersial yang lebih besar.
Banyak perusahaan berebut talenta model besar, tetapi orang yang benar-benar langka, seringkali adalah orang yang sekaligus memahami model, bisnis, dan organisasi.
Orang yang hanya bisa melatih model banyak, orang yang hanya bisa berbicara strategi juga banyak, yang sulit adalah ada orang yang tahu dari mulai rute teknologi sebuah model, desain arsitektur, pelatihan inferensi, pintu keluar produk, hingga akhirnya digunakan merchant dan pengguna, di mana setiap langkah akan macet.
HappyHorse mendorong Zhang Di kembali ke depan panggung, juga membuat narasi AI Ali yang relatif tersebar beberapa tahun terakhir memiliki pintu masuk figur yang lebih konkret.
02 Bagaimana Model Open Source Mengalahkan Raksasa Closed Source
Poin yang benar-benar menarik perhatian HappyHorse adalah kemenangannya yang terlalu mendadak.
Di jalur pembuatan video ini, di luar negeri ada Runway, Pika, Luma, Veo Google, di dalam negeri ada Seedance ByteDance, Keling Kuaishou. Ali tidak termasuk.
Jadi ketika HappyHorse baru memuncaki peringkat, orang bahkan lebih percaya ini adalah model yang dikembangkan perusahaan startup, daripada percaya ini model Ali.
HappyHorse berada di tier pertama di dua jalur teks-ke-video dan gambar-ke-video, skor Elo teks-ke-video 1333, skor Elo gambar-ke-video 1392.
Peringkat Artificial Analysis sendiri akan berubah seiring dengan blind test pengguna, skor halaman berikutnya juga diperbarui, tetapi ia memang mengalahkan sejumlah model closed source yang lebih terkenal dalam uji preferensi pengguna.
Hal ini sebenarnya cukup anomali. Biasanya, pembuatan video adalah salah satu arah yang paling memakan uang, data, dan daya komputasi.
Perusahaan besar closed source dapat menyembunyikan data, detail model, sistem inferensi, dan pengalaman produk di platform mereka sendiri, terus melakukan iterasi internal.
Model open source harus menghadapi lebih banyak batasan realitas, parameternya harus dapat dipublikasikan, inferensinya harus dapat dijalankan, komunitas harus dapat mereproduksi, dan efeknya harus tahan perbandingan横向 (horizontal).
Jadi sebelum HappyHorse muncul, sebagian besar model video open source adalah mainan, video yang dihasilkan tidak cukup stabil, karakter sering kali mengalami漂移 (piaoyi - drift/hanyut).
HappyHorse memiliki 15 miliar parameter, arsitektur Transformer perhatian-diri terpadu 40 lapis, menempatkan token teks, video, dan audio tiga modalitas ke dalam satu序列 (xulie - sequence/urutan) yang sama untuk pemodelan bersama.
Pola ini sangat mirip dengan Qwen, ini juga menjelaskan mengapa Zhang Di hanya butuh 5 bulan untuk mengeluarkan HappyHorse, kemungkinan besar menggunakan metode pelatihan multimodal native berkualitas tinggi warisan Qwen.
Model pembuatan video non-native multimodal seperti Sora, sering kali mengalami mulut karakter bergerak, suara terlambat setengah ketukan. Dan terkadang ekspresi karakter sangat kaya, tetapi nada suara tidak tepat. Karakter juga mungkin bertindak sebelum suara keluar.
Alasan skor HappyHorse tinggi terletak pada, ia menyelesaikan masalah ini melalui multimodal native.
HappyHorse native mendukung sinkronisasi bibir多种语言 (duozhong yuyan - berbagai bahasa) seperti Inggris, Mandarin, Kanton, Jepang, Korea, Jerman, Prancis, tingkat kesalahan kata juga dibandingkan dengan model open source sejenis.
Mengapa Zhang Di melakukan ini? Pemahaman saya adalah, jika Ali ingin memasukkan teknologi generasi video ini ke dalam iklan, e-niaga, drama pendek, pendidikan, dan siaran langsung, tidak bisa mengandalkan gambar yang indah saja.
Ia harus bisa berbicara, harus bisa mengisi suara, harus membuat suara dan gambar sama-sama成立 (chengli - valid/terbentuk).
Poin kunci lainnya adalah biaya dan kecepatan.
HappyHorse pada GPU H100 tunggal menghasilkan video 1080p 5 detik membutuhkan约 (yue - sekitar) 38 detik, dan menggunakan teknologi distilasi DMD-2 untuk memadatkan langkah denoising menjadi 8 langkah.
Ini adalah halangan yang tidak dapat dihindari untuk komersialisasi generasi video. Seberapa bagus efek model, jika biaya menghasilkan satu video pendek terlalu tinggi, menunggu terlalu lama, sulit masuk ke alur kerja日常 (richang - sehari-hari) merchant.
Merchant tidak akan menunggu setengah hari untuk setiap商品 (shangpin - produk), juga tidak akan membayar biaya terlalu tinggi untuk puluhan素材 (sucai - materi) uji.
Jadi arti HappyHorse bukan hanya "dapat menghasilkan", tetapi juga在于 (zaiyu - terletak pada) ia berusaha menekan kecepatan generasi dan biaya inferensi ke区间 (qujian - interval/rentang) yang可用 (keyong - dapat digunakan).
Bagi pengembang, open source berarti dapat self-host, fine-tuning, terhubung ke produk sendiri. Bagi platform, open source juga akan membawa lebih banyak umpan balik komunitas.
Kemajuan model closed source terutama mengandalkan tim internal perusahaan, model open source akan diambil pengembang untuk melakukan berbagai tes aneh, masalah terpapar cepat, arah perbaikan juga akan bertambah.
Gelanggang video Artificial Analysis menggunakan投票 (toupiao - voting) preferensi pengguna, sering kali tidak hanya melihat satu indikator teknologi tertentu, lebih melihat pengguna lebih menyukai yang mana di antara dua video.
Tentu, Zhang Di belum bisa terlalu bangga, sekali登顶 (dengding - mendaki puncak) peringkat tidak sama dengan selalu memimpin.
Pesaing tidak akan diam di tempat. HappyHorse sekarang hanya memenangkan satu tes publik, belum seluruh perang.
Jika HappyHorse hanya model yang bisa meraih peringkat, artinya terbatas. Tapi jika ia dapat menjadi fondasi generasi video yang digunakan bersama oleh layanan cloud Ali dan bisnis Taotian, ia akan menjadi pintu masuk.
Jadi, bagian paling menarik dari HappyHorse mengalahkan raksasa closed source bukan hanya skor yang memimpin. Yang benar-benar layak diperhatikan adalah, ia membuat Ali menemukan cara untuk masuk kembali ke meja permainan generasi video.
Ia tidak membuat aplikasi APP berorientasi pengguna C terlebih dahulu, juga tidak hanya membuat demonstrasi internal, tetapi langsung mengambil model open source untuk menerima检验 (jianyan - pemeriksaan/uji) seluruh industri.
Kemenangan ini belum tentu bertahan lama, tetapi Zhang Di mengubah penilaian luar terhadap Ali dalam model generasi video.
Masalah barunya menjadi, ke mana Ali bersiap menggunakan kemampuan ini?
03 Arti HappyHorse bagi Ali
Titik落点 (luodian - jatuh/titik penerapan) paling langsung HappyHorse adalah e-niaga.
Dulu orang berbicara video AI, paling mudah terpikir film, drama pendek, iklan besar, alat kreator. Memang, ini adalah pasar besar yang nyata, tetapi mereka masih agak jauh dari bisnis utama Ali.
Keunggulan Ali tidak terletak pada membuat komunitas video sendiri, juga tidak pada membuat pengguna biasa membuka aplikasi video AI setiap hari untuk menghabiskan waktu. Tempat Ali benar-benar unggul adalah, ia memiliki商品 (shangpin - produk),商家 (shangjia - merchant), transaksi, dan sistem iklan paling padat di China.
Ini juga mengapa banyak orang memperhatikan HappyHorse lahir di "Lab Kehidupan Masa Depan" Grup Taotian.
Taotian setiap hari menghadapi bagaimana merchant menjual barang, bagaimana商品 (shangpin - produk) terlihat, mengapa pengguna mengklik masuk, dan mengapa memesan. HappyHorse ditempatkan di sini, orang自然 (ziran - secara alami) akan berpikir apakah ia dapat meningkatkan efisiensi produksi konten商品 (shangpin - produk), apakah dapat meningkatkan konversi, apakah dapat membantu平台 (pingtai - platform) melakukan lebih banyak bisnis?
Bagi seorang merchant biasa, konten video selalu menjadi hal yang merepotkan.
Membuat video商品 (shangpin - produk) 30 detik, Anda harus mencari场景 (changjing - adegan/skenario), mencari model, pencahayaan, editing, pengisian suara. Merek besar dapat meminta tim, merchant中小 (zhongxiao - kecil dan menengah)更多时候 (gengduo shihou - lebih sering) hanya bisa自己凑 (ziji cou - mengatur sendiri seadanya).
Banyak卖点 (maidian - selling point)商品 tidak rumit, masalahnya tidak ada yang memfilmkan卖点 (maidian - selling point). Mereka ditempatkan dalam gambar latar putih都很普通 (dou hen putong - sangat biasa),一旦 (yidan - sekali) masuk场景 (changjing - adegan/skenario) konkret, pengguna baru menyadari dapat digunakan untuk apa.
Baru-baru ini di luar negeri, produk pompa air mancur tenaga surya laris, awalnya hanya aksesori kecil taman, efeknya juga biasa saja. Tapi setelah dibungkus video AI menjadi bak mandi burung, kolam ikan, dan mainan penyemprot air keren di bak mandi anak, semua orang berebut membeli.
AI tidak mengubah商品 (shangpin - produk)本身 (benshen - itu sendiri), tetapi mengubah cara pengguna memahami商品 (shangpin - produk). Ia mengubah "penjelasan fungsi" menjadi "skenario penggunaan".
Ini tepat mengenai痛点 (tongdian - pain point) konten e-niaga.
Halaman商品 (shangpin - produk) penuh parameter, pengguna belum tentu有耐心 (you naixin - memiliki kesabaran) melihat; pembicara siaran langsung berbicara lama, pengguna juga belum tentu percaya. Tapi satu video belasan detik, jika dapat menjelaskan场景 (changjing - adegan/skenario) dengan jelas, efisiensi konversi mungkin akan jauh lebih tinggi.
Yang lebih penting, video AI dapat dihasilkan secara批量 (piliang - batch). Merchant dapat menghasilkan versi anak, versi keluarga, versi festival, versi luar ruangan untuk商品 (shangpin - produk) yang sama, juga dapat menghasilkan bahasa, orang,场景 (changjing - adegan/skenario) yang berbeda untuk negara不同 (butong - berbeda).
Ini bagi Ali, lebih besar dari sekadar membuat alat generasi video. Baik Taobao, maupun Tmall, di atasnya都有大量 (dou you daliang - memiliki banyak) merchant, juga都有大量 (dou you daliang - memiliki banyak) data商品 (shangpin - produk) dan umpan balik transaksi.
Sebuah alat video AI jika hanya tahu menghasilkan gambar indah, ia akan很快 (henkuai - sangat cepat) menjadi perangkat lunak素材 (sucai - materi); jika ia dapat tahu商品 (shangpin - produk) ini dalam场景 (changjing - adegan/skenario) apa更容易 (gengrongyi - lebih mudah) diklik,文案 (wen'an - copywriting) apa更容易 (gengrongyi - lebih mudah) membawa keranjang, video apa beberapa detik pertama更容易 (gengrongyi - lebih mudah) mempertahankan pengguna, ia akan mendekati bagian dari sistem operasi e-niaga.
Yang lebih dimiliki Ali dibanding perusahaan model generasi video lainnya,正是 (zhengshi - tepat adalah) closed loop umpan balik ini.
Gambar商品 (shangpin - produk), halaman detail, evaluasi, tanya jawab, kata pencarian, tingkat klik, tingkat keranjang, alasan pengembalian, waktu tinggal siaran langsung, hal-hal ini terlihat碎片 (suipian - fragmen/fragmentary), tetapi semuanya adalah bahan bakar untuk melatih kemampuan konten e-niaga.
HappyHorse jika terhubung dengan umpan balik ini, dapat berevolusi dari "membantu merchant menghasilkan satu video", menjadi "membantu merchant menghasilkan video yang lebih mungkin menjual barang".
Menghadapi Taotian, ia dapat membuat video gambar utama, film pendek场景 (changjing - adegan/skenario)商品 (shangpin - produk), potongan siaran langsung,主播虚拟 (zhubo xuni - virtual host) dan materi pemasaran.
Dulu seorang merchant上新 (shangxin - meluncurkan produk baru), mungkin hanya mengunggah beberapa gambar, paling banyak membuat satu video pendek kasar. Ke depannya ia dapat memberikan gambar商品 (shangpin - produk),卖点 (maidian - selling point), evaluasi, dan label人群 (renqun - kelompok orang) ke sistem, membiarkan sistem menghasilkan beberapa versi video不同 (butong - berbeda), kemudian menggunakan data penempatan nyata dan transaksi untuk menyaring yang lebih efektif.
Proses ini jika berjalan lancar, pasokan konten平台 (pingtai - platform) akan明显 (mingxian - jelas) meningkat,门槛 (menkan - ambang batas) konten merchant中小 (zhongxiao - kecil dan menengah) juga akan turun.
Namun,带货 (daihuo - membawa barang/mempromosikan penjualan) video AI juga有风险 (you fengxian - memiliki risiko). Ia dapat memperbesar卖点 (maidian - selling point), juga dapat memperbesar幻觉 (huanjue - halusinasi). Sebuah pompa air mancur dalam video AI menyemprot sangat tinggi, kenyataannya tidak mencapai efek seperti itu.
Kesempatan Ali seharusnya bukan membiarkan merchant menggunakan AI untuk造梦 (zaomeng - menciptakan mimpi), fokus harus ditempatkan pada parameter商品 (shangpin - produk),素材 (sucai - materi) foto nyata, evaluasi pembeli, dan审核 (shenhe - review/audit)平台 (pingtai - platform), membuat konten yang dihasilkan有边界 (you bianjie - memiliki batas).
Pada akhir Maret, OpenAI mengumumkan menutup aplikasi independen Sora dan API terkait. Alasannya realistis, generasi video terlalu membakar uang, retensi pengguna tidak menopang biaya, OpenAI harus mengembalikan daya komputasi ke arah pengkodean, layanan perusahaan, dan robot.
Sora jatuh di atas kalkulasi komersial.
ByteDance juga menghadapi masalah di ujung lain. Seedance 2.0 meskipun efeknya juga kuat, tetapi karena masalah hak cipta, ByteDance menghentikan sementara peluncuran global Seedance 2.0.
Semakin kuat model dilatih, semakin mudah masuk ke rawa-rawa hak cipta, hak肖像 (xiaoxiang - portrait), dan data pelatihan.
Saat melihat HappyHorse yang dibuat tim Zhang Di, ia memiliki场景 (changjing - adegan/skenario) komersial yang jelas. Dan gambar商品 (shangpin - produk),素材 (sucai - materi) merchant, video foto nyata, dan umpan balik transaksi yang dipegang Ali, secara alami lebih cocok untuk generasi terkendali daripada IP film.
Jadi nilai HappyHorse, tidak hanya pada peringkat. Ia menemukan titik落点 (luodian - jatuh/titik penerapan) yang lebih stabil untuk video AI.







