Model Misterius HappyHorse Mendarat dan Kuasai Peringkat, Lini Balap Generasi Video Selanjutnya "Ikan Lele"?

marsbitDipublikasikan tanggal 2026-04-08Terakhir diperbarui pada 2026-04-08

Abstrak

Model HappyHorse-1.0, yang muncul tanpa pengumuman resmi, menduduki puncak peringkat AI Video Arena di platform evaluasi Artificial Analysis, mengungguli model seperti Seedance 2.0 dan lainnya berdasarkan skor Elo dari uji blind pengguna. Diduga kuat, model ini merupakan versi optimasi dari model open-source daVinci-MagiHuman yang dikembangkan oleh Sand.ai dan SII GAIR Lab, dengan fokus pada generasi video dan audio bersama menggunakan arsitektur Transformer. HappyHorse unggul dalam konten berbasis manusia seperti narasi dan presentasi, yang merupakan 60% sampel uji, sehingga cocok untuk skenario seperti avatar digital dan pembicara virtual. Namun, model ini masih memiliki keterbatasan, termasuk kebutuhan hardware tinggi (seperti H100), kesulitan dalam adegan multi-karakter, dan durasi generasi yang terbatas. Meskipun belum sepenuhnya menyamai kualitas model closed-source seperti Seedance 2.0 dalam hal konsistensi visual dan kompleksitas adegan, pencapaian ini menandakan bahwa model open-source mulai mendekati kualitas "siap produksi". Hal ini berpotensi mengubah lanskap kompetisi, memberikan lebih banyak fleksibilitas dan kontrol bagi pengembang dalam penerapan AI generatif video.

Tidak ada konferensi pers, tidak ada blog teknis, tidak ada dukungan perusahaan—sebuah model konversi teks-ke-video bernama HappyHorse-1.0 secara diam-diam menduduki puncak platform evaluasi AI terkemuka Artificial Analysis dalam AI Video Arena Ranking, dengan skor Elo yang lebih tinggi mengalahkan Seedance 2.0, dan bahkan meninggalkan pemain utama seperti Keling dan Tiangang di belakang, yang seketika memicu "kompetisi memecahkan misteri" di kalangan teknologi.

Peringkat Artificial Analysis bukanlah evaluasi parameter teknis, melainkan hasil tes buta pengguna nyata yang dikumpulkan menjadi skor Elo, yang mencerminkan persepsi nyata orang biasa setelah melihatnya. Hal ini membuat peringkat ini lebih sulit untuk dipertanyakan dibandingkan dengan peringkat benchmark biasa, dan juga membuat "siapa sebenarnya yang membuat ini" menjadi pertanyaan yang tidak bisa diabaikan.

"Kuda Bahagia" Diam-diam Menduduki Puncak, Memicu Kompetisi Tebak-tebakan di Kalangan Teknologi

Spekulasi di X datang dengan cepat. Yang pertama diperhatikan adalah urutan bahasa di situs web resmi: Mandarin dan Kanton berada di depan bahasa Inggris. Untuk produk yang ditujukan untuk pengguna global, urutan ini agak tidak biasa—jika tim AS yang memimpin, bahasa Inggris hampir tidak mungkin bukan yang pertama. Tim di belakangnya berasal dari Tiongkok, yang pada dasarnya dapat dikonfirmasi.

Nama itu sendiri juga merupakan petunjuk. Tahun 2026 adalah Tahun Kuda menurut kalender Imlek, penamaan "HappyHorse" menyembunyikan kiasan Tahun Kuda yang tidak terlalu halus, "Pony Alpha" juga menggunakan trik serupa awal tahun ini. Maka daftar tersangka dengan cepat bertambah: pendiri Tencent dan Alibaba sama-sama bermarga Ma, secara alami masuk daftar; ada yang bertaruh pada Xiaomi, merasa Lei Jun selalu rendah hati, suka tiba-tiba menunjukkan kartu; ada juga yang merasa gayanya lebih mirip DeepSeek, karena DS sebelumnya pernah diam-diam meluncurkan model visual, lalu diam-diam menurunkannya. Berbagai spekulasi ramai, tetapi tidak ada yang memiliki bukti nyata.

Yang benar-benar mengunci target adalah perbandingan satu per satu di tingkat teknis. Pengguna X Vigo Zhao mengambil data benchmark publik HappyHorse-1.0 dan mencocokkannya satu per satu dengan model yang diketahui, dan menemukan kecocokan tinggi: daVinci-MagiHuman, yaitu model open source "Da Vinci Magical Human" yang diluncurkan di Github pada Maret.

Kualitas visual 4.80, keselarasan teks 4.18, konsistensi fisika 4.52, tingkat kesalahan karakter suara 14.60%—setiap item data cocok. Struktur situs web juga hampir sama: deskripsi arsitektur, tabel kinerja, gaya presentasi video demonstrasi, semuanya seolah berasal dari set template yang sama. Keduanya sama-sama arsitektur Transformer aliran tunggal, sama-sama generasi gabungan audio-video, dan daftar bahasa yang didukung juga sama persis. Tingkat kesamaan seperti ini sulit dijelaskan sebagai kebetulan.

Kesimpulan yang paling diterima oleh kalangan teknologi saat ini adalah, HappyHorse adalah versi iterasi yang dioptimalkan oleh Sand.ai, salah satu pengembang bersama daVinci-MagiHuman, berdasarkan model open source, dengan tujuan inti memvalidasi kinerja batas atas model di bawah preferensi pengguna nyata, untuk mempersiapkan komersialisasi selanjutnya.

daVinci-MagiHuman secara resmi menjadi open source pada 23 Maret 2026, merupakan hasil kolaborasi dua tim muda. Satu dari Laboratorium Penelitian Kecerdasan Buatan Generatif (GAIR) Shanghai Institute of Intelligence (SII), dipimpin oleh akademisi Liu Pengfei; yang lainnya adalah Sand.ai (Sand Technology) dari Beijing, pendiri Cao Yue juga memiliki latar belakang akademik, arah perusahaan adalah model dunia autoregresif.

Model ini menggunakan Transformer aliran tunggal perhatian murni 15 miliar parameter, memasukkan token teks, video, dan audio ke dalam urutan yang sama untuk pemodelan gabungan—dunia open source sebelumnya belum ada yang benar-benar melakukan pra-pelatihan gabungan audio-video dari awal, kebanyakan menyambung di atas dasar modalitas tunggal.

Bagaimana Model Video Open Source Bisa Membalikkan Keadaan dalam Dua Minggu?

Setelah identitasnya jelas, pertanyaan lain justru lebih sulit dijawab: daVinci-MagiHuman baru open source akhir Maret, bagaimana HappyHorse-1.0 bisa mendapatkan skor Elo lebih tinggi dari Seedance 2.0 hanya dalam dua minggu?

Dari informasi yang diungkapkan di situs web resmi, HappyHorse tidak banyak mengutak-atik arsitektur dasarnya, tebakan yang masuk akal adalah, ia melakukan penyesuaian khusus untuk skenario evaluasi dalam strategi pembuatan default.

Sistem Elo pada dasarnya adalah akumulasi preferensi pengguna, ekspresi wajah yang stabil atau tidak, audio dan visual yang selaras atau tidak, pemandangan yang indah dipandang atau tidak, sedikit peningkatan pada item sensitif persepsi ini, mudah dipilih dalam tes buta. Batas atas kemampuan model tidak berubah, tetapi "kinerja evaluasi" bisa dipoles.

Faktanya, dalam sampel tes buta Artificial Analysis, konten pembuatan potret manusia, siaran mulut menyumbang lebih dari 60%, dan daVinci-MagiHuman dari fase pelatihan fokus pada pertunjukan potret manusia, secara alami memiliki keunggulan dalam skenario seperti ini, yang juga merupakan alasan inti mengapa tingkat kemenangannya unggul dalam tes buta; jika sampel tes buta didominasi oleh close-up potret, model yang ahli dalam potret akan secara sistematis diuntungkan, tidak ada hubungan langsung dengan kinerja aktualnya dalam skenario kompleks seperti multi-orang, pergerakan kamera kompleks, narasi urutan panjang, dll.

Hasilnya, ada kesenjangan yang jelas antara angka di peringkat dan pengujian nyata, pembahas di X terbagi menjadi dua kubu. Kubu skeptis setelah pengujian berpendapat, HappyHorse-1.0 dan Seedance 2.0 masih memiliki kesenjangan yang terlihat dalam detail karakter, kelancaran dinamis, dan karenanya mempertanyakan perwakilan skor Elo itu sendiri.

Sedangkan pendukung berharap besar pada potensi HappyHorse, berharap dapat menyelesaikan "konsistensi kualitas gambar dalam urutan multi-kamera" yang merupakan titik sakit industri, karena ini adalah masalah yang belum diselesaikan dengan baik oleh model video utama saat ini, jika daVinci-MagiHuman benar-benar membuat terobosan di sini, mungkin lebih penting daripada peringkat satu daftar.

Keterbatasan model itu sendiri juga tidak boleh ditutupi oleh angka. Blogger Xiaohongshu @JACK's AI World pernah segera menerapkan dan menguji daVinci-MagiHuman. Menemukan bahwa menjalankannya membutuhkan H100, kartu grafis tingkat konsumen biasa pada dasarnya tidak mungkin, meskipun komunitas sedang mempelajari solusi kuantisasi, tetapi dalam waktu dekat pengguna individu masih sulit untuk menerapkannya secara lokal.

Dalam hal skenario, saat ini terutama ahli dalam satu orang, begitu banyak orang muncul atau skenario menjadi kompleks, efeknya akan turun—ini bukan masalah yang bisa diselesaikan dengan menyesuaikan parameter, berhubungan langsung dengan orientasi desainnya yang fokus pada potret. Durasi pembuatan umumnya hanya sekitar 10 detik, lebih lama mudah kacau, output HD masih harus ditambah dengan plugin super-resolution.

Kesimpulan @JACK's AI World adalah: kemudahan penggunaan komprehensif daVinci-MagiHuman tidak sebaik LTX 2.3, perlu menunggu komunitas menyelesaikan kuantisasi sebelum cocok untuk penggunaan sehari-hari.

Lini Balap Generasi Video, Akhirnya Menunggu "Ikan Lele" yang Sebenarnya?

Tentu saja, satu kali memimpin peringkat tidak bisa menjelaskan banyak hal. Selanjutnya, HappyHorse masih perlu menerima pemeriksaan yang lebih lengkap dalam stabilitas, kecepatan akses konkurensi tinggi, konsistensi lintas skenario, akurasi kontrol peran, serta kemampuan generalisasi di luar set evaluasi. Ini adalah indikator inti yang menentukan apakah sebuah model dapat benar-benar masuk ke dalam alur kerja pembuat konten.

Tetapi jika memperluas pandangan ke lanskap industri yang lebih besar, sinyal yang disampaikan oleh hal ini sebenarnya sudah cukup jelas.

Model video open source sendiri bukanlah hal baru. Tetapi yang selalu menghalangi antara open source dan closed source adalah kesenjangan efek yang terlihat—dalam skenario yang perlu diserahkan kepada pelanggan, kualitas pembuatan model open source untuk waktu yang lama belum melampaui ambang batas "dapat digunakan" hingga "dapat diserahkan". Kekuatan penetapan harga produk closed source seperti Keling dan Seedance, pada tingkat yang cukup besar, justru dibangun di atas kesenjangan ini.

Kali ini, artinya adalah, sebuah produk berbasis model open source, dalam peringkat tes buta berbasis persepsi pengguna nyata, untuk pertama kalinya menyamai pesaing closed source utama saat ini. Terlepas dari berapa banyak komponen penyesuaian untuk skenario evaluasi, bagi produsen closed source yang mengandalkan kesenjangan ini untuk membangun kekuatan penetapan harga, setidaknya ini adalah sinyal yang layak untuk ditangani dengan serius.

Bagi pengembang, arti titik balik ini lebih konkret. Dalam skenario vertikal seperti potret, manusia digital, pembawa acara virtual, dll., begitu kualitas basis open source menyentuh ambang batas "dapat diserahkan", struktur biaya penerapan mandiri akan mengalami perubahan substantif—tidak hanya kompresi biaya panggilan API, yang lebih penting adalah memasukkan data, model, dan jalur inferensi secara lengkap ke dalam kendali sendiri, mendapatkan fleksibilitas dalam kedalaman kustomisasi dan kepatuhan privasi yang sulit disediakan oleh skema closed source.

HappyHorse-1.0 dalam waktu dekat tidak akan menggoyahkan posisi pasar Seedance 2.0 atau Keling, tetapi begitu persepsi bahwa model open source dapat menyaingi closed source terbentuk, optimasi kuantisasi, penyesuaian mikro vertikal, dan percepatan inferensi selanjutnya akan didorong oleh komunitas dengan kecepatan iterasi yang jauh melampaui produk closed source.

Di Tahun Kuda ini, yang benar-benar layak diperhatikan, mungkin bukan kuda mana yang berlari paling cepat, tetapi lintasan balap itu sendiri sedang melebar.

Artikel ini berasal dari akun WeChat publik "AI Value Official", penulis: Xingye, editor: Meiqi

Pertanyaan Terkait

QApa itu model HappyHorse-1.0 dan mengapa ia menimbulkan kehebohan di komunitas AI?

AHappyHorse-1.0 adalah model AI yang mengubah teks menjadi video dan menduduki puncak peringkat AI Video Arena di platform evaluasi Artificial Analysis. Model ini mengungguli Seedance 2.0 dan pesaing utama lainnya dalam skor Elo, yang didasarkan pada preferensi pengguna dalam tes buta. Kehebohan muncul karena model ini muncul tanpa pengumuman resmi, latar belakang perusahaan, atau dokumentasi teknis, sehingga memicu spekulasi tentang asal-usul dan identitas pengembangnya.

QSiapa yang diduga berada di balik pengembangan HappyHorse-1.0?

ABerdasarkan analisis teknis dan kesamaan data, HappyHorse-1.0 diduga merupakan versi iterasi yang dioptimalkan dari model open-source daVinci-MagiHuman, yang dikembangkan bersama oleh Sand.ai (sebuah perusahaan yang didirikan oleh Cao Yue) dan laboratorium penelitian GAIR di Shanghai创智学院 (SII) yang dipimpin oleh Liu Pengfei. Kesamaan dalam arsitektur, kualitas visual, keselarasan teks, dan konsistensi fisik menjadi bukti kuat hubungan antara kedua model ini.

QMengapa HappyHorse-1.0 bisa mendapatkan skor Elo yang tinggi dalam waktu singkat?

AHappyHorse-1.0 mencapai skor Elo tinggi dalam dua minggu karena kemungkinan besar melakukan penyesuaian khusus untuk skenario evaluasi di platform Artificial Analysis. Model ini unggul dalam konten yang berfokus pada manusia (seperti ekspresi wajah dan penjajaran audio-visual), yang mencakup lebih dari 60% sampel tes buta. Desain daVinci-MagiHuman yang berfokus pada manusia memberikan keuntungan alami dalam kategori ini, meskipun kemampuannya dalam skenario kompleks (seperti banyak orang atau narasi berurutan panjang) masih terbatas.

QApa kelebihan dan keterbatasan model daVinci-MagiHuman (dasar HappyHorse-1.0)?

AKelebihan: Model ini unggul dalam menghasilkan konten berfokus pada manusia dengan kualitas visual dan penjajaran audio-visual yang baik. Keterbatasan: Membutuhkan GPU H100 untuk dijalankan, sehingga tidak mudah diakses oleh pengguna dengan kartu grafis konsumen biasa. Model ini terutama cocok untuk satu orang; efektivitasnya menurun dengan banyak orang atau adegan kompleks. Durasi generasi biasanya terbatas sekitar 10 detik, dan output resolusi tinggi memerlukan plugin super-resolution.

QApa dampak potensial dari kesuksesan HappyHorse-1.0 terhadap industri pembuatan video AI?

AKesuksesan HappyHorse-1.0 menandai titik balik di mana model open-source dapat bersaing dengan model closed-source seperti Seedance 2.0 dan Kling dalam hal persepsi pengguna. Ini dapat mengubah struktur biaya untuk pengembang, memungkinkan penyebaran mandiri dengan kontrol lebih besar atas data, model, dan kepatuhan privasi. Meskipun tidak akan langsung menggeser pemain closed-source, hal ini dapat mempercepat iterasi komunitas dalam optimasi, penyesuaian khusus, dan percepatan inferensi, sehingga memperluas ekosistem pembuatan video AI.

Bacaan Terkait

Korea Selatan Bergerak Mengatur Transfer Crypto Lintas Batas di Bawah Kerangka Kerja Baru

Pemerintah Korea Selatan berencana memasukkan perusahaan fintech ke dalam kerangka kerja perizinan baru untuk transfer aset virtual lintas batas, yang dijadwalkan berlaku pada Desember. Peraturan ini mewajibkan perusahaan yang melakukan transfer lintas batas menggunakan aset kripto untuk mendaftar di Kementerian Ekonomi dan Keuangan serta melaporkan transaksinya melalui sistem pelaporan devisa. Kerangka regulasi ini dibuat untuk membawa transfer lintas batas berbasis kripto ke dalam pengawasan formal, menyusul temuan bahwa banyak transfer aset digital beroperasi di luar sistem pengawasan devisa dan berpotensi digunakan untuk pencucian uang serta kejahatan. Aturan VASP (Virtual Asset Service Provider) yang ada saat ini terutama membatasi akses ke bursa kripto seperti Upbit dan Bithumb. Namun, regulator berencana memperluas cakupan entitas yang memenuhi syarat untuk mencakup pelaku non-tradisional, seperti perusahaan fintech, jika mereka dapat melakukan transfer tersebut secara efisien. Otoritas masih menganalisis proses perizinan dan kepatuhan bagi calon pelamar. Kementerian dan Bank of Korea terus berkolaborasi dengan pemangku kepentingan industri untuk menyelesaikan aturan implementasi sebelum peluncuran di Desember. Perkembangan ini sejalan dengan upaya Korea Selatan memperkuat pengawasan aset digital, termasuk aturan baru untuk sekuritisasi token yang dijadwalkan terbit pada Juli.

TheNewsCrypto1j yang lalu

Korea Selatan Bergerak Mengatur Transfer Crypto Lintas Batas di Bawah Kerangka Kerja Baru

TheNewsCrypto1j yang lalu

「Saham Konsep Nvidia」Wawancara dengan Co-Founder CoreWeave: Permintaan AI Terus Meningkat Setiap Hari

Wawancara dengan para eksekutif CoreWeave, penyedia cloud khusus AI, menggarisbawahi bahwa permintaan akan komputasi AI terus meningkat dan berkembang setiap hari, mendorong perubahan besar dalam infrastruktur. Fokus tidak lagi hanya pada ketersediaan GPU, tetapi meluas ke tantangan kompleks seperti daya untuk pusat data, CPU, penyimpanan, dan pasokan komponen. CoreWeave, yang melayani klien utama seperti OpenAI dan Microsoft, melihat pergeseran struktural dalam beban kerja AI. Dengan munculnya AI agen dan model penalaran, pentingnya CPU dan penyimpanan semakin meningkat. Perusahaan merancang ulang pusat datanya untuk mengakomodasi lebih banyak CPU (seperti Vera CPU dari Nvidia) dan penyimpanan di samping server GPU generasi mendatang (seperti Vera Rubin). Para eksekutif menekankan bahwa model bisnis mereka sepenuhnya didorong oleh kontrak dan permintaan pelanggan. Mereka bersaing berdasarkan rekam jejak eksekusi yang terbukti, kemampuan teknikal, dan kemampuan menyediakan kinerja serta efisiensi biaya per token terbaik. Saat ini, hambatan utama bukanlah GPU, melainkan ketersediaan "powered shells" (bangunan pusat data yang siap daya) dan komponen di dalamnya. Mereka juga menjelaskan bahwa biaya komponen seperti HBM (memori bandwidth tinggi) diteruskan kepada pelanggan melalui kontrak yang sudah ditetapkan sebelumnya, sehingga melindungi margin CoreWeave. Untuk generasi hardware baru seperti server Vera Rubin, pola deployment diperkirakan akan meningkat signifikan sekitar tahun 2027, mengikuti pola pendahulunya, platform Blackwell.

marsbit2j yang lalu

「Saham Konsep Nvidia」Wawancara dengan Co-Founder CoreWeave: Permintaan AI Terus Meningkat Setiap Hari

marsbit2j yang lalu

Trading

Spot
Futures
活动图片