Mysterious Model HappyHorse Tops the Chart Overnight: Is the Video Generation Arena Welcoming a "Game Changer"?

marsbitXuất bản vào 2026-04-08Cập nhật gần nhất vào 2026-04-08

Tóm tắt

A mysterious AI video generation model named "HappyHorse-1.0" has quietly topped the AI Video Arena leaderboard on Artificial Analysis, surpassing established models like Seedance 2.0 and others in Elo score—a user-blind-test-based ranking reflecting real perceived quality. The model’s origin was initially unknown, but technical analysis later linked it to the open-source model "daVinci-MagiHuman," jointly developed by Shanghai SII GAIR Lab and Beijing-based Sand.ai. HappyHorse-1.0, likely an optimized iteration by Sand.ai, uses a 15-billion-parameter transformer architecture for joint audio-video-text modeling. Its strong performance in human-centric scenes (e.g., portraits, narrations) helped it excel in blind tests, though it still lags in multi-character or complex motion scenarios. The achievement signals a potential shift: an open-source model rivaling closed-source alternatives in perceived quality, which could lower costs and increase flexibility for developers in vertical applications like virtual avatars. However, limitations remain, including high computational requirements (H100 GPU needed) and shorter generation lengths. While not yet threatening market leaders, HappyHorse represents progress toward open models reaching "production-ready" quality, potentially accelerating community-driven improvements in the video AI space.

No launch event, no technical blog, no corporate backing—a text-to-video model named HappyHorse-1.0 quietly topped the AI Video Arena rankings on the authoritative AI evaluation platform Artificial Analysis, surpassing Seedance 2.0 with a higher Elo score and leaving mainstream players like Keling and Tiangang far behind, sparking a "decryption race" in the tech community.

Artificial Analysis' ranking is not based on technical parameter evaluations but on aggregated blind test results from real users, reflected through Elo scores. This makes the ranking harder to question than typical benchmark scores and turns "Who made this?" into an unavoidable question.

"Happy Horse" Quietly Tops the Chart, Sparking a Guessing Game in Tech Circles

Speculations on X emerged quickly. The first clue noticed was the language order on the official website: Mandarin and Cantonese were listed before English. For a product targeting global users, this order is unusual—if the team were U.S.-based, English would almost certainly be first. This strongly suggests the team behind it is from China.

The name itself is also a clue. 2026 is the Year of the Horse in the lunar calendar, and the name "HappyHorse" subtly references this, similar to the earlier "Pony Alpha." Suspects quickly piled up: Tencent and Alibaba's founders both have the surname Ma" (horse), putting them naturally on the list; some bet on Xiaomi, noting Lei Jun's low-key style and penchant for surprise reveals; others felt it aligned more with DeepSeek, which had quietly released a visual model before taking it down. Speculations ran wild, but no one had solid evidence.

The real breakthrough came from technical comparisons. X user Vigo Zhao cross-referenced HappyHorse-1.0's public benchmark data with known models and found a highly matching candidate: daVinci-MagiHuman, an open-source model called "DaVinci Magic Human" launched on GitHub in March.

Visual quality 4.80, text alignment 4.18, physical consistency 4.52, word error rate in speech 14.60%—each metric matched. The official website structure was nearly identical too: architecture descriptions, performance tables, and demo video styles all seemed to follow the same template. Both use a single-stream Transformer architecture, both support joint audio-video generation, and both support the same list of languages. This level of overlap is hard to dismiss as coincidence.

The most widely accepted conclusion in tech circles is that HappyHorse is an optimized iteration of the open-source model daVinci-MagiHuman, developed by Sand.ai, one of the joint developers. The core goal is to validate the model's performance上限 under real user preferences, paving the way for future commercialization.

daVinci-MagiHuman was officially open-sourced on March 23, 2026, a collaboration between two young teams. One is from the Generative Artificial Intelligence Research Laboratory (GAIR) at Shanghai Institute of Intelligence (SII), led by scholar Liu Pengfei; the other is Beijing-based Sand.ai (San Dai Tech), founded by Cao Yue, who also has an academic background, with a focus on autoregressive world models.

The model uses a 15-billion-parameter pure self-attention single-stream Transformer, packing text, video, and audio tokens into the same sequence for joint modeling—no one in the open-source community had previously attempted true joint pre-training of audio and video from scratch, as most efforts involved stitching together single-modal bases.

How Did an Open-Source Video Model Achieve a Two-Week Comeback?

Once the identity was clarified, another question became even harder to answer: daVinci-MagiHuman was only open-sourced in late March, so how did HappyHorse-1.0 manage to secure a higher Elo score than Seedance 2.0 in just two weeks?

Based on information disclosed on the official website, it's reasonable to speculate that HappyHorse made targeted adjustments to the default generation strategy for the evaluation scenario.

The Elo system essentially accumulates user preferences. Slight improvements in perceptually sensitive areas—like stable facial expressions, audio-visual alignment, and visual appeal—can make a big difference in blind tests. The model's capability上限 remains unchanged, but its "evaluation performance" can be polished.

In fact, over 60% of the blind test samples on Artificial Analysis involve portrait generation and voice-over content. daVinci-MagiHuman was trained with a focus on portrait performance, giving it a natural advantage in such scenarios, which is the main reason for its领先 blind test win rate. If blind test samples are dominated by portrait close-ups, models skilled in portraits will systematically benefit, unrelated to their actual performance in multi-character, complex camera work, or long-term narrative scenarios.

The result is a noticeable gap between the ranking numbers and actual test experiences, splitting X discussants into two camps. Skeptics, after testing, believe that HappyHorse-1.0 still lags behind Seedance 2.0 in character details and motion coherence, questioning the representativeness of the Elo score itself.

Supporters, however, hold high hopes for HappyHorse's potential, hoping it can address the industry pain point of "visual consistency across multi-shot sequences," something current mainstream video models haven't solved well. If daVinci-MagiHuman truly makes a breakthrough here, it could be far more significant than a ranking.

The model's limitations shouldn't be overshadowed by the numbers. Xiaohongshu blogger @JACK's AI World was among the first to deploy and test daVinci-MagiHuman. He found that it requires an H100 to run, making it nearly impossible for consumer-grade GPUs. Although the community is researching quantization solutions, local deployment for individual users remains challenging in the short term.

In terms of scenarios, it currently excels mainly with single characters; once multiple people appear or the scene becomes high, the quality drops—this isn't something tuning parameters can fix, as it's directly related to its design focus on portraits. Generation length is typically around 10 seconds; going longer risks instability, and high-definition output requires super-resolution plugins.

@JACK's AI World concluded: daVinci-MagiHuman's overall usability is not as good as LTX 2.3; it will only be suitable for daily use after the community successfully implements quantization.

Has the Video Generation Arena Finally Welcomed a True "Game Changer"?

Of course, leading the rankings once doesn't say much. Next, HappyHorse will need to undergo more thorough testing in areas like stability, high-concurrency access speed, cross-scene consistency, character control precision, and generalization beyond the test set. These are the core metrics that determine whether a model can truly enter creators' workflows.

But if we zoom out to the broader industry landscape, the signal this event sends is already clear enough.

Open-source video models themselves aren't new. But a visible gap in effectiveness has long existed between open-source and closed-source models—in scenarios requiring delivery to clients, the generation quality of open-source models has consistently failed to cross the threshold from "usable" to "deliverable." The pricing power of closed-source products like Keling and Seedance is, to a considerable extent, built upon this gap.

The significance this time lies in the fact that a product based on an open-source model has, for the first time, matched mainstream closed-source competitors in a blind test ranking based on real user perception. Regardless of how much tuning was done for the evaluation scenario, for closed-source vendors relying on this gap to maintain pricing power, this is at least a signal worth taking seriously.

For developers, the implications of this turning point are more concrete. In vertical scenarios like portraits, digital humans, and virtual anchors, once the generation quality of an open-source base reaches the "deliverable" threshold, the cost structure of self-deployment will undergo substantial changes—not just compressing API call costs, but more importantly, bringing data, models, and the entire inference pipeline under one's own control, offering customization depth and privacy compliance flexibility that closed-source solutions can hardly match.

HappyHorse-1.0 won't shake the market positions of Seedance 2.0 or Keling in the short term. But once the perception that open-source models can rival closed-source ones is established, subsequent quantization optimizations, vertical fine-tuning, and inference acceleration will be pushed forward by the community at a pace far exceeding that of closed-source products.

In this Year of the Horse, what's truly worth watching might not be which horse runs the fastest, but the fact that the track itself is widening.

This article is from the WeChat public account "AI Value Official," author: Xingye, editor: Meiqi

Câu hỏi Liên quan

QWhat is the name of the text-to-video model that recently topped the AI Video Arena leaderboard on Artificial Analysis?

AHappyHorse-1.0

QWhich open-source model is HappyHorse-1.0 highly suspected to be based on, according to technical comparisons?

AdaVinci-MagiHuman

QWhat is the core architectural approach used by the daVinci-MagiHuman model for joint audio-video modeling?

AA single-stream Transformer architecture that models text, video, and audio tokens in a unified sequence.

QWhat is the primary reason HappyHorse-1.0 performed so well in the user-blind-test-based Elo ranking system?

AIt was likely optimized for the evaluation scenarios, particularly excelling in human portrait generation and narration content, which made up over 60% of the test samples.

QWhat broader industry signal does HappyHorse-1.0's performance send, according to the article?

AIt signals that open-source models can achieve user-perceived quality comparable to closed-source commercial products, potentially changing cost structures and offering greater flexibility for developers in vertical scenarios.

Nội dung Liên quan

Thu hút vốn toàn cầu, châu Á đang bước vào một 'siêu chu kỳ' mới

Từ góc nhìn của các nhà đầu tư, châu Á đang nổi lên như điểm đến tiếp theo cho sự tăng trưởng của thị trường chứng khoán toàn cầu. Làn sóng AI đang thúc đẩy mạnh mẽ các thị trường như Hàn Quốc và định hình lại động lực cơ bản của chu kỳ công nghiệp châu Á: chuyển từ bất động sản truyền thống sang đầu tư vào cơ sở hạ tầng AI, an ninh năng lượng, quốc phòng và khả năng phục hồi chuỗi cung ứng. Morgan Stanley dự báo quy mô đầu tư cố định của châu Á sẽ tăng từ khoảng 11 nghìn tỷ USD năm 2025 lên 16 nghìn tỷ USD vào năm 2030. AI, với tư cách là một cuộc đua vốn, đang thúc đẩy nhu cầu lớn về chip, máy chủ, trung tâm dữ liệu và hệ thống điện. Châu Á, đặc biệt là Trung Quốc, Hàn Quốc và Nhật Bản, nằm ở trung tâm của chuỗi cung ứng phần cứng này. Trung Quốc được kỳ vọng sẽ tăng tỷ lệ tự cung cấp chip AI lên 86% vào năm 2030. Bên cạnh AI, câu chuyện xuất khẩu của Trung Quốc đang mở rộng từ "ba món mới" (xe điện, pin, quang điện) sang robot, đặc biệt là robot công nghiệp và robot hình người, với vị thế sản xuất tương tự ngành xe điện những năm trước. Đồng thời, đầu tư vào an ninh năng lượng và chi tiêu quốc phòng cũng đang cung cấp các động lực tăng trưởng bổ sung cho khu vực. Tuy nhiên, chu kỳ "siêu tăng trưởng" này đi kèm với rủi ro: áp lực dư cung tiềm ẩn, biến động tỷ suất lợi nhuận, hạn chế công nghệ, tác động đến việc làm và bất ổn địa chính trị có thể ảnh hưởng đến triển vọng.

marsbit23 phút trước

Thu hút vốn toàn cầu, châu Á đang bước vào một 'siêu chu kỳ' mới

marsbit23 phút trước

38.000 Ứng Dụng Phơi Bày, 2.000+ Ứng Dụng Rò Rỉ, Lập Trình AI Biến 'Mạng Nội Bộ' Thành Mạng Công Cộng

Theo nghiên cứu của công ty an ninh mạng RedAccess, các công cụ lập trình AI (vibe coding) như Lovable, Replit, Base44 và Netlify đang gây ra rò rỉ dữ liệu nghiêm trọng. Khoảng 38.000 ứng dụng tạo ra từ các nền tảng này có thể truy cập công khai, trong đó ước tính 2.000 ứng dụng đang lộ thông tin nhạy cảm như hồ sơ y tế, dữ liệu tài chính, chiến lược nội bộ của doanh nghiệp, thậm chí cả quyền quản trị hệ thống. Nguyên nhân chính đến từ việc cài đặt mặc định của nhiều nền tảng là công khai (public) và người dùng thiếu nhận thức an ninh. Các "công dân lập trình viên" có thể dễ dàng tạo và triển khai ứng dụng vào môi trường sản xuất mà không trải qua quy trình kiểm tra bảo mật truyền thống. Các lỗ hổng này dễ dàng bị phát hiện qua công cụ tìm kiếm. Dù một số nền tảng phản bác rằng trách nhiệm thuộc về người dùng trong việc cấu hình bảo mật, sự cố này vẫn cho thấy mối nguy hiểm tiềm ẩn khi AI tự động tạo mã mà thiếu hiểu biết sâu về bối cảnh và kiến trúc bảo mật tổng thể, dẫn đến việc hàng loạt dữ liệu nội bộ doanh nghiệp bị biến thành tài sản công khai trên mạng.

marsbit26 phút trước

38.000 Ứng Dụng Phơi Bày, 2.000+ Ứng Dụng Rò Rỉ, Lập Trình AI Biến 'Mạng Nội Bộ' Thành Mạng Công Cộng

marsbit26 phút trước

Thị trường trái phiếu Nhật Bản sẽ 'lên chuỗi' toàn diện

Bài báo thảo luận về việc số hóa trái phiếu chính phủ Nhật Bản (JGBs) bằng công nghệ blockchain, cụ thể là trên mạng Canton Network. JGBs là tài sản thế chấp quan trọng bậc nhất ở châu Á, với giá trị lưu thông hơn 9 nghìn tỷ USD. Tuy nhiên, hệ thống thế chấp truyền thống hoạt động chậm, giới hạn trong giờ hành chính ở Tokyo, gây tắc nghẽn thanh khoản. Việc chuyển JGB lên chuỗi, thông qua một dự án thử nghiệm của JSCC, Mizuho, Nomura và Digital Asset, nhằm mục tiêu cho phép thanh toán nguyên tử (atomic settlement) 24/7, tức thì và xuyên biên giới. Động lực chính là sự cấp thiết khi Mỹ đã tiên phong với trái phiếu kho bạc được token hóa (DTCC, Broadridge, JPMorgan), đe dọa vị thế của JGB nếu không hiện đại hóa. Mạng Canton được lựa chọn vì kiến trúc bảo mật và tuân thủ pháp lý phù hợp, cho phép các bên chỉ xem dữ liệu được ủy quyền. Việc thanh toán thế chấp "xuyên suốt" như vậy có thể ngăn chặn vòng xoáy bán tháo trong khủng hoảng, giảm rủi ro và giải phóng hàng trăm tỷ USD vốn bị đóng băng. Sự hội tụ của các trái phiếu chính phủ lớn (Mỹ, Nhật, châu Âu) trên Canton có thể biến nó thành một cơ sở hạ tầng tài chính toàn cầu mới, giống như SWIFT. Bài báo nhận định đây là một cuộc cách mạng về hiệu quả, nâng cấp cơ sở hạ tầng nhưng vẫn do các định chế tài chính truyền thống nắm giữ.

marsbit1 giờ trước

Thị trường trái phiếu Nhật Bản sẽ 'lên chuỗi' toàn diện

marsbit1 giờ trước

Báo cáo gọi vốn tuần | Có 14 sự kiện gọi vốn công khai, Kalshi hoàn thành vòng tài trợ mới 1 tỷ USD với định giá 22 tỷ USD, Coatue Management dẫn đầu

**Báo cáo Tài chính Tuần: 14 Sự kiện Gọi vốn Công khai, Tổng giá trị hơn 1 tỷ USD** Theo thống kê không đầy đủ của PANews, tuần trước (4-10/5) ghi nhận **14 thỏa thuận đầu tư** trong lĩnh vực blockchain toàn cầu với **tổng vốn huy động được công bố hơn 1 tỷ USD**. Đáng chú ý nhất là vòng gọi vốn 1 tỷ USD của nền tảng thị trường dự đoán **Kalshi**, định giá công ty lên tới 22 tỷ USD, do Coatue Management dẫn đầu. **Phân bổ theo lĩnh vực:** * **DeFi (4 vụ):** OnRe (bảo hiểm tái tục trên chuỗi) huy động 5 triệu USD; Saturn Credit (giao thức tín dụng hỗ trợ Bitcoin) huy động 2 triệu USD; Ekiden (nền tảng giao dịch blockchain) huy động 2 triệu USD; Centrifuge nhận đầu tư chiến lược "7 con số" từ Coinbase. * **Cơ sở hạ tầng & Công cụ (4 vụ):** OpenTrade huy động 17 triệu USD để mở rộng cơ sở hạ tầng cho sản phẩm yield stablecoin; Balcony (nền tảng RWA) huy động 12.7 triệu USD; Antier Solutions huy động 3 triệu USD; Coinbase đầu tư chiến lược vào Kemet Trading. * **Thị trường Dự đoán (3 vụ):** Ngoài Kalshi, Elastics (nền tảng AI) huy động 2 triệu USD; Sportix (cơ sở hạ tầng thể thao AI) huy động 3.2 triệu USD. * **Tài chính Tập trung (CeFi) (1 vụ):** Stockcoin.ai (nền tảng giao dịch AI) hoàn thành vòng seed do Amber Group dẫn đầu. * **Ứng dụng Web3 Khác (2 vụ):** SC Ventures (thuộc Standard Chartered) đầu tư chiến lược vào nhà tạo lập thị trường GSR; Capital B (công ty dự trữ Bitcoin) huy động 1.1 triệu Euro. **Hoạt động của Quỹ Đầu tư:** * **Haun Ventures** (của Katie Haun) đã huy động thành công 1 tỷ USD cho quỹ mới, tập trung vào crypto, AI và tài sản thay thế. * **Multi Investment** (Thụy Sĩ) huy động ~616 triệu USD để tăng cường đầu tư vào fintech, blockchain và Web3. * **Global Millennial Capital** hoàn thành huy động 100 triệu USD cho quỹ tập trung vào cơ hội trước IPO, chú trọng AI và DeFi. Tóm lại, tuần qua chứng kiến dòng vốn mạnh mẽ đổ vào các lĩnh vực then chốt như cơ sở hạ tầng tài chính phi tập trung (RWA, yield), thị trường dự đoán và AI, với sự tham gia của nhiều tổ chức tài chính lớn truyền thống và quỹ đầu tư mạo hiểm.

marsbit1 giờ trước

Báo cáo gọi vốn tuần | Có 14 sự kiện gọi vốn công khai, Kalshi hoàn thành vòng tài trợ mới 1 tỷ USD với định giá 22 tỷ USD, Coatue Management dẫn đầu

marsbit1 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片