Cuối tháng 3 đến đầu tháng 4 năm 2026, lĩnh vực AI video đã liên tiếp xảy ra hai sự kiện mang tính bước ngoặt trong vòng hai tuần.
Sự kiện thứ nhất: Sora, từng được ngành công nghiệp tôn sùng như "vầng trăng trắng", đã bị OpenAI tuyên bố đóng cửa toàn bộ vào ngày 24 tháng 3 — ứng dụng độc lập, giao diện API và chức năng video nhúng trong ChatGPT đều bị gỡ xuống, OpenAI hoàn toàn rút khỏi thị trường tạo video tiêu dùng.
Sự kiện thứ hai: Chưa đầy hai tuần sau, vào ngày 7 tháng 4, một mô hình ẩn danh với mã hiệu "HappyHorse-1.0" (Ngựa Vui Vẻ-1.0) đột ngột xuất hiện trên bảng xếp hạng kiểm tra mù AI video uy tín nhất toàn cầu Artificial Analysis, giành vị trí số một với số điểm áp đảo.
Một bên là gã khổng lồ Silicon Valley chọn đầu hàng trong cuộc chơi đốt tiền 15 triệu USD mỗi ngày, một bên là ngựa ô kỹ thuật không rõ lai lịch đá vỡ vị trí quán quân lâu nay do đội ngũ Trung Quốc nắm giữ. Hai sự việc xảy ra trong cùng một khung thời gian, thoạt nhìn không liên quan, nhưng thực chất đều hướng đến cùng một nhận định: Quy tắc cạnh tranh AI video đang có sự thay đổi chất lượng — từ "mô hình của ai thông minh hơn" sang "sức mạnh tính toán của ai rẻ hơn, bức tường tuân thủ của ai dày hơn".
Sự thật đứng đầu bảng: Hình ảnh thuần túy áp đảo và ngựa ô "lệch tủ"
Đánh giá chất lượng của một ngựa ô, trước tiên hãy xem trọng tài là ai.
Artificial Analysis Video Arena không phải là bảng xếp hạng PR tự sướng của nhà sản xuất, mà là điểm Elo do hàng nghìn người dùng thực bỏ phiếu trong bài kiểm tra mù hoàn toàn đối với video được tạo ra.
Bảng thành tích của HappyHorse-1.0 là áp đảo.
Ở hạng mục "Văn bản sang video (không có âm thanh)", nó đạt 1357 điểm (tính đến ngày 9/4), bỏ xa Seedance 2.0 (1273 điểm) ở vị trí thứ hai tới 84 điểm. Điều này có nghĩa là trong bài kiểm tra mù, khả năng người dùng chọn nó cao hơn đáng kể so với bất kỳ mô hình nào khác. Những cái tên bị nó dẫm đạp không chỉ có ByteDance, mà còn có cả những sản phẩm nổi tiếng như Kling 3.0, SkyReels V4.
Tuy nhiên, việc "lệch tủ" cũng là sự thật. Một khi đưa chiều âm thanh vào, ở hạng mục "Văn bản sang video (có âm thanh)", nó chỉ đạt 1217 điểm, thua Seedance 2.0 (1220 điểm) đúng 3 điểm. Nói cách khác, HappyHorse-1.0 đã đá thủng phòng tuyến danh tiếng công nghệ hình ảnh thuần túy của Byte, nhưng về trải nghiệm tổng hợp âm thanh-hình ảnh, Seedance vẫn giữ vững trận địa.
Ý nghĩa của việc đứng đầu bảng này, phần lớn nằm ở chỗ phá vỡ kỳ vọng thị trường rằng "mô hình video nội địa đã cứng nhắc" — một kẻ thách thức mới có thể dùng mô hình nhỏ 15B tham số để áp đảo tất cả các đại gia ở chiều hình ảnh thuần túy.
Tại sao nó nhanh như vậy?
Trên một card đồ họa H100 cao cấp duy nhất, nó chỉ mất 38.4 giây để tạo một video HD 1080p (có âm thanh đồng bộ). Sự tự tin về tốc độ đến từ kiến trúc Transformer thống nhất 150 tỷ tham số (15B) ở tầng đáy, kết hợp với công nghệ chưng cất DMD-2, nén số bước suy luận xuống chỉ còn 8 bước.
Nói một cách dễ hiểu, mô hình video lớn truyền thống giống như một "đội ngũ thuê ngoài" — mô hình ngôn ngữ lớn đầu tiên hiểu nhu cầu của bạn, sau đó bàn giao cho mô hình khuếch tán để "vẽ", tổn thất giao tiếp ở giữa cực lớn. Trong khi đó, kiến trúc Transformer thống nhất mà HappyHorse-1.0 sử dụng là một "nhân tài toàn năng", xử lý đồng thời văn bản và pixel hình ảnh trong cùng một mạng neural, loại bỏ tổn thất trung gian xuyên phương thức.
Điều thú vị là, HappyHorse-1.0 trong những ngày đầu lên bảng (7-8/4) từng bị nghi ngờ là "hàng future marketing" — trang web tuyên bố mã nguồn mở, nhưng kho GitHub và liên kết tải mô hình đều là 404 hoặc "vui lòng chờ đợi". Nhưng chỉ vào ngày 9/4, nhiều phương tiện truyền thông đưa tin rằng nó đã chính thức tuyên bố mã nguồn mở, người dùng có thể trải nghiệm trực tuyến thông qua hai cách tạo từ văn bản và tạo từ hình ảnh trên trang web chính thức. Từ "mã nguồn mở Schrödinger" đến việc phát hành trọng số thật chỉ mất chưa đầy 48 giờ.
Âm mưu ẩn danh: Tại sao đại gia lại che mặt tham gia?
Hiện giới công nghiệp có hai suy đoán chủ đạo nhất.
Một là nó xuất phát từ "Phòng thí nghiệm Cuộc sống Tương lai" mới thành lập của Tập đoàn Taotian thuộc Alibaba, do nguyên Phó tổng giám đám công nghệ Kuaishou, người phụ trách Kling AI Trương Địch (Zhang Di) lãnh đạo.
Hai là nó tham khảo sâu công nghệ nền tảng daVinci-MagiHuman của công ty khởi nghiệp trong nước Sand.ai — người dùng Zhihu Vigo Zhao đã đối chiếu dữ liệu benchmark công khai của HappyHorse-1.0 với các mô hình đã biết từng điểm, phát hiện cả hai khớp nhau cao, trang Jiemian News cũng đưa tin rằng "kết luận được giới kỹ thuật công nhận nhất" là HappyHorse là phiên bản tối ưu hóa lặp lại của daVinci-MagiHuman.
Các suy đoán trên hiện đều chưa được xác nhận chính thức. Tuy nhiên, sáng nay có tin độc quyền cho biết, HappyHorse-1.0 thực sự do Alibaba nghiên cứu phát triển, do nguyên Phó tổng Kuaishou, người phụ trách kỹ thuật Kling Trương Địch dẫn đầu, ông đã trở lại Alibaba vào tháng 11/2025. Ngoài ra, Alibaba Cloud sẽ sớm đưa mô hình này lên nền tảng Bailian, việc điều chỉnh tổ chức gần đây của Alibaba cũng liên quan đến điều này.
Tính đến thời điểm phát hành, phía Alibaba chưa phản hồi.
Câu hỏi đặt ra: Đã nắm trong tay đao trảm rồng, tại sao đại gia không tổ chức họp báo? Tại sao phải ẩn danh lẫn trong bảng xếp hạng kiểm tra mù của bên thứ ba?
Mặc dù hiện thiếu giải thích chính thức, nhưng suy đoán từ thông lệ ngành và logic thương mại, phía sau ít nhất có hai tầng kế hoạch.
Tầng thứ nhất, là "thu hoạch dữ liệu" miễn phí.
Nút thắt cổ chai lớn nhất của AI video hiện nay là thiếu dữ liệu sở thích con người thực tế. Việc ẩn danh đáp xuống bảng kiểm tra mù, tương đương với việc để cư dân mạng toàn cầu làm bài kiểm tra A/B miễn phí cho nó. Không tốn một xu, có thể xác định chính xác điểm yếu của mô hình trong thế giới thực.
Tầng thứ hai, là né tránh "bom mìn tuân thủ" chí mạng.
AI video đang ở trong vòng vụ kiện bản quyền. Trước khi mô hình lớn chưa xây dựng cơ chế chặn chân dung và watermark số, việc phát hành dưới tên thật rất dễ vướng vào yêu cầu bồi thường khổng lồ của Hollywood. Kiểm tra ẩn danh, vừa khoe cơ bắp, vừa tạo ra sự cách ly vật lý về mặt pháp lý.
Tuy nhiên, nhìn từ góc độ khác, sự cuồng nhiệt của HappyHorse-1.0 lại làm nổi bật sự cô đơn của Sora. Cùng là làm video, tại sao số phận lại chia đôi cực? Nghĩ kỹ lại, việc rút lui của Sora thực chất đã xé toạc vết thương đẫm máu nhất của ngành này: ROI (Tỷ suất hoàn vốn) đảo ngược nghiêm trọng.
Theo tính toán của SemiAnalysis, chi phí vận hành hàng ngày của Sora lên tới 15 triệu USD, một năm đốt khoảng 5,4 tỷ USD. Kiến trúc mô hình khuếch tán của nó cần render khoảng 30 hình ảnh để tạo 1 giây video, nhưng các vấn đề phổ biến trong kết quả tạo ra như biến dạng vật thể, chuyển động không liền mạch dẫn đến phần lớn video bị bỏ đi, tỷ lệ khả dụng cuối cùng được các cơ quan phân tích ước tính chỉ 5% đến 10%.
Tạo ra 1 video khả dụng, lãng phí hơn mười lần sức mạnh tính toán. Khi một công cụ không thể nhúng vào quy trình làm việc hàng ngày của người dùng, mà chỉ trở thành "đồ chơi tò mò", không ai muốn tiếp tục trả tiền. Theo dữ liệu được đối tác a16z tiết lộ, tỷ lệ giữ chân 1 ngày của Sora chỉ 10%, 7 ngày chỉ 2%, 30 ngày chỉ còn 1%, 60 ngày gần 0%.
Sora với chi phí hàng năm 5,4 tỷ USD và đường cong giữ chân giảm đứt đoạn, đã chứng minh con đường dùng sức mạnh tính toán bạo lực của mô hình khuếch tán thuần túy là không thể đi được. Và HappyHorse-1.0 đã đưa ra một câu trả lời khác — 15B tham số, kiến trúc Transformer thống nhất, 8 bước suy luận, 38.4 giây trên một card. Khoảng cách giữa hai bên, không phải là quy mô tham số, mà là hiệu suất kiến trúc. Mô hình khuếch tán là hố đen sức mạnh tính toán, Transformer thống nhất là máy nén sức mạnh tính toán. Thắng bại của cuộc chiến kiến trúc này, có thể có ý nghĩa tín hiệu ngành lớn hơn bất kỳ lần đứng đầu bảng đơn lẻ nào.
Nhìn lại các đại gia AI Trung Quốc còn ở lại sân chơi, họ đang đánh một bản kế toán kinh tế sức mạnh tính toán khác.
Trước tiên hãy xem chi phí gọi API:
Seedance 2.0 của ByteDance, định giá API cho việc tạo video thuần túy 1080p là 46 Nhân dân tệ / 1 triệu Tokens. Theo đo lường thực tế, tạo video 15 giây tiêu thụ khoảng 30.888 nghìn Tokens, quy đổi ra, chi phí tạo một giây video cấp thương mại là khoảng 1 Nhân dân tệ (khoảng 0,14 USD).
Đó là thực tế thương mại. Đối với tuyệt đại đa số doanh nghiệp, việc trực tiếp gọi API đóng với giá khoảng hơn một xu mỗi giây, thơm hơn nhiều so với việc bỏ ra hàng triệu nhân dân tệ để mua máy chủ H100 và vật lộn với cái gọi là "mô hình nguồn mở".
Khung hợp đồng cấp triệu: Rào cản cuối cùng của cuộc chiến giữa các đại gia
Nếu bạn nghĩ sức mạnh tính toán rẻ là rào cản duy nhất, thì bạn quá ngây thơ.
Muốn kết nối với Seedance 2.0 và sử dụng hình ảnh tham chiếu người thật để tạo video, doanh nghiệp cần ký hợp đồng khung trả trước hàng năm trị giá hàng triệu. Đồng thời, hợp đồng khung mới ký còn phải nộp 50% số tiền trả trước hoặc 1 triệu nhân dân tệ (lấy giá trị cao hơn) làm tiền đặt cọc, và chỉ có thể được giải phóng dần dần sau một năm.
Ngưỡng cửa hàng triệu này, về bản chất là tiền đặt cọc để doanh nghiệp chịu trách nhiệm chính — chuyển rủi ro pháp lý của việc tạo video deepfake thông qua hợp đồng thương mại cho các doanh nghiệp B端 (doanh nghiệp) hàng đầu có khả năng chống rủi ro.
Vào giữa tháng 2 năm nay, một đạo diễn Ireland đã sử dụng Seedance 2.0 để tạo video chân thực về Tom Cruise và Brad Pitt đánh nhau trên mái nhà đã lan truyền khắp mạng. Ngày 13 tháng 2, thông báo ngừng vi phạm bản quyền do luật sư Disney David Singer soạn thảo đã được gửi đến ByteDance, Hiệp hội Điện ảnh Hoa Kỳ (MPA) sau đó cũng cáo buộc nghiêm khắc Seedance 2.0 "sử dụng quy mô lớn nội dung được bảo vệ bản quyền mà không được ủy quyền", công đoàn diễn viên SAG-AFTRA cũng đã chỉ trích gay gắt việc sử dụng chân dung thành viên mà không được phép.
Để tự bảo vệ mình, các đại gia đã thiết lập rào cản vốn cực cao và thẩm tra tư cách doanh nghiệp (KYC).
Họ hoàn toàn không quan tâm người dùng C端 (cá nhân) có thể làm được mấy video hài hước, họ muốn trở thành "điện, nước, than" của quá trình sản xuất nội dung công nghiệp hóa B端. Bằng cách độc quyền cơ sở hạ tầng sức mạnh tính toán và thiết lập hệ thống ủy quyền nghiêm ngặt, họ hoàn toàn chặn các đối thủ cạnh tranh trung và hạ lưu ở bên ngoài.
Cuộc đại tái cơ cấu thời hậu Sora đã để lại gì cho ngành?
Trò chơi cơ sở hạ tầng cấp đáy của AI video, đã là bàn bài độc quyền của các đại gia nặng vốn, nặng sức mạnh tính toán. Nhưng thứ đang đấu trên bàn bài là cơ sở hạ tầng, trong các khe hở dưới bàn lại mọc lên những cơ hội kiếm tiền thật sự.
Logic cốt lõi rất đơn giản, chi phí sức mạnh tính toán đang giảm với tốc độ có thể nhìn thấy bằng mắt thường — từ vài USD mỗi giây thời Sora, đến khoảng 1 Nhân dân tệ mỗi giây của Seedance 2.0 ngày nay, và về lý thuyết có thể đạt chi phí biên cục bộ bằng 0 sau khi HappyHorse-1.0 mã nguồn mở. Mỗi lần chi phí giảm một bậc độ lớn, sẽ thúc đẩy một loạt kịch bản thương mại mới.
Tổng hợp lại, trong lĩnh vực tạo video AI, ba hướng đáng chú ý nhất hiện tại có thể là:
Tự động hóa video bán hàng thương mại điện tử. Video quảng bá sản phẩm trên các nền tảng video ngắn trong nước hiện vẫn chủ yếu quay thủ công, chi phí đơn video 500-2000 nhân dân tệ, chu kỳ sản xuất 2-5 ngày. Nếu dùng sức mạnh tính toán API để nén chi phí này xuống 10-50 nhân dân tệ, rút ngắn chu kỳ sản xuất xuống cấp phút, toàn bộ logic triển khai sẽ được viết lại — số lượng vật liệu thử nghiệm có thể tăng vọt từ 10 video mỗi ngày lên 1000 video, hiệu quả và độ chính xác của A/B testing sẽ được nâng cao về chất.
Sản xuất công nghiệp hóa phim ngắn. Phim ngắn màn hình dọc đang bùng nổ trên thị trường toàn cầu, ngân sách đơn tập thường từ 5-15 vạn nhân dân tệ, nhưng chu kỳ quay và chi phí diễn viên là nút thắt cứng. AI video tuy chưa thể thay thế diễn xuất người thật, nhưng ở các cảnh quay "không cảm xúc" như cảnh rỗng, chuyển cảnh, hiệu ứng hình ảnh đã có thể thay thế 30%-40% công việc quay phim, trực tiếp nén tổng chi phí sản xuất.
Địa phương hóa quảng cáo xuất khẩu. Cùng một sản phẩm triển khai ở Đông Nam Á, Trung Đông, Mỹ Latinh cần vật liệu quảng cáo với ngôn ngữ, chủng tộc, biểu tượng văn hóa khác nhau. Cách truyền thống cần các đội ngũ đa quốc gia quay riêng, AI video có thể nén quá trình này xuống còn một người một máy tính trong một ngày, và chi phí hầu như không tăng tuyến tính theo số lượng thị trường.
Ba hướng này có một đặc điểm chung: Chúng không yêu cầu mô hình xếp hạng nhất, không yêu cầu chất lượng hình ảnh cấp điện ảnh, nhưng yêu cầu chi phí đủ thấp, tốc độ đủ nhanh, độ ổn định đủ tốt — và đây chính xác là kịch bản mà việc gọi API phù hợp hơn triển khai cục bộ.
HappyHorse-1.0 đã đá mở cánh cửa. Nhưng đằng sau cánh cửa là cơ sở hạ tầng thương mại mà Byte và Kuaishou đã vận hành hai năm — mạng lưới chuỗi cung ứng sức mạnh tính toán, hệ thống kiểm tra tuân thủ, mạng lưới khách hàng B端.
Ngựa ô kỹ thuật có thể giành được tràng pháo tay trong một cuối tuần, nhưng giành chiến thắng trong chiến tranh cần tích lũy ở một chiều kích khác. Kể từ hôm nay, quy tắc cạnh tranh AI video đã chuyển từ "mô hình của ai mạnh hơn" sang "quy trình làm việc của ai dày hơn".(Bài viết này được phát hành lần đầu trên Titanium Media App, tác giả| AGI-Signal, biên tập| Lâm Thâm)














