Văn bản | Zimu AI
Lĩnh vực video AI gần đây có chút lạnh lẽo, Seedance 2.0 vướng vào tranh cãi bản quyền, OpenAI đóng cửa Sora, khiến bầu trời của lĩnh vực này u ám.
Ngay lúc này, Alibaba đã dắt ra một con ngựa ô.
Tháng 4 năm 2026, HappyHorse-1.0 vọt lên đầu bảng Artificial Analysis, áp đảo các đối thủ như ByteDance, Kuaishou trên cả hai đường đua tạo video từ văn bản và tạo video từ hình ảnh (không có âm thanh).
Trương Địa trở lại Alibaba vào tháng 11 năm 2025, đảm nhận vị trí Trưởng phòng thí nghiệm cuộc sống tương lai của tập đoàn Taotian Group, và báo cáo công việc trực tiếp với Giám đốc công nghệ (CTO) của Alimama Trịnh Ba.
Nói cách khác, từ khi trở lại cho đến khi tạo dựng tên tuổi, Trương Địa chỉ mất khoảng 5 tháng.
Điểm mấu chốt là, giống như Qwen của Alibaba, HappyHorse cũng mở phiên bản mã nguồn mở có thể thương mại hóa.
Hiện tại Qwen có vị trí thế nào ở Alibaba? Nó là nền tảng mô hình lớn đa mục đích cốt lõi cấp tập đoàn của Alibaba, là phương tiện cốt lõi tuyệt đối của chiến lược AI. Mọi thứ hiện nay của Alibaba đều đang được bố trí xoay quanh Qwen.
Vì vậy, ý nghĩa của HappyHorse đối với Alibaba, có thể còn xa hơn việc chỉ là một mô hình khoe công nghệ trên bảng xếp hạng.
Tuy nhiên, trước khi hiểu ý tưởng của Alibaba, chúng ta nên nói về Trương Địa là ai.
01 Từ Alibaba đến Kuaishou rồi trở lại Alibaba
Trương Địa tốt nghiệp chuyên ngành khoa học máy tính tại Đại học Giao thông Thượng Hải, học liên thông đại học và thạc sĩ, sau khi tốt nghiệp năm 2010 thì gia nhập Alibaba, phụ trách lâu dài về kiến trúc kỹ thuật dữ liệu lớn và học máy của Alimama.
Alimama làm về quảng cáo, đề xuất, tìm kiếm và chuyển đổi, đằng sau là dữ liệu quy mô lớn, phân phối quy mô lớn và hệ thống kỹ thuật phức tạp. Những thứ này nghe không náo nhiệt như mô hình lớn, nhưng chúng lại là nơi đào tạo nhân tài AI cho các công ty internet Trung Quốc sau này.
Rất nhiều người thực sự có thể biến mô hình thành sản phẩm, không hoàn toàn xuất thân từ phòng thí nghiệm. Họ đã trải qua rèn luyện sớm hơn với các hệ thống như tìm kiếm, đề xuất, quảng cáo, phân phối nội dung.
Tôi chỉ cần lấy vài ví dụ là bạn sẽ hiểu. Giám đốc điều hành Google Sundar Pichai, ông xuất thân từ việc làm thanh tìm kiếm và đề xuất nội dung Youtube, CEO Microsoft Satya Nadella, lúc đầu ở Microsoft ông phát triển công cụ tìm kiếm Bing và hệ thống quảng cáo Microsoft.
Bởi vì các hệ thống này hàng ngày xử lý hành vi người dùng với khối lượng khổng lồ, và cũng yêu cầu mô hình có thể vận hành ổn định trong nghiệp vụ thực tế. Nó không cho phép kỹ sư chỉ làm một demo đẹp mắt, nó buộc bạn phải tạo ra thứ thực sự hữu ích, và còn phải cân nhắc điều chỉnh liên tục giữa độ trễ, chi phí, hiệu quả và phản hồi.
Mười năm của Trương Địa ở Alibaba, đại khái là trôi qua trong môi trường như vậy. Lúc đó bên ngoài chưa gọi mọi thứ là mô hình lớn, nhưng nội bộ Alibaba đã sớm có một sân chơi rèn luyện xoay quanh dữ liệu, thuật toán và kỹ thuật hóa.
Năm 2020, Trương Địa rời Alibaba đến Kuaishou.
Nền tảng video ngắn lúc đó, đã từ cạnh tranh lưu lượng chuyển sang giai đoạn cạnh tranh công nghệ. Trương Địa tại Kuaishou lần lượt giữ chức Phó chủ tịch kỹ thuật, Trưởng nhóm công nghệ đa phương tiện và mô hình lớn, sau này chủ trì nghiên cứu và phát triển kiến trúc cơ sở và ứng dụng thực tế của mô hình lớn Kling.
Ý nghĩa của Kling đối với Kuaishou là rất lớn.
Kling giúp Kuaishou từ “nền tảng phân phối nội dung” trước đây, nâng cấp thành “nhà cung cấp cơ sở hạ tầng sản xuất nội dung”, xây dựng vòng lặp hoàn chỉnh “tạo ý tưởng - sản xuất video - phân phối một click - biến hiện lưu lượng - lặp dữ liệu”.
Tháng 4 năm 2025, Kuaishou thành lập bộ phận kinh doanh AI Kling và nâng cấp thành bộ phận cấp một công ty, báo cáo trực tiếp cho CEO Trình Nhất Tiếu, ngang hàng với nghiệp vụ chính video ngắn.
Vì vậy khi ông tạm thời gia nhập B站 (Bilibili) vào tháng 9 năm 2025, rồi trở lại Alibaba hai tháng sau, động thái này khó có thể chỉ xem là một cuộc di chuyển nhân tài thông thường.
B站 cần công nghệ video, Alibaba cũng cần công nghệ video, chỉ là nhu cầu của Alibaba phức tạp hơn.
Kuaishou làm tạo video, đơn giản chỉ là phân phối. Nhưng nếu Alibaba làm tạo video, thì những khâu liên quan đằng sau sẽ nhiều hơn rất nhiều. Có thương mại điện tử, quảng cáo, livestream, dịch vụ đám mây và thương gia nước ngoài.
Như đã đề cập ở trên, sau khi trở lại Alibaba vào tháng 11 năm 2025, Trương Địa đảm nhận chức vụ Trưởng phòng thí nghiệm cuộc sống tương lai của tập đoàn Taotian, cấp bậc P11.
Sắp xếp như vậy, vẫn rất đậm chất Alibaba. Nó không đặt mô hình video đơn thuần vào một bộ phận nghiên cứu thuần túy, vị trí của nó ngược lại càng gần với Taotian - một hiện trường giao dịch.
Nói cách khác, HappyHorse ngay từ khi hình thành ý tưởng, đã là một sản phẩm nhấn mạnh triển khai thực tế, gắn kết với hệ sinh thái hiện có của Alibaba.
Năm tháng sau, HappyHorse xuất hiện.
Tốc độ này thực sự nhanh, Alibaba đã cho Trương Địa một kịch bản nghiệp vụ và đội ngũ mới, ông lại một lần nữa khai thông tuyến đường mô hình video.
Ông không phải bắt đầu từ số không bước vào AI video, cũng không đơn thuần là điều chuyển từ bên ngoài đến Alibaba.
Con đường sự nghiệp của ông giống như một đường vòng ra ngoài rồi lại vòng về. Trước tiên học ở Alibaba cách vận hành hệ thống thương mại quy mô lớn, sau đó đến Kuaishou biến tạo video thành sản phẩm, rồi lại trở về Alibaba, đặt năng lực này vào cỗ máy thương mại lớn hơn.
Rất nhiều công ty đang tranh giành nhân tài mô hình lớn, nhưng người thực sự khan hiếm, thường là người có thể đồng thời hiểu mô hình, nghiệp vụ và tổ chức.
Người chỉ biết huấn luyện mô hình thì nhiều, người chỉ biết nói chiến lược cũng nhiều, khó là có người biết một mô hình từ lộ trình kỹ thuật, đến thiết kế kiến trúc, đến huấn luyện suy luận, đến đầu ra sản phẩm, đến cuối cùng được thương gia và người dùng sử dụng, giữa mỗi bước sẽ bị kẹt ở đâu.
HappyHorse đẩy Trương Địa trở lại đứng trước sân khấu, cũng giúp câu chuyện AI tương đối phân tán của Alibaba vài năm qua có một lối vào nhân vật cụ thể hơn.
02 Mô hình mã nguồn mở đánh bại gã khổng lồ mã nguồn đóng như thế nào
Điểm thực sự thu hút sự chú ý của HappyHorse, là nó thắng quá bất ngờ.
Trên đường đua tạo video này, nước ngoài có Runway, Pika, Luma, Veo của Google, trong nước có Seedance của ByteDance, Kling của Kuaishou. Alibaba không xếp được hạng.
Vì vậy khi HappyHorse mới leo bảng, mọi người thậm chí còn tin đó là mô hình do một công ty khởi nghiệp phát triển, cũng không muốn tin đó là mô hình của Alibaba.
HappyHorse ở cả hai đường đua tạo video từ văn bản và tạo video từ hình ảnh đều ở nhóm đầu, điểm Elo tạo video từ văn bản là 1333, điểm Elo tạo video từ hình ảnh là 1392.
Bảng xếp hạng của Artificial Analysis bản thân sẽ thay đổi liên tục theo kiểm tra mù của người dùng, điểm số trên trang sau cũng có cập nhật, nhưng nó thực sự đã áp đảo một loạt mô hình mã nguồn đóng nổi tiếng sớm hơn trong kiểm tra ưu tiên người dùng.
Chuyện này thực ra khá bất thường. Thông thường mà nói, tạo video là một trong những hướng ngốn tiền, ngốn dữ liệu, ngốn năng lực tính toán nhất.
Hãng mã nguồn đóng lớn có thể giấu dữ liệu, chi tiết mô hình, hệ thống suy luận và trải nghiệm sản phẩm trong nền tảng của mình, liên tục lặp nội bộ.
Mô hình mã nguồn mở thì phải đối mặt với nhiều hạn chế thực tế hơn, tham số của nó phải có thể công khai, suy luận phải có thể chạy được, cộng đồng phải có thể phục hiện, hiệu quả còn phải chịu được so sánh ngang.
Vì vậy trước khi HappyHorse xuất hiện, đa số mô hình video mã nguồn mở đều là đồ chơi, video đầu ra không đủ ổn định, nhân vật còn thường xuyên xuất hiện trôi dạt.
HappyHorse có 15 tỷ tham số, kiến trúc Transformer tự chú ý thống nhất 40 tầng, đặt token của ba phương thức văn bản, video, âm thanh vào cùng một chuỗi để mô hình hóa liên hợp.
Đường đi này rất giống Qwen, điều này cũng giải thích tại sao Trương Địa chỉ mất 5 tháng đã làm ra HappyHorse, rất có thể là kế thừa phương pháp huấn luyện đa phương thức nguyên sinh chất lượng cao do Qwen để lại.
Giống như mô hình tạo video không nguyên sinh đa phương thức như Sora, thường xuyên xuất hiện tình trạng miệng nhân vật động, âm thanh chậm nửa nhịp. Và đôi khi biểu cảm nhân vật phong phú, nhưng ngữ điệu không đúng. Nhân vật còn có thể hành động trước khi âm thanh phát ra.
Lý do HappyHorse điểm cao nằm ở chỗ, nó thông qua nguyên sinh đa phương thức giải quyết vấn đề này.
HappyHorse nguyên sinh hỗ trợ đồng bộ khẩu hình nhiều ngôn ngữ như tiếng Anh, tiếng Phổ thông, tiếng Quảng Đông, tiếng Nhật, tiếng Hàn, tiếng Đức, tiếng Pháp, tỷ lệ lỗi từ cũng được đem ra so sánh với các mô hình mã nguồn mở cùng loại.
Tại sao Trương Địa lại làm như vậy? Hiểu của tôi là, nếu Alibaba muốn đưa công nghệ tạo video này vào quảng cáo, thương mại điện tử, phim ngắn, giáo dục và livestream, thì không thể chỉ dựa vào hình ảnh đẹp.
Nó phải biết nói, phải có thể lồng tiếng, phải để âm thanh và hình ảnh cùng lúc thành lập.
Một điểm then chốt khác là chi phí và tốc độ.
HappyHorse trên một GPU H100 đơn tạo video 1080p 5 giây cần khoảng 38 giây, và sử dụng công nghệ chưng cất DMD-2 để nén bước khử nhiễu xuống 8 bước.
Đây là một rào cản không thể tránh khỏi của thương mại hóa tạo video. Hiệu quả mô hình có tốt đến đâu, nếu chi phí tạo một video ngắn quá cao, chờ đợi quá lâu, thì rất khó đi vào quy trình làm việc hàng ngày của thương gia.
Thương gia sẽ không chờ nửa ngày cho mỗi món hàng, cũng sẽ không trả chi phí quá cao cho hàng chục tư liệu thử nghiệm.
Vì vậy ý nghĩa của HappyHorse không chỉ là “có thể tạo”, mà còn ở chỗ nó cố gắng nén tốc độ tạo và chi phí suy luận vào khoảng có thể sử dụng.
Đối với nhà phát triển, mã nguồn mở có nghĩa là có thể tự lưu trữ, tinh chỉnh, kết nối sản phẩm của mình. Đối với nền tảng, mã nguồn mở cũng sẽ mang lại nhiều phản hồi cộng đồng hơn.
Sự tiến bộ của một mô hình mã nguồn đóng chủ yếu dựa vào đội ngũ nội bộ công ty, một mô hình mã nguồn mở sẽ được nhà phát triển đem đi làm các kiểm tra kỳ lạ, vấn đề lộ ra nhanh, hướng cải tiến cũng sẽ nhiều hơn.
Đấu trường video của Artificial Analysis sử dụng bỏ phiếu ưu tiên người dùng, nhiều lúc không chỉ xem một chỉ tiêu kỹ thuật nào đó, mà còn xem người dùng thích đoạn video nào hơn giữa hai đoạn.
Tất nhiên, Trương Địa còn chưa thể quá kiêu ngạo, một lần leo đầu bảng không bằng mãi mãi dẫn đầu.
Đối thủ cạnh tranh sẽ không dừng lại tại chỗ. HappyHorse hiện tại thắng chỉ là một bài kiểm tra công khai, chưa phải toàn bộ cuộc chiến.
Nếu HappyHorse chỉ là một mô hình có thể leo bảng, ý nghĩa của nó có hạn. Nhưng nếu nó có thể trở thành nền tảng tạo video được sử dụng chung bởi nghiệp vụ Alibaba Cloud, Taotian, nó sẽ trở thành một lối vào.
Vì vậy nói HappyHorse đánh bại gã khổng lồ mã nguồn đóng, điểm thú vị nhất không chỉ là điểm số dẫn đầu. Điều thực sự đáng quan tâm là, nó giúp Alibaba tìm được một cách thức mới để quay lại bàn chơi tạo video.
Nó không làm một APP hướng đến người dùng C端 (người dùng cuối) trước, cũng không chỉ làm trình diễn nội bộ, mà là trực tiếp lấy mô hình mã nguồn mở chấp nhận kiểm nghiệm toàn ngành.
Chiến thắng này chưa chắc kéo dài lâu, nhưng Trương Địa đã khiến bên ngoài thay đổi đánh giá về Alibaba trên mô hình tạo video.
Vấn đề mới trở thành, Alibaba chuẩn bị dùng năng lực này vào đâu?
03 Ý nghĩa của HappyHorse đối với Alibaba
Điểm rơi trực tiếp nhất của HappyHorse, là thương mại điện tử.
Trước đây mọi người nói đến video AI, dễ nghĩ đến nhất là điện ảnh, phim ngắn, quảng cáo đại tác, công cụ sáng tạo. Đúng vậy, đây đều là thị trường lớn thực sự, nhưng chúng cách nghiệp vụ chính của Alibaba vẫn có một khoảng cách.
Lợi thế của Alibaba không nằm ở việc tự làm một cộng đồng video, cũng không nằm ở việc để người dùng thông thường mỗi ngày mở một APP video AI để giết thời gian. Nơi Alibaba thực sự có lợi thế, là trong tay nó có hệ thống hàng hóa, thương gia, giao dịch và quảng cáo dày đặc nhất Trung Quốc.
Đây cũng là lý do nhiều người quan tâm việc HappyHorse được sinh ra trong “phòng thí nghiệm cuộc sống tương lai” của tập đoàn Taotian.
Taotian mỗi ngày đối mặt là thương gia bán hàng như thế nào, hàng hóa được nhìn thấy ra sao, người dùng tại sao click vào, lại tại sao đặt hàng. HappyHorse đặt ở đây, mọi người tự nhiên sẽ nghĩ nó có thể nâng cao năng suất sản xuất nội dung hàng hóa không, có thể nâng cao chuyển đổi không, có thể giúp nền tảng làm nhiều việc kinh doanh hơn không?
Đối với một thương gia thông thường, nội dung video luôn là một chuyện phiền phức.
Quay một video hàng hóa 30 giây, bạn phải tìm bối cảnh, tìm người mẫu, đánh đèn, cắt ghép, lồng tiếng. Thương hiệu lớn có thể mời đội ngũ, thương gia vừa và nhỏ nhiều lúc chỉ có thể tự làm.
Rất nhiều điểm bán hàng không phức tạp, vấn đề là không ai quay điểm bán ra. Chúng đặt trong ảnh nền trắng đều rất bình thường, một khi vào bối cảnh cụ thể, người dùng mới nhận ra nó có thể dùng để làm gì.
Mới đây ở nước ngoài, sản phẩm máy bơm đài phun nước năng lượng mặt trời bán cháy hàng, nó vốn chỉ là đồ nhỏ sân vườn, hiệu quả cũng chỉ vậy. Nhưng được video AI đóng gói thành bồn tắm chim, hồ cá và đồ chơi phun nước siêu ngầu trong bồn tắm trẻ em, thì mọi người đều đang săn mua.
AI không thay đổi bản thân hàng hóa, nhưng thay đổi cách người dùng hiểu hàng hóa. Nó biến “hướng dẫn chức năng” thành “bối cảnh sử dụng”.
Điều này vừa đúng đánh trúng điểm đau nội dung thương mại điện tử.
Trang hàng hóa viết đầy tham số, người dùng chưa chắc có kiên nhẫn xem; người livestream nói nửa ngày, người dùng cũng chưa chắc tin. Nhưng một video mười mấy giây, nếu có thể nói rõ bối cảnh, hiệu suất chuyển đổi có thể cao hơn rất nhiều.
Quan trọng hơn, video AI có thể tạo hàng loạt. Thương gia có thể tạo phiên bản trẻ em, phiên bản gia đình, phiên bản ngày lễ, phiên bản ngoài trời cho cùng một món hàng, cũng có thể tạo ngôn ngữ khác nhau, nhân vật khác nhau, bối cảnh khác nhau cho các quốc gia khác nhau.
Ý nghĩa này đối với Alibaba, lớn hơn việc đơn thuần làm một công cụ tạo video. Cho dù là Taobao, hay Tmall, trên đó đều có lượng lớn thương gia, cũng đều có lượng lớn dữ liệu hàng hóa và phản hồi giao dịch.
Một công cụ video AI nếu chỉ biết tạo hình ảnh đẹp, nó sớm muộn sẽ trở thành phần mềm tư liệu; nếu nó có thể biết món hàng này trong bối cảnh nào dễ được click hơn, văn案 nào dễ mang lại thêm giỏ hàng hơn, video nào mấy giây đầu dễ giữ chân người dùng hơn, nó sẽ tiếp cận một phần của hệ điều hành thương mại điện tử.
Thứ Alibaba có nhiều hơn so với công ty mô hình tạo video khác, chính là vòng lặp phản hồi này.
Ảnh hàng hóa, trang chi tiết, đánh giá, hỏi đáp, từ khóa tìm kiếm, tỷ lệ click, tỷ lệ thêm giỏ, lý do hoàn tiền, thời gian dừng livestream, những thứ này nhìn có vẻ vụn vặt, nhưng đều là nhiên liệu cho năng lực nội dung thương mại điện tử.
Nếu HappyHorse tiếp nhận những phản hồi này, nó có thể từ “giúp thương gia tạo một video”, tiến hóa thành “giúp thương gia tạo video có khả năng bán hàng cao hơn”.
Hướng đến Taotian, nó có thể làm video ảnh chính, phim ngắn bối cảnh hàng hóa, cắt lát livestream, người livestream ảo và tư liệu marketing.
Trước đây một thương gia lên hàng mới, có thể chỉ tải lên vài tấm ảnh, nhiều lắm là quay thêm một video ngắn thô. Sau này nó có thể đưa ảnh hàng hóa, điểm bán, đánh giá và nhãn nhóm người cho hệ thống, để hệ thống tạo nhiều phiên bản video khác nhau, rồi dùng dữ liệu đặt hàng và giao dịch thực tế để sàng lọc ra phiên bản hiệu quả hơn.
Quá trình này nếu chạy thuận, nguồn cung nội dung nền tảng sẽ tăng lên rõ rệt, ngưỡng nội dung của thương gia vừa và nhỏ cũng sẽ giảm xuống.
Tuy nhiên, video AI bán hàng cũng có rủi ro. Nó có thể phóng đại điểm bán, cũng có thể phóng đại ảo giác. Một máy bơm đài phun trong video AI phun rất cao, thực tế không đạt được hiệu quả như vậy.
Cơ hội của Alibaba không nên là dung túng thương gia dùng AI tạo mộng, trọng điểm nên đặt ở tham số hàng hóa, tư liệu quay thực, đánh giá người mua và kiểm duyệt nền tảng, để nội dung tạo có ranh giới.
Cuối tháng 3, OpenAI tuyên bố đóng cửa ứng dụng độc lập Sora và API liên quan. Lý do rất thực tế, tạo video quá đốt tiền, sự lưu giữ người dùng không chống đỡ nổi chi phí, OpenAI phải đặt năng lực tính toán trở lại hướng mã hóa, dịch vụ doanh nghiệp và robot.
Sora ngã trên bản kế toán thương mại.
ByteDance cũng gặp rắc rối ở đầu bên kia. Seedance 2.0 mặc dù hiệu quả cũng rất mạnh, nhưng vì vấn đề bản quyền, ByteDance đã tạm dừng phát hành toàn cầu Seedance 2.0.
Mô hình huấn luyện càng mạnh, càng dễ dẫm vào vũng lầy bản quyền, quyền肖像 (quyền hình ảnh) và dữ liệu huấn luyện.
Lúc này nhìn lại HappyHorse do Trương Địa dẫn đầu làm ra, nó có kịch bản thương mại rõ ràng. Hơn nữa tư liệu hàng hóa, tư liệu thương gia, video quay thực và phản hồi giao dịch trong tay Alibaba, vốn dĩ phù hợp với tạo có kiểm soát hơn so với IP điện ảnh.
Vì vậy giá trị của HappyHorse, không chỉ ở bảng xếp hạng. Nó tìm cho AI video một điểm rơi vững chắc hơn.







