Văn bản | Zimu AI
Có thông tin cho rằng, mô hình tạo video Seedance 2.1 của ByteDance sẽ được ra mắt trong thời gian tới, dự kiến hiệu quả tạo video sẽ tăng 20% so với phiên bản 2.0. ByteDance đã nói với Zimu AI rằng đây là tin đồn không chính xác.
Tuy Seedance 2.1 chưa chắc sẽ được ra mắt trong thời gian gần, nhưng sự nổi tiếng của Seedance 2.0 ở thị trường nước ngoài đang tăng lên rõ rệt là sự thật.
Lý do là vào cuối tuần, một bài báo có tiêu đề "Chinese AI groups pull ahead of US rivals in video generation race" (Các nhóm AI Trung Quốc vượt lên trước đối thủ Mỹ trong cuộc đua tạo video) đã gây bão trên mạng ở nước ngoài.
Bài viết lấy Seedance 2.0 và Kling 3.0 làm luận cứ chính, đưa ra một kết luận gây bất ngờ: "Trung Quốc không chỉ dẫn đầu Mỹ trong lĩnh vực tạo video bằng AI, mà lợi thế này còn sẽ được duy trì mãi mãi."
Nhận định này nghe có vẻ hơi phản trực giác, nó giống như một lời ca ngợi dành cho AI Trung Quốc. Xét cho cùng, trong những năm qua, ngành AI luôn là Silicon Valley ra mắt sản phẩm trước, rồi mới đến các sản phẩm tương tự của Trung Quốc, điều này chúng ta đều đã thấy rõ.
Nhưng sau khi đọc xong quan điểm của truyền thông nước ngoài, tôi phát hiện, quả thực tôi đã nghĩ quá phiến diện, Trung Quốc thực sự đang dẫn đầu Mỹ trong lĩnh vực tạo video bằng AI.
Bài báo đã đặc biệt phỏng vấn một số nhà khởi nghiệp AI Mỹ, cũng như các nhà làm phim sử dụng công nghệ tạo video AI, và kết quả là, mọi người đều nhất trí cho rằng các công cụ AI video của Trung Quốc đã vượt xa các đối thủ cùng ngành ở Mỹ.
Quan trọng hơn, sự dẫn đầu này không phải là sự dẫn đầu về công nghệ mang tính giai đoạn, mà là một sự dẫn đầu toàn diện, từ dữ liệu đến triển khai thực tế, mọi khâu đều dẫn đầu.
Không chỉ vậy, sự dẫn đầu này là kiểu "không thể bị vượt qua". Nghĩa là, vị trí dẫn đầu này sẽ được duy trì mãi mãi.
"Tiên phong vượt trội" đã thành hiện thực?
Tại sao AI Trung Quốc sẽ mãi mãi dẫn đầu AI Mỹ?
Một luận cứ của bài viết là, trong lĩnh vực tạo video AI, khoảng cách về mặt thuật toán đang nhanh chóng thu hẹp.
Hiện tại, các công ty trong ngành về cơ bản đã "không chênh lệch nhiều" về mặt kiến trúc công nghệ. Các con đường công nghệ cốt lõi như Transformer, mô hình khuếch tán, cơ chế chú ý không-thời gian đã tương đối minh bạch.
Vì vậy, vấn đề then chốt nằm ở việc ai nắm giữ dữ liệu huấn luyện chất lượng cao hơn và số lượng lớn hơn.
Điều này đúng vào sở trường của ByteDance và Kuaishou. Douyin, Kuaishou vốn là một trong những cỗ máy sản xuất video lớn nhất toàn cầu.
Quan trọng hơn, những dữ liệu này mang nhãn chú hành vi người dùng hoàn chỉnh.
Video nào được thích, lưu trữ, chia sẻ, video nào có tỷ lệ xem hết cao, dữ liệu backend hiển thị rõ ràng.
Hơn nữa, những nhãn chú này không cần gắn nhãn thủ công, chúng đều được hình thành tự nhiên từ hành vi thực tế của người dùng. Loại dữ liệu chất lượng cao có nhãn chú này, bạn có bỏ tiền ra mua trên thị trường cũng chưa chắc mua được.
Ngược lại, OpenAI và Anthropic không có tích lũy dữ liệu video.
Khi ra mắt Sora, OpenAI chủ yếu dựa vào dữ liệu video công khai thu thập từ internet, cùng một phần tài liệu phim ảnh được cấp phép.
Vấn đề là, video công khai trên internet thường chất lượng không đồng đều, có nhiều nội dung trùng lặp, chất lượng thấp, thậm chí là nội dung được xử lý lại mang logo và quảng cáo.
Vì vậy trong quá trình huấn luyện, tình trạng "công thì ít mà hiệu quả thì nhiều" thường xảy ra.
Trên nền tảng đánh giá toàn cầu Artificial Analysis, Seedance 2.0 của ByteDance, Kling 3.0 của Kuaishou, cùng HappyHorse của Alibaba, ba công cụ Trung Quốc này đã chiếm top đầu bảng xếp hạng tạo video từ văn bản và tạo video từ hình ảnh.
Bảng xếp hạng này được tạo ra từ phiếu bầu của người dùng thực, điều này có nghĩa là mọi người đều nghĩ rằng nội dung do ba AI tạo video này tạo ra là đẹp mắt.
Mặc dù Google vừa có Youtube làm nguồn dữ liệu, vừa có mô hình tạo video Veo 3.
Nhưng vấn đề của Google nằm ở chỗ có quá nhiều ràng buộc, thời lượng video trên Youtube thường vượt quá 5 phút, nhưng GPU hiện tại vẫn chưa thể chứa được video dài và độ phân giải cao như vậy làm dữ liệu huấn luyện, điều này sẽ dẫn đến lỗi trong quá trình huấn luyện mô hình.
Điều này dẫn đến phản ứng thị trường của Veo 3 không thực sự tốt, thấp hơn so với các mô hình AI tạo video Trung Quốc như Seedance 2.0 và Kling 3.0.
Người sáng lập Director AI, Ben Chiang cho biết. "Chúng tôi đã thử nghiệm hầu hết các mô hình Mỹ, nhưng hiệu suất trong việc tạo video đều không tốt". Vì vậy hiện tại ông chủ yếu sử dụng các công cụ Trung Quốc như Kling, Seedance 2.0 và Haibao (Conch?) để sáng tạo.
Nhà làm phim AI độc lập George Won cho biết "Seedance 2.0 là một công cụ thay đổi cuộc chơi. Nó có thể xử lý các góc máy và tốc độ mạnh mẽ mà không làm mất chi tiết khuôn mặt nhân vật hoặc độ tương phản ánh sáng. Hầu hết các mô hình AI sẽ bắt đầu rung lắc hoặc trôi khi chuyển động nhanh."
Hơn nữa, lợi thế dữ liệu này còn cho phép sản phẩm 'tự củng cố'.
ByteDance đã tích hợp Seedance 2.0 vào các công cụ sáng tạo như CapCut (Jianying), vì vậy ByteDance mỗi ngày còn nhận được hơn 50 triệu dữ liệu phản hồi về video được tạo ra.
Như vậy, ByteDance có thể biết rằng "video này người dùng hài lòng, video kia người dùng không hài lòng".
Mỗi khi nhận được một phản hồi như vậy, định hướng phát triển cho thế hệ sản phẩm Seedance tiếp theo lại rõ ràng hơn một chút.
Vòng lặp phản hồi liên tục, quy mô lớn, trong môi trường thực tế như vậy, cũng là điều mà môi trường phòng thí nghiệm như OpenAI và Anthropic không thể so sánh được.
Ngay cả khi đầu tư thêm nhiều nguồn lực, cũng khó có thể xây dựng được một bánh đà dữ liệu tương tự trong thời gian ngắn.
Công nghệ có thể đuổi theo, thuật toán có thể bắt chước, nhưng sự tích lũy hệ sinh thái và dữ liệu cần thời gian, cần cơ sở người dùng, cần một vòng lặp sản phẩm hoàn chỉnh.
Kịch bản triển khai thực tế
Doanh nghiệp phát triển video AI, cần phải có một 'mục đích'.
Lợi thế dữ liệu chỉ là điểm khởi đầu, điều thực sự biến công nghệ thành sức cạnh tranh, là tìm ra kịch bản ứng dụng có thể kiếm tiền. Có kịch bản triển khai thực tế, doanh nghiệp mới có động lực phát triển tạo video bằng AI.
Ở khía cạnh này, ByteDance và Kuaishou cũng vượt trội hơn AI Mỹ.
Kịch bản triển khai thực tế quy mô lớn đầu tiên là video thương mại điện tử.
Trước đây, chi phí quay một video chuyên nghiệp cho một sản phẩm lên tới hàng nghìn nhân dân tệ. Bao gồm phí nhiếp ảnh gia, kỹ thuật viên ánh sáng, thuê địa điểm, phí người mẫu, chỉnh sửa hậu kỳ, v.v.
Đối với hầu hết các thương nhân vừa và nhỏ, một cửa hàng Taobao thông thường có thể có hàng trăm sản phẩm, chi phí quay hết tất cả ít nhất là vài chục vạn nhân dân tệ.
Công nghệ tạo video AI đã thay đổi thực trạng này.
CEO của công ty cơ sở hạ tầng video Firework, Vincent Yang cho biết "Một nhà bán lẻ yêu cầu chúng tôi tạo 100.000 video cho trang sản phẩm của họ. Nếu không có AI, điều này hoàn toàn không khả thi về mặt chi phí. Giờ đây, mỗi sản phẩm đều có thể có video riêng, thậm chí có thể tùy chỉnh nhiều phiên bản cho các khách hàng khác nhau."
Số liệu cho thấy, tỷ lệ chuyển đổi của trang sản phẩm có video cao hơn 30% đến 80% so với trang chỉ có hình ảnh và văn bản, hơn nữa Douyin và Kuaishou vốn là một trong những nền tảng phát trực tiếp thương mại điện tử và bán hàng bằng video ngắn lớn nhất Trung Quốc.
Sau khi AI tạo xong video, rẽ phải là có thể đưa vào quảng cáo ngay.
Mô hình HappyHorse của Alibaba cũng xác định rõ video thương mại điện tử là kịch bản triển khai thực tế cốt lõi. Nó hỗ trợ tạo hàng loạt video ngắn giới thiệu sản phẩm, video người dẫn chương trình ảo. Một thương nhân có thể tải lên hình ảnh sản phẩm và mô tả văn bản đơn giản, hệ thống sẽ tự động tạo nhiều phiên bản video bán hàng, mỗi phiên bản nhắm đến các nhóm đối tượng khác nhau, sử dụng cách nói và cách trình bày khác nhau.
Kịch bản thứ hai là quảng cáo.
Chu kỳ sản xuất quảng cáo truyền hình truyền thống (TVC) quá dài.
Một quảng cáo thương hiệu 30 giây, từ lên ý tưởng sáng tạo đến quay phim sản xuất, thường mất vài tuần.
Có mô hình tạo video, chỉ trong vài phút có thể tạo ra hàng chục phiên bản ý tưởng quảng cáo khác nhau.
Kịch bản thứ ba là phim ngắn.
Phim ngắn AI đã đón nhận sự tăng trưởng bùng nổ vào năm 2026. Số liệu cho thấy, số lượng phim ngắn AI đang phát vào tháng 3/2026 đã tăng 138% so với tháng 1, vượt xa tốc độ sản xuất nội dung phim ảnh truyền thống.
Thông qua tạo video bằng AI, một nhóm nhỏ hoặc thậm chí người sáng tạo cá nhân, có thể tạo ra một bộ phim ngắn chỉ trong vài ngày.
Chưa hết, nền tảng phim ngắn Hongguo (Red Fruit) của ByteDance còn tích hợp chức năng "nhận dạng hình ảnh tìm sản phẩm tương tự".
Chức năng này rất dễ hiểu, khi bạn xem phim ngắn, nếu quan tâm đến trang phục của nhân vật trong phim, đồ nội thất trong cảnh, chiếc xe đậu trước cửa, có thể nhấp trực tiếp vào nhận dạng hình ảnh, hệ thống sẽ đề xuất sản phẩm tương tự, có thể mua ngay.
Tương đương với việc biến phim ngắn thành một kịch bản thương mại có thể mang lại chuyển đổi.
Ngược lại với thị trường Mỹ, mặc dù có các nền tảng nội dung như Netflix, YouTube, nhưng không có bất kỳ triển khai thực tế và chuyển đổi nào.
Các công cụ video AI của Mỹ phần lớn vẫn dừng lại ở giai đoạn thử nghiệm sáng tạo, kịch bản thương mại duy nhất là đăng ký thành viên.
Hơn nữa, xét về chức năng sản phẩm, mô hình tạo video Trung Quốc cũng phù hợp hơn cho triển khai thương mại.
Seedance 2.0 có thể đưa nhiều ảnh tư liệu, video, âm thanh vào cùng một video AI, Sora thì không thể, chỉ có thể tạo video bằng cách chỉ định cho mô hình một hình ảnh và văn bản.
Đây không phải vì công nghệ của Sora không đủ tốt, mà là vì nó thiếu một hệ sinh thái thương mại hoàn chỉnh để tiếp nhận những khả năng công nghệ này.
Khoảng cách sức mạnh tính toán
Nhưng AI video Trung Quốc cũng có một rào cản không thể vượt qua, đó là sức mạnh tính toán.
AI hàng đầu Mỹ coi sức mạnh tính toán là vàng, thu gom tất cả sức mạnh tính toán có thể mua được trên thị trường.
Thỏa thuận sức mạnh tính toán gần đây của Anthropic tổng cộng vượt quá 10 gigawatt.
Con số này bao gồm việc thuê toàn bộ sức mạnh tính toán của trung tâm dữ liệu SpaceX Colossus 1, bao gồm 220.000 GPU của Nvidia; thỏa thuận 5 gigawatt với Amazon; và thỏa thuận 3.5 gigawatt với Google và Broadcom.
OpenAI cũng tương tự.
Thông qua hợp tác sâu với Microsoft, OpenAI đã có quyền sử dụng hàng trăm nghìn GPU cao cấp, Microsoft còn xây dựng riêng nhiều trung tâm dữ liệu siêu lớn cho OpenAI.
Ngược lại, mặc dù các doanh nghiệp Trung Quốc đã đạt được tiến bộ đáng kể trong việc tối ưu hóa hiệu suất thuật toán, nhưng vẫn tồn tại khoảng cách về quy mô sức mạnh tính toán tuyệt đối.
Theo thống kê của truyền thông nước ngoài, khoảng cách sức mạnh tính toán AI giữa Trung-Mỹ vào năm 2023 là khoảng 3 lần, đến đầu năm 2026 đã mở rộng lên khoảng 8 lần.
Ngoài sức mạnh tính toán, AI Trung Quốc còn có những khó khăn khác.
Đầu tiên là vấn đề bản quyền.
Lấy Seedance 2.0 làm ví dụ, khoảng một tháng sau khi ra mắt, 6 gã khổng lồ Hollywood bao gồm Disney, Warner Bros, Paramount, Skydance, Netflix đã cùng gửi thư ngừng vi phạm đến ByteDance, họ cho rằng Seedance 2.0 trong giai đoạn huấn luyện đã sử dụng quy mô lớn tài liệu phim ảnh được bảo vệ bản quyền mà chưa được cấp phép.
Sau đó, ByteDance đã khẩn cấp tạm dừng kế hoạch ra mắt toàn cầu Seedance 2.0 dự kiến vào giữa tháng 3.
Nếu bạn sử dụng Seedance 2.0 từ tháng 2 đến nay sẽ phát hiện, trước đây có thể tạo nhân vật IP, bây giờ đều không thể sử dụng nữa, thay vào đó chỉ có thể sử dụng hình tượng "người qua đường".
Thứ hai là ngưỡng thương mại hóa đang được nâng cao.
AI tạo video Mỹ đại diện là Sora, thường xuyên từ chối yêu cầu tạo video do điều khoản sử dụng, công cụ Trung Quốc khoan dung hơn, và giá cũng rẻ hơn.
Nhưng điều này cũng mang đến cho các công ty AI Trung Quốc "nỗi phiền muộn hạnh phúc".
Nhu cầu sử dụng Seedance 2.0 kể từ tháng 2 đã tăng mạnh, một số người dùng đã gặp phải vấn đề hạn mức bị giới hạn và thời gian chờ xếp hàng kéo dài.
Truyền thông nước ngoài cho biết, ByteDance đã áp dụng cách thương mại hóa nặng hơn đối với một số khách hàng doanh nghiệp Mỹ, yêu cầu khách hàng trả trước khoảng 2 triệu USD, để đổi lấy quyền truy cập mô hình và hạn mức sử dụng.
Phía Kuaishou cũng tương tự, họ đang tách riêng nghiệp vụ Kling, trong tương lai có thể thúc đẩy Kling niêm yết riêng.
Điều này cho thấy Kling là nghiệp vụ độc lập, có câu chuyện tăng trưởng mạnh hơn chủ thể Kuaishou.
Câu chuyện tăng trưởng càng lớn, thì càng phải tính toán rõ ràng.
Tuy nhiên, chi phí video AI cao hơn một chút. Người dùng tạo một video vài giây, sức mạnh tính toán tiêu hao đằng sau cao hơn nhiều so với tạo một đoạn văn bản.
Chất lượng video tạo ra càng cao, thời lượng càng dài, chi phí suy luận càng cao.
Nhiều mô hình tạo video đều như vậy, ban đầu rất rẻ, thậm chí miễn phí, đợi người dùng tràn vào, nhanh chóng bắt đầu hạn mức, xếp hàng, tăng giá.
Không phải công ty không muốn mở rộng, mà là nhà giàu cũng không còn dư lương.
Vì vậy, AI video Trung Quốc tiếp theo phải đối mặt, không chỉ là "có thể tạo ra mô hình tốt hay không", mà còn là "có thể biến mô hình tốt thành một mô hình kinh doanh tốt hay không".
Nếu giá quá thấp, người dùng tăng càng nhanh, thua lỗ càng lớn; nếu giá quá cao, không có người dùng, thì sẽ không đáng.
Thứ ba là sự chênh lệch thế hệ năng lực mô hình.
Xét cho cùng, năng lực tạo video được xây dựng dựa trên mô hình ngôn ngữ.
Một mô hình tạo video dù có giỏi đến đâu, nó vẫn cần khả năng hiểu ngôn ngữ làm nền tảng, để hiểu từ gợi ý của người dùng. Sau đó sử dụng khả năng suy luận, để hiểu mối quan hệ logic của cảnh, nhân vật, và duy trì tính mạch lạc của nội dung được tạo ra.
Theo đánh giá của truyền thông nước ngoài, ChatGPT 5.5 của OpenAI và Mythos của Anthropic đã dẫn trước các công ty AI trong nước từ 9 tháng đến 1 năm.
Sự chênh lệch thế hệ này thể hiện ở nhiều mặt, như khả năng suy luận, hiểu ngữ cảnh, đối thoại nhiều vòng, xử lý tác vụ phức tạp, v.v.
Mặc dù Trung Quốc dẫn đầu AI Mỹ trong các lĩnh vực dọc như AI video, nhưng trong mô hình lớn tổng quát, vẫn có thể cảm nhận được khoảng cách khá rõ ràng.
Tóm lại, sự dẫn đầu của AI Trung Quốc trong lĩnh vực tạo video là hiện thực, nhưng cũng không phải là an nhàn hưởng thụ. Khoảng cách về sức mạnh tính toán và mô hình cơ sở luôn là thanh kiếm treo trên đầu. Nhưng ít nhất bây giờ, chúng ta cuối cùng cũng không còn phải ngưỡng mộ cái bóng của Silicon Valley nữa.









