Microsoft Mã Nguồn Mở Gia Đình AI Giọng Nói Tiên Phong VibeVoice: Xử Lý 90 Phút Hội Thoại Đa Người Nói Một Lần, GitHub Nhanh Chóng Đạt 27K Star

marsbitXuất bản vào 2026-03-30Cập nhật gần nhất vào 2026-03-30

Tóm tắt

Microsoft vừa ra mắt bộ mô hình AI xử lý giọng nói mã nguồn mở VibeVoice, bao gồm nhận dạng giọng nói (ASR) và chuyển văn bản thành giọng nói (TTS). Dự án thu hút 27K sao trên GitHub nhờ khả năng xử lý đoạn hội thoại dài đa người nói, độ trễ thấp và hoạt động cục bộ không cần kết nối đám mây. VibeVoice-ASR-7B xử lý audio dài tới 60 phút, xuất kết quả có cấu trúc với nhận diện người nói, dấu thời gian và hỗ trợ 50+ ngôn ngữ. VibeVoice-TTS-1.5B tạo audio dài 90 phút với tối đa 4 giọng nói tự nhiên, phù hợp cho podcast và sách nói. VibeVoice-Realtime-0.5B có độ trễ chỉ 300ms, thích hợp cho trợ lý ảo. Dự án tích hợp cơ chế bảo mật như watermark và được phân phối trên GitHub và Hugging Face.

Microsoft gần đây đã mã nguồn mở một họ mô hình AI giọng nói tiên phong có tên VibeVoice, bao gồm nhiều khả năng như nhận dạng giọng nói tự động (ASR) và chuyển văn bản thành giọng nói (TTS). Dự án này đã nhanh chóng thu hút sự chú ý trong cộng đồng nhà phát triển nhờ khả năng xử lý âm thanh dài mạnh mẽ, tạo hội thoại tự nhiên đa người nói và đặc tính độ trễ thấp thời gian thực, hiện đã đạt khoảng 27K Star trên GitHub.

Là một khuôn khổ nghiên cứu mã nguồn mở, VibeVoice sử dụng giấy phép MIT, hỗ trợ triển khai tại chỗ, không cần chi phí đăng ký đám mây, nhằm thúc đẩy sự hợp tác và đổi mới trong lĩnh vực tổng hợp giọng nói. Họ mô hình chủ yếu bao gồm ba thành viên cốt lõi, mỗi thành viên có trọng tâm riêng, cùng giải quyết các điểm khó khăn của AI giọng nói truyền thống trong xử lý chuỗi dài, tính nhất quán của người nói và sự trôi chảy tự nhiên.

VibeVoice-ASR-7B: Công cụ chuyển giọng nói thành văn bản có cấu trúc dài tới 60 phút

VibeVoice-ASR-7B là một mô hình thống nhất chuyển đổi giọng nói thành văn bản, có khả năng xử lý một lần các tệp âm thanh dài tới 60 phút và xuất trực tiếp kết quả chép lại có cấu trúc. Đầu ra không chỉ bao gồm "ai đang nói" (nhận dạng người nói), "khi nào nói" (dấu thời gian chính xác) mà còn bao gồm "nói gì" (nội dung chi tiết), và hỗ trợ tính năng từ khóa tùy chỉnh, có thể nâng cao hiệu quả độ chính xác nhận dạng cho các thuật ngữ chuyên ngành hoặc kỹ thuật. Mô hình này hỗ trợ hơn 50 ngôn ngữ, phù hợp với các ngữ cảnh phức tạp như ghi chép cuộc họp dài, chép lại podcast.

Các nhà phát triển cộng đồng đã dựa trên mô hình này để phát triển các công cụ thực tiễn, chẳng hạn như một phương thức nhập liệu bằng giọng nói có tên Vibing, hỗ trợ nền tảng macOS và Windows. Phản hồi từ người dùng cho thấy, tốc độ nhận dạng và độ chính xác của nó khá tốt, có thể nâng cao đáng kể hiệu quả nhập liệu bằng giọng nói hàng ngày.

VibeVoice-TTS-1.5B: Tạo giọng nói biểu cảm đa người nói dài 90 phút

VibeVoice-TTS-1.5B là mô hình cốt lõi tập trung vào chuyển văn bản thành giọng nói, có thể tạo ra một lần âm thanh liên tục dài tới 90 phút, hỗ trợ tối đa 4 người nói khác nhau để mô phỏng hội thoại tự nhiên. Giọng nói do mô hình tạo ra giàu biểu cảm, nghe tự nhiên và trôi chảy, có thể mô phỏng các điểm dừng, nhấn mạnh và chuyển biến cảm xúc chân thực, rất phù hợp để sản xuất podcast, tường thuật âm thanh dài, sách nói hoặc nội dung hội thoại đa nhân vật.

So với nhiều mô hình TTS truyền thống chỉ hỗ trợ 1-2 người nói, VibeVoice-TTS đã đạt được bước đột phá đáng kể về tính nhất quán của nhiều người nói trong các đoạn dài. Cơ chế cơ bản của nó sử dụng bộ phân từ giọng nói liên tục (bộ phân từ âm học và ngữ nghĩa) kết hợp với thiết kế tốc độ khung hình thấp (7.5Hz), giúp nâng cao đáng kể hiệu quả tính toán trong xử lý chuỗi dài.

VibeVoice-Realtime-0.5B: TTS thời gian thực với độ trễ khoảng 300 mili giây

VibeVoice-Realtime-0.5B tập trung vào các tình huống thời gian thực, hỗ trợ nhập văn bản dạng luồng, độ trễ đầu ra âm thanh đầu tiên khoảng 300 mili giây, đồng thời vẫn có thể tạo ra giọng nói dài khoảng 10 phút. Mô hình này đặc biệt phù hợp cho các ứng dụng tương tác cần phản hồi tức thì, như trợ lý giọng nói thời gian thực hoặc các cảnh lồng tiếng trực tiếp.

Ngoài ra, dự án còn giới thiệu hỗ trợ người nói thử nghiệm, bao gồm giọng nói đa ngôn ngữ và nhiều biến thể phong cách tiếng Anh, cung cấp thêm không gian tùy chỉnh cho các nhà phát triển.

Nhận xét từ AIbase: Việc mã nguồn mở VibeVoice của Microsoft không chỉ làm giảm ngưỡng sử dụng AI giọng nói hiệu suất cao mà còn cung cấp giải pháp hoàn chỉnh cho triển khai tại chỗ. Dự án đã từng bị gỡ xuống trong thời gian ngắn do nguy cơ sử dụng sai tiềm ẩn, sau đó được đưa lên lại thông qua các cơ chế bảo mật như nhúng watermark âm thanh, tuyên bố từ chối trách nhiệm có thể nghe được, thể hiện nguyên tắc phát triển AI có trách nhiệm. Hiện tại, các nhà phát triển có thể lấy trọng số mô hình trên kho lưu trữ GitHub và Hugging Face, đồng thời dùng thử nhanh thông qua các nền tảng như Colab.

Với sự đóng góp liên tục của cộng đồng mã nguồn mở (như fork tối ưu hóa cho Apple Silicon), VibeVoice có triển vọng được triển khai nhanh chóng trong các lĩnh vực như sáng tạo nội dung, công cụ hỗ trợ tiếp cận, tương tác bằng giọng nói. Các nhà phát triển quan tâm có thể truy cập trang dự án chính thức của Microsoft để khám phá thêm.

Địa chỉ dự án: https://github.com/microsoft/VibeVoice

Câu hỏi Liên quan

QMicrosoft vừa công bố mã nguồn mở họ mô hình AI giọng nói nào?

AMicrosoft vừa công bố mã nguồn mở họ mô hình AI giọng nói tên là VibeVoice, bao gồm các khả năng như nhận dạng giọng nói tự động (ASR) và chuyển văn bản thành giọng nói (TTS).

QMô hình VibeVoice-ASR-7B có khả năng xử lý tối đa bao nhiêu phút âm thanh?

AMô hình VibeVoice-ASR-7B có khả năng xử lý một lần tối đa 60 phút âm thanh và xuất kết quả chuyển đổi có cấu trúc.

QMô hình TTS nào trong họ VibeVoice có thể xử lý đoạn hội thoại dài 90 phút với nhiều người nói?

AĐó là mô hình VibeVoice-TTS-1.5B, có thể tạo ra đoạn âm thanh liên tục dài tới 90 phút và hỗ trợ tối đa 4 người nói khác nhau trong một cuộc hội thoại tự nhiên.

QDự án VibeVoice đã nhận được bao nhiêu sao (Star) trên GitHub?

ADự án VibeVoice đã nhanh chóng nhận được khoảng 27,000 sao trên GitHub.

QMô hình VibeVoice nào được thiết kế cho các ứng dụng thời gian thực với độ trễ thấp?

AĐó là mô hình VibeVoice-Realtime-0.5B, được thiết kế cho các tình huống thời gian thực, hỗ trợ đầu vào văn bản dạng luồng với độ trễ xuất âm thanh đầu tiên khoảng 300 mili giây.

Nội dung Liên quan

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua ONE

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Harmony (ONE) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Harmony (ONE) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Harmony (ONE) của BạnSau khi mua Harmony (ONE), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Harmony (ONE)Giao dịch Harmony (ONE) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 406Xuất bản vào 2024.12.12Cập nhật vào 2025.03.21

Làm thế nào để Mua ONE

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của ONE (ONE) được trình bày dưới đây.

活动图片