Microsoft gần đây đã mã nguồn mở một họ mô hình AI giọng nói tiên phong có tên VibeVoice, bao gồm nhiều khả năng như nhận dạng giọng nói tự động (ASR) và chuyển văn bản thành giọng nói (TTS). Dự án này đã nhanh chóng thu hút sự chú ý trong cộng đồng nhà phát triển nhờ khả năng xử lý âm thanh dài mạnh mẽ, tạo hội thoại tự nhiên đa người nói và đặc tính độ trễ thấp thời gian thực, hiện đã đạt khoảng 27K Star trên GitHub.
Là một khuôn khổ nghiên cứu mã nguồn mở, VibeVoice sử dụng giấy phép MIT, hỗ trợ triển khai tại chỗ, không cần chi phí đăng ký đám mây, nhằm thúc đẩy sự hợp tác và đổi mới trong lĩnh vực tổng hợp giọng nói. Họ mô hình chủ yếu bao gồm ba thành viên cốt lõi, mỗi thành viên có trọng tâm riêng, cùng giải quyết các điểm khó khăn của AI giọng nói truyền thống trong xử lý chuỗi dài, tính nhất quán của người nói và sự trôi chảy tự nhiên.
VibeVoice-ASR-7B: Công cụ chuyển giọng nói thành văn bản có cấu trúc dài tới 60 phút
VibeVoice-ASR-7B là một mô hình thống nhất chuyển đổi giọng nói thành văn bản, có khả năng xử lý một lần các tệp âm thanh dài tới 60 phút và xuất trực tiếp kết quả chép lại có cấu trúc. Đầu ra không chỉ bao gồm "ai đang nói" (nhận dạng người nói), "khi nào nói" (dấu thời gian chính xác) mà còn bao gồm "nói gì" (nội dung chi tiết), và hỗ trợ tính năng từ khóa tùy chỉnh, có thể nâng cao hiệu quả độ chính xác nhận dạng cho các thuật ngữ chuyên ngành hoặc kỹ thuật. Mô hình này hỗ trợ hơn 50 ngôn ngữ, phù hợp với các ngữ cảnh phức tạp như ghi chép cuộc họp dài, chép lại podcast.
Các nhà phát triển cộng đồng đã dựa trên mô hình này để phát triển các công cụ thực tiễn, chẳng hạn như một phương thức nhập liệu bằng giọng nói có tên Vibing, hỗ trợ nền tảng macOS và Windows. Phản hồi từ người dùng cho thấy, tốc độ nhận dạng và độ chính xác của nó khá tốt, có thể nâng cao đáng kể hiệu quả nhập liệu bằng giọng nói hàng ngày.
VibeVoice-TTS-1.5B: Tạo giọng nói biểu cảm đa người nói dài 90 phút
VibeVoice-TTS-1.5B là mô hình cốt lõi tập trung vào chuyển văn bản thành giọng nói, có thể tạo ra một lần âm thanh liên tục dài tới 90 phút, hỗ trợ tối đa 4 người nói khác nhau để mô phỏng hội thoại tự nhiên. Giọng nói do mô hình tạo ra giàu biểu cảm, nghe tự nhiên và trôi chảy, có thể mô phỏng các điểm dừng, nhấn mạnh và chuyển biến cảm xúc chân thực, rất phù hợp để sản xuất podcast, tường thuật âm thanh dài, sách nói hoặc nội dung hội thoại đa nhân vật.
So với nhiều mô hình TTS truyền thống chỉ hỗ trợ 1-2 người nói, VibeVoice-TTS đã đạt được bước đột phá đáng kể về tính nhất quán của nhiều người nói trong các đoạn dài. Cơ chế cơ bản của nó sử dụng bộ phân từ giọng nói liên tục (bộ phân từ âm học và ngữ nghĩa) kết hợp với thiết kế tốc độ khung hình thấp (7.5Hz), giúp nâng cao đáng kể hiệu quả tính toán trong xử lý chuỗi dài.
VibeVoice-Realtime-0.5B: TTS thời gian thực với độ trễ khoảng 300 mili giây
VibeVoice-Realtime-0.5B tập trung vào các tình huống thời gian thực, hỗ trợ nhập văn bản dạng luồng, độ trễ đầu ra âm thanh đầu tiên khoảng 300 mili giây, đồng thời vẫn có thể tạo ra giọng nói dài khoảng 10 phút. Mô hình này đặc biệt phù hợp cho các ứng dụng tương tác cần phản hồi tức thì, như trợ lý giọng nói thời gian thực hoặc các cảnh lồng tiếng trực tiếp.
Ngoài ra, dự án còn giới thiệu hỗ trợ người nói thử nghiệm, bao gồm giọng nói đa ngôn ngữ và nhiều biến thể phong cách tiếng Anh, cung cấp thêm không gian tùy chỉnh cho các nhà phát triển.
Nhận xét từ AIbase: Việc mã nguồn mở VibeVoice của Microsoft không chỉ làm giảm ngưỡng sử dụng AI giọng nói hiệu suất cao mà còn cung cấp giải pháp hoàn chỉnh cho triển khai tại chỗ. Dự án đã từng bị gỡ xuống trong thời gian ngắn do nguy cơ sử dụng sai tiềm ẩn, sau đó được đưa lên lại thông qua các cơ chế bảo mật như nhúng watermark âm thanh, tuyên bố từ chối trách nhiệm có thể nghe được, thể hiện nguyên tắc phát triển AI có trách nhiệm. Hiện tại, các nhà phát triển có thể lấy trọng số mô hình trên kho lưu trữ GitHub và Hugging Face, đồng thời dùng thử nhanh thông qua các nền tảng như Colab.
Với sự đóng góp liên tục của cộng đồng mã nguồn mở (như fork tối ưu hóa cho Apple Silicon), VibeVoice có triển vọng được triển khai nhanh chóng trong các lĩnh vực như sáng tạo nội dung, công cụ hỗ trợ tiếp cận, tương tác bằng giọng nói. Các nhà phát triển quan tâm có thể truy cập trang dự án chính thức của Microsoft để khám phá thêm.
Địa chỉ dự án: https://github.com/microsoft/VibeVoice







