Microsoft Mã Nguồn Mở Gia Đình AI Giọng Nói Tiên Phong VibeVoice: Xử Lý 90 Phút Hội Thoại Đa Người Nói Một Lần, GitHub Nhanh Chóng Đạt 27K Star

marsbitXuất bản vào 2026-03-30Cập nhật gần nhất vào 2026-03-30

Tóm tắt

Microsoft vừa ra mắt bộ mô hình AI xử lý giọng nói mã nguồn mở VibeVoice, bao gồm nhận dạng giọng nói (ASR) và chuyển văn bản thành giọng nói (TTS). Dự án thu hút 27K sao trên GitHub nhờ khả năng xử lý đoạn hội thoại dài đa người nói, độ trễ thấp và hoạt động cục bộ không cần kết nối đám mây. VibeVoice-ASR-7B xử lý audio dài tới 60 phút, xuất kết quả có cấu trúc với nhận diện người nói, dấu thời gian và hỗ trợ 50+ ngôn ngữ. VibeVoice-TTS-1.5B tạo audio dài 90 phút với tối đa 4 giọng nói tự nhiên, phù hợp cho podcast và sách nói. VibeVoice-Realtime-0.5B có độ trễ chỉ 300ms, thích hợp cho trợ lý ảo. Dự án tích hợp cơ chế bảo mật như watermark và được phân phối trên GitHub và Hugging Face.

Microsoft gần đây đã mã nguồn mở một họ mô hình AI giọng nói tiên phong có tên VibeVoice, bao gồm nhiều khả năng như nhận dạng giọng nói tự động (ASR) và chuyển văn bản thành giọng nói (TTS). Dự án này đã nhanh chóng thu hút sự chú ý trong cộng đồng nhà phát triển nhờ khả năng xử lý âm thanh dài mạnh mẽ, tạo hội thoại tự nhiên đa người nói và đặc tính độ trễ thấp thời gian thực, hiện đã đạt khoảng 27K Star trên GitHub.

Là một khuôn khổ nghiên cứu mã nguồn mở, VibeVoice sử dụng giấy phép MIT, hỗ trợ triển khai tại chỗ, không cần chi phí đăng ký đám mây, nhằm thúc đẩy sự hợp tác và đổi mới trong lĩnh vực tổng hợp giọng nói. Họ mô hình chủ yếu bao gồm ba thành viên cốt lõi, mỗi thành viên có trọng tâm riêng, cùng giải quyết các điểm khó khăn của AI giọng nói truyền thống trong xử lý chuỗi dài, tính nhất quán của người nói và sự trôi chảy tự nhiên.

VibeVoice-ASR-7B: Công cụ chuyển giọng nói thành văn bản có cấu trúc dài tới 60 phút

VibeVoice-ASR-7B là một mô hình thống nhất chuyển đổi giọng nói thành văn bản, có khả năng xử lý một lần các tệp âm thanh dài tới 60 phút và xuất trực tiếp kết quả chép lại có cấu trúc. Đầu ra không chỉ bao gồm "ai đang nói" (nhận dạng người nói), "khi nào nói" (dấu thời gian chính xác) mà còn bao gồm "nói gì" (nội dung chi tiết), và hỗ trợ tính năng từ khóa tùy chỉnh, có thể nâng cao hiệu quả độ chính xác nhận dạng cho các thuật ngữ chuyên ngành hoặc kỹ thuật. Mô hình này hỗ trợ hơn 50 ngôn ngữ, phù hợp với các ngữ cảnh phức tạp như ghi chép cuộc họp dài, chép lại podcast.

Các nhà phát triển cộng đồng đã dựa trên mô hình này để phát triển các công cụ thực tiễn, chẳng hạn như một phương thức nhập liệu bằng giọng nói có tên Vibing, hỗ trợ nền tảng macOS và Windows. Phản hồi từ người dùng cho thấy, tốc độ nhận dạng và độ chính xác của nó khá tốt, có thể nâng cao đáng kể hiệu quả nhập liệu bằng giọng nói hàng ngày.

VibeVoice-TTS-1.5B: Tạo giọng nói biểu cảm đa người nói dài 90 phút

VibeVoice-TTS-1.5B là mô hình cốt lõi tập trung vào chuyển văn bản thành giọng nói, có thể tạo ra một lần âm thanh liên tục dài tới 90 phút, hỗ trợ tối đa 4 người nói khác nhau để mô phỏng hội thoại tự nhiên. Giọng nói do mô hình tạo ra giàu biểu cảm, nghe tự nhiên và trôi chảy, có thể mô phỏng các điểm dừng, nhấn mạnh và chuyển biến cảm xúc chân thực, rất phù hợp để sản xuất podcast, tường thuật âm thanh dài, sách nói hoặc nội dung hội thoại đa nhân vật.

So với nhiều mô hình TTS truyền thống chỉ hỗ trợ 1-2 người nói, VibeVoice-TTS đã đạt được bước đột phá đáng kể về tính nhất quán của nhiều người nói trong các đoạn dài. Cơ chế cơ bản của nó sử dụng bộ phân từ giọng nói liên tục (bộ phân từ âm học và ngữ nghĩa) kết hợp với thiết kế tốc độ khung hình thấp (7.5Hz), giúp nâng cao đáng kể hiệu quả tính toán trong xử lý chuỗi dài.

VibeVoice-Realtime-0.5B: TTS thời gian thực với độ trễ khoảng 300 mili giây

VibeVoice-Realtime-0.5B tập trung vào các tình huống thời gian thực, hỗ trợ nhập văn bản dạng luồng, độ trễ đầu ra âm thanh đầu tiên khoảng 300 mili giây, đồng thời vẫn có thể tạo ra giọng nói dài khoảng 10 phút. Mô hình này đặc biệt phù hợp cho các ứng dụng tương tác cần phản hồi tức thì, như trợ lý giọng nói thời gian thực hoặc các cảnh lồng tiếng trực tiếp.

Ngoài ra, dự án còn giới thiệu hỗ trợ người nói thử nghiệm, bao gồm giọng nói đa ngôn ngữ và nhiều biến thể phong cách tiếng Anh, cung cấp thêm không gian tùy chỉnh cho các nhà phát triển.

Nhận xét từ AIbase: Việc mã nguồn mở VibeVoice của Microsoft không chỉ làm giảm ngưỡng sử dụng AI giọng nói hiệu suất cao mà còn cung cấp giải pháp hoàn chỉnh cho triển khai tại chỗ. Dự án đã từng bị gỡ xuống trong thời gian ngắn do nguy cơ sử dụng sai tiềm ẩn, sau đó được đưa lên lại thông qua các cơ chế bảo mật như nhúng watermark âm thanh, tuyên bố từ chối trách nhiệm có thể nghe được, thể hiện nguyên tắc phát triển AI có trách nhiệm. Hiện tại, các nhà phát triển có thể lấy trọng số mô hình trên kho lưu trữ GitHub và Hugging Face, đồng thời dùng thử nhanh thông qua các nền tảng như Colab.

Với sự đóng góp liên tục của cộng đồng mã nguồn mở (như fork tối ưu hóa cho Apple Silicon), VibeVoice có triển vọng được triển khai nhanh chóng trong các lĩnh vực như sáng tạo nội dung, công cụ hỗ trợ tiếp cận, tương tác bằng giọng nói. Các nhà phát triển quan tâm có thể truy cập trang dự án chính thức của Microsoft để khám phá thêm.

Địa chỉ dự án: https://github.com/microsoft/VibeVoice

Câu hỏi Liên quan

QMicrosoft vừa công bố mã nguồn mở họ mô hình AI giọng nói nào?

AMicrosoft vừa công bố mã nguồn mở họ mô hình AI giọng nói tên là VibeVoice, bao gồm các khả năng như nhận dạng giọng nói tự động (ASR) và chuyển văn bản thành giọng nói (TTS).

QMô hình VibeVoice-ASR-7B có khả năng xử lý tối đa bao nhiêu phút âm thanh?

AMô hình VibeVoice-ASR-7B có khả năng xử lý một lần tối đa 60 phút âm thanh và xuất kết quả chuyển đổi có cấu trúc.

QMô hình TTS nào trong họ VibeVoice có thể xử lý đoạn hội thoại dài 90 phút với nhiều người nói?

AĐó là mô hình VibeVoice-TTS-1.5B, có thể tạo ra đoạn âm thanh liên tục dài tới 90 phút và hỗ trợ tối đa 4 người nói khác nhau trong một cuộc hội thoại tự nhiên.

QDự án VibeVoice đã nhận được bao nhiêu sao (Star) trên GitHub?

ADự án VibeVoice đã nhanh chóng nhận được khoảng 27,000 sao trên GitHub.

QMô hình VibeVoice nào được thiết kế cho các ứng dụng thời gian thực với độ trễ thấp?

AĐó là mô hình VibeVoice-Realtime-0.5B, được thiết kế cho các tình huống thời gian thực, hỗ trợ đầu vào văn bản dạng luồng với độ trễ xuất âm thanh đầu tiên khoảng 300 mili giây.

Nội dung Liên quan

Bitcoin Đã Bước Vào Thị Trường Tăng Giá Và Sẽ Tiếp Tục Tăng; Chuyên Gia Phân Tích Chia Sẻ Lý Do

Bitcoin được cho là đã bước vào một thị trường giá lên mới, với mức giá phục hồi từ đáy 60.000 USD lên trên 78.000 USD. Các nhà phân tích từ Bitwise và Grayscale nhận định sức mạnh này cho thấy Bitcoin đã chạm đáy và bắt đầu chu kỳ tăng giá, nhờ cấu trúc thị trường được cải thiện, căng thẳng địa chính trị giảm và tâm lý nhà đầu tư chuyển sang trạng thái "tham lam". Nhu cầu mua tài sản rủi ro tăng và việc gia hạn ngừng bắn của Iran góp phần hỗ trợ đà tăng. Giá thực hiện quanh 74.000 USD cũng cho thấy nhiều nhà đầu tư gần đây đã hòa vốn.

bitcoinist37 phút trước

Bitcoin Đã Bước Vào Thị Trường Tăng Giá Và Sẽ Tiếp Tục Tăng; Chuyên Gia Phân Tích Chia Sẻ Lý Do

bitcoinist37 phút trước

Nhà Đầu Tư Bitcoin Ngắn Hạn Quay Lại Lợi Nhuận Khi Giá Hồi Phục Đà Tăng

Với đà tăng giá Bitcoin đang phục hồi, các nhà phân tích dự báo giá có thể chạm mốc 80.000 USD trong thời gian tới. Nhờ động thái tích cực này, các nhà đầu tư nắm giữ Bitcoin ngắn hạn (STH) đã quay trở lại trạng thái có lợi nhuận. Chỉ số SOPR (Tỷ lệ lợi nhuận đầu ra đã chi tiêu) của STH hiện ở mức 1.01, cho thấy tâm lý thị trường đang chuyển biến tích cực. Việc duy trì chỉ số trên 1 có thể tạo đà tăng giá tiếp tục, trong đó sự tích lũy mạnh mẽ của các cá voi Bitcoin – với 270.000 BTC được mua vào trong 30 ngày qua – cũng củng cố triển vọng tăng. Dự trữ trên các sàn giao dịch ở mức thấp nhất trong 7 năm, phản ánh xu hướng nắm giữ dài hạn. Tuy nhiên, nếu SOPR giảm xuống dưới 1, áp lực bán có thể quay trở lại.

bitcoinist1 giờ trước

Nhà Đầu Tư Bitcoin Ngắn Hạn Quay Lại Lợi Nhuận Khi Giá Hồi Phục Đà Tăng

bitcoinist1 giờ trước

Visca Crypto! Sàn Giao Dịch Hàng Đầu Ký Thỏa Thuận 5 Năm Với Đại Gia Tây Ban Nha FC Barcelona

Sàn giao dịch tiền điện tử châu Âu WhiteBIT đã ký kết thỏa thuận hợp tác kéo dài 5 năm với câu lạc bộ bóng đá khổng lồ Tây Ban Nha FC Barcelona, gia hạn quan hệ đối tác chiến lược đến năm 2030. Theo thông báo, liên minh này nhằm mục đích đưa tài sản kỹ thuật số vượt ra ngoài ngành công nghiệp và hỗ trợ đổi mới toàn cầu trong thể thao. WhiteBIT sẽ tiếp tục là Đối tác Toàn cầu và Đối tác Sàn Giao dịch Tiền điện tử Chính thức của câu lạc bộ. Thỏa thuận mở rộng phạm vi hợp tác sang cả đội nam, đội nữ và đội bóng rổ của FC Barcelona, cũng như hợp tác với Barça Innovation Hub (BIHUB). Các sáng kiến hợp tác bao gồm thu hút người hâm mộ, giáo dục kỹ thuật số và trải nghiệm tương tác, với mục tiêu thu hẹp khoảng cách giữa công nghệ và khán giả toàn cầu. Một điểm nổi bật là việc ra mắt thẻ ghi nợ WhiteBIT Nova được thiết kế theo chủ đề FC Barcelona, mang lại lợi ích và đặc quyền cho người hâm mộ. Để kỷ niệm, WhiteBIT cũng tổ chức chương trình tặng 52 vé trận El Clásico vào ngày 10 tháng 5 năm 2026.

bitcoinist4 giờ trước

Visca Crypto! Sàn Giao Dịch Hàng Đầu Ký Thỏa Thuận 5 Năm Với Đại Gia Tây Ban Nha FC Barcelona

bitcoinist4 giờ trước

Qubic Khởi Động Giai Đoạn 3 Khai Thác Dogecoin: Điều Này Có Ý Nghĩa Gì Với DOGE

QuBic đã chính thức chuyển sang kiến trúc khai thác Dogecoin (DOGE), đánh dấu sự khởi động của "Giai đoạn 3" và loại bỏ hoàn toàn Monero (XMR). Hệ thống mới vận hành song song: ASIC dành 100% cho khai thác DOGE, trong khi CPU/GPU tập trung đào tạo AI - Aigarth. Mô hình này tạo ra cơ chế vốn tuần hoàn: DOGE khai thác được bán để mua lại token QU và phân phối cho máy tính, tạo áp lực mua liên tục. Theo dữ liệu ngày đầu, với ASIC DG1+ (13 GH/s), khai thác qua QuBic mang lại lợi nhuận 7.94 USD/ngày, cao hơn 32% so với các pool truyền thống (6.02 USD). Dù chỉ chiếm 0.086% hashrate toàn mạng, đây là bước chuyển thực tế, mở ra tiềm năng mở rộng ảnh hưởng đến hệ sinh thái khai thác DOGE. Trước đó, QuBic từng đạt 45% hashrate Monero và thực hiện thành công mô hình Proof of Work hữu ích.

bitcoinist7 giờ trước

Qubic Khởi Động Giai Đoạn 3 Khai Thác Dogecoin: Điều Này Có Ý Nghĩa Gì Với DOGE

bitcoinist7 giờ trước

Đợt Sóng Kháng Cự E Cuối Cùng Của XRP Cần Theo Dõi Trước Khi Bứt Phá

Phân tích kỹ thuật từ CasiTrades chỉ ra rằng XRP đang tiến gần đến vùng kháng cự then chốt cuối cùng trong mô hình sóng Elliott, được đánh nhãn Sóng E, trong khoảng giá $1.50–$1.53. Vùng này được củng cố bởi sự giao thoa của nhiều mức Fibonacci, bao gồm mức mở rộng 1.618 và một đường kháng cự giảm dần, tạo thành một rào cản kỹ thuật mạnh. Điều kiện tiên quyết cho kịch bản này là XRP phải duy trì trên mức hỗ trợ quan trọng ở $1.39. Chỉ báo RSI cho thấy động lực vẫn còn dư địa để tăng giá dần về vùng kháng cự. Sự chuyển động đồng bộ với Bitcoin, vốn cũng đang tiếp cận vùng kháng cự quanh $79,000, được xem là yếu tố thời điểm quan trọng. Nếu bị kháng cự, XRP có thể điều chỉnh về các vùng hỗ trợ $1.09 hoặc thậm chí $0.87. Tóm lại, vùng $1.50–$1.53 là mức kháng cự cuối cùng cần vượt qua để xác nhận một đợt tăng giá mạnh, đánh dấu sự kết thúc của giai đoạn tích lũy hiện tại.

bitcoinist8 giờ trước

Đợt Sóng Kháng Cự E Cuối Cùng Của XRP Cần Theo Dõi Trước Khi Bứt Phá

bitcoinist8 giờ trước

Giao dịch

Giao ngay

Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua ONE

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Harmony (ONE) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Harmony (ONE) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Harmony (ONE) của BạnSau khi mua Harmony (ONE), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Harmony (ONE)Giao dịch Harmony (ONE) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 406Xuất bản vào 2024.12.12Cập nhật vào 2025.03.21

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến của người dùng về giá của ONE (ONE) được trình bày dưới đây.

Danh mục Phổ biến

Cập nhật Dự án572 tin tức