Microsoft baru-baru ini membuka sumber model AI suara terdepan bernama VibeVoice, yang mencakup kemampuan seperti pengenalan suara otomatis (ASR) dan konversi teks ke suara (TTS). Proyek ini dengan cepat menarik perhatian komunitas pengembang berkat kemampuannya yang kuat dalam pemrosesan audio panjang, generasi percakapan alami multi-pembicara, serta karakteristik latensi rendah real-time, dan telah mengumpulkan sekitar 27K Star di GitHub.
Sebagai kerangka penelitian sumber terbuka, VibeVoice menggunakan lisensi MIT, mendukung penyebaran lokal, tidak memerlukan biaya langganan cloud, dan bertujuan untuk mendorong kolaborasi dan inovasi dalam bidang sintesis suara. Keluarga model terutama terdiri dari tiga anggota inti, masing-masing memiliki fokus berbeda, bersama-sama mengatasi kelemahan tradisional AI suara dalam pemrosesan urutan panjang, konsistensi pembicara, dan kelancaran alami.
VibeVoice-ASR-7B: Alat Transkripsi Suara ke Teks Terstruktur hingga 60 Menit
VibeVoice-ASR-7B adalah model terpadu untuk mengubah suara menjadi teks, mampu memproses file audio hingga 60 menit sekaligus dan langsung menghasilkan hasil transkripsi terstruktur. Keluaran tidak hanya mencakup "siapa yang berbicara" (pengenalan pembicara), "kapan berbicara" (stempel waktu yang tepat), tetapi juga "apa yang dikatakan" (konten detail), dan mendukung fungsi kata kunci khusus yang dapat secara efektif meningkatkan akurasi pengenalan untuk istilah proper atau teknis. Model ini mendukung lebih dari 50 bahasa, cocok untuk skenario kompleks seperti pencatatan rapat panjang atau transkrip podcast.
Pengembang komunitas telah mengembangkan alat praktis berdasarkan model ini, misalnya metode input suara bernama Vibing yang mendukung platform macOS dan Windows. Umpan balik pengguna menunjukkan bahwa kecepatan dan akurasi pengenalannya cukup baik, dapat secara signifikan meningkatkan efisiensi input suara sehari-hari.
VibeVoice-TTS-1.5B: Generasi Suara Ekspresif Multi-Pembicara 90 Menit
VibeVoice-TTS-1.5B adalah model inti yang berfokus pada konversi teks ke suara, mampu menghasilkan audio kontinu hingga 90 menit dalam satu kali generasi, mendukung hingga 4 pembicara berbeda untuk simulasi percakapan alami. Suara yang dihasilkan model sangat ekspresif, terdengar alami dan lancar, dapat meniru jeda, penekanan, dan perubahan emosi yang nyata, sangat cocok untuk produksi podcast, narasi audio panjang, buku audio, atau konten percakapan multi-karakter.
Dibandingkan dengan banyak model TTS tradisional yang hanya mendukung 1-2 pembicara, VibeVoice-TTS telah mencapai terobosan signifikan dalam konsistensi bentuk panjang dan multi-pembicara. Di balik layar, model ini menggunakan tokenizer suara kontinu (tokenizer akustik dan semantik) yang dikombinasikan dengan desain frame rate rendah (7.5Hz), secara signifikan meningkatkan efisiensi komputasi untuk pemrosesan urutan panjang.
VibeVoice-Realtime-0.5B: TTS Real-Time dengan Latensi Sekitar 300 Milidetik
VibeVoice-Realtime-0.5B berfokus pada skenario real-time, mendukung input teks streaming, dengan latensi keluaran audio pertama sekitar 300 milidetik, sekaligus masih dapat menghasilkan suara panjang sekitar 10 menit. Model ini sangat cocok untuk aplikasi interaktif yang memerlukan respons instan, seperti asisten suara real-time atau skenario sulih suara langsung.
Selain itu, proyek ini juga memperkenalkan dukungan pembicara eksperimental, termasuk suara multi-bahasa dan berbagai varian gaya bahasa Inggris, memberikan lebih banyak ruang kustomisasi bagi pengembang.
Komentar AIbase: Pembukaan sumber VibeVoice oleh Microsoft tidak hanya menurunkan ambang batas penggunaan AI suara berkinerja tinggi, tetapi juga menyediakan solusi lengkap untuk penyebaran lokal. Proyek ini pernah diturunkan sebentar karena risiko penyalahgunaan potensial, kemudian diluncurkan kembali dengan mekanisme keamanan seperti penyematan watermark audio dan pernyataan免责 (penafian pendengaran), mencerminkan prinsip pengembangan AI yang bertanggung jawab. Saat ini, pengembang dapat memperoleh bobot model di repositori GitHub dan Hugging Face, serta mencobanya dengan cepat melalui platform seperti Colab.
Dengan kontribusi berkelanjutan dari komunitas sumber terbuka (seperti fork optimasi untuk Apple Silicon), VibeVoice diharapkan dapat mempercepat penerapannya di bidang-bidang seperti pembuatan konten, alat aksesibilitas, dan interaksi suara. Pengembang yang tertarik dapat mengunjungi halaman proyek resmi Microsoft untuk mengeksplorasi lebih lanjut.
Alamat proyek: https://github.com/microsoft/VibeVoice







