Microsoft Membuka Sumber AI Suara Terdepan VibeVoice: Proses 90 Menit Percakapan Multi-Pembicara Sekaligus, GitHub Raih 27K Star dengan Cepat

marsbitDipublikasikan tanggal 2026-03-30Terakhir diperbarui pada 2026-03-30

Abstrak

Microsoft baru-baru ini merilis model AI suara canggih VibeVoice sebagai proyek open-source, mencakup kemampuan ASR (Automatic Speech Recognition) dan TTS (Text-to-Speech). Model ini mampu memproses audio panjang (hingga 90 menit) dan percakapan multi-pembicara dengan latensi rendah. Proyek ini cepat populer di GitHub, mencapai sekitar 27K Star. VibeVoice-ASR-7B dapat memproses file audio hingga 60 menit, menghasilkan transkrip terstruktur dengan identifikasi pembicara, stempel waktu, dan dukungan untuk lebih dari 50 bahasa. VibeVoice-TTS-1.5B berfokus pada generasi suara ekspresif untuk percakapan alami hingga 4 pembicara dalam satu sesi. Sementara VibeVoice-Realtime-0.5B dirancang untuk skenario real-time dengan latency sekitar 300ms. Proyek ini menggunakan lisensi MIT, mendukung deploy lokal tanpa biaya langganan cloud, dan telah menerapkan mekanisme keamanan seperti watermark audio. Tersedia di GitHub dan Hugging Face untuk eksplorasi lebih lanjut.

Microsoft baru-baru ini membuka sumber model AI suara terdepan bernama VibeVoice, yang mencakup kemampuan seperti pengenalan suara otomatis (ASR) dan konversi teks ke suara (TTS). Proyek ini dengan cepat menarik perhatian komunitas pengembang berkat kemampuannya yang kuat dalam pemrosesan audio panjang, generasi percakapan alami multi-pembicara, serta karakteristik latensi rendah real-time, dan telah mengumpulkan sekitar 27K Star di GitHub.

Sebagai kerangka penelitian sumber terbuka, VibeVoice menggunakan lisensi MIT, mendukung penyebaran lokal, tidak memerlukan biaya langganan cloud, dan bertujuan untuk mendorong kolaborasi dan inovasi dalam bidang sintesis suara. Keluarga model terutama terdiri dari tiga anggota inti, masing-masing memiliki fokus berbeda, bersama-sama mengatasi kelemahan tradisional AI suara dalam pemrosesan urutan panjang, konsistensi pembicara, dan kelancaran alami.

VibeVoice-ASR-7B: Alat Transkripsi Suara ke Teks Terstruktur hingga 60 Menit

VibeVoice-ASR-7B adalah model terpadu untuk mengubah suara menjadi teks, mampu memproses file audio hingga 60 menit sekaligus dan langsung menghasilkan hasil transkripsi terstruktur. Keluaran tidak hanya mencakup "siapa yang berbicara" (pengenalan pembicara), "kapan berbicara" (stempel waktu yang tepat), tetapi juga "apa yang dikatakan" (konten detail), dan mendukung fungsi kata kunci khusus yang dapat secara efektif meningkatkan akurasi pengenalan untuk istilah proper atau teknis. Model ini mendukung lebih dari 50 bahasa, cocok untuk skenario kompleks seperti pencatatan rapat panjang atau transkrip podcast.

Pengembang komunitas telah mengembangkan alat praktis berdasarkan model ini, misalnya metode input suara bernama Vibing yang mendukung platform macOS dan Windows. Umpan balik pengguna menunjukkan bahwa kecepatan dan akurasi pengenalannya cukup baik, dapat secara signifikan meningkatkan efisiensi input suara sehari-hari.

VibeVoice-TTS-1.5B: Generasi Suara Ekspresif Multi-Pembicara 90 Menit

VibeVoice-TTS-1.5B adalah model inti yang berfokus pada konversi teks ke suara, mampu menghasilkan audio kontinu hingga 90 menit dalam satu kali generasi, mendukung hingga 4 pembicara berbeda untuk simulasi percakapan alami. Suara yang dihasilkan model sangat ekspresif, terdengar alami dan lancar, dapat meniru jeda, penekanan, dan perubahan emosi yang nyata, sangat cocok untuk produksi podcast, narasi audio panjang, buku audio, atau konten percakapan multi-karakter.

Dibandingkan dengan banyak model TTS tradisional yang hanya mendukung 1-2 pembicara, VibeVoice-TTS telah mencapai terobosan signifikan dalam konsistensi bentuk panjang dan multi-pembicara. Di balik layar, model ini menggunakan tokenizer suara kontinu (tokenizer akustik dan semantik) yang dikombinasikan dengan desain frame rate rendah (7.5Hz), secara signifikan meningkatkan efisiensi komputasi untuk pemrosesan urutan panjang.

VibeVoice-Realtime-0.5B: TTS Real-Time dengan Latensi Sekitar 300 Milidetik

VibeVoice-Realtime-0.5B berfokus pada skenario real-time, mendukung input teks streaming, dengan latensi keluaran audio pertama sekitar 300 milidetik, sekaligus masih dapat menghasilkan suara panjang sekitar 10 menit. Model ini sangat cocok untuk aplikasi interaktif yang memerlukan respons instan, seperti asisten suara real-time atau skenario sulih suara langsung.

Selain itu, proyek ini juga memperkenalkan dukungan pembicara eksperimental, termasuk suara multi-bahasa dan berbagai varian gaya bahasa Inggris, memberikan lebih banyak ruang kustomisasi bagi pengembang.

Komentar AIbase: Pembukaan sumber VibeVoice oleh Microsoft tidak hanya menurunkan ambang batas penggunaan AI suara berkinerja tinggi, tetapi juga menyediakan solusi lengkap untuk penyebaran lokal. Proyek ini pernah diturunkan sebentar karena risiko penyalahgunaan potensial, kemudian diluncurkan kembali dengan mekanisme keamanan seperti penyematan watermark audio dan pernyataan免责 (penafian pendengaran), mencerminkan prinsip pengembangan AI yang bertanggung jawab. Saat ini, pengembang dapat memperoleh bobot model di repositori GitHub dan Hugging Face, serta mencobanya dengan cepat melalui platform seperti Colab.

Dengan kontribusi berkelanjutan dari komunitas sumber terbuka (seperti fork optimasi untuk Apple Silicon), VibeVoice diharapkan dapat mempercepat penerapannya di bidang-bidang seperti pembuatan konten, alat aksesibilitas, dan interaksi suara. Pengembang yang tertarik dapat mengunjungi halaman proyek resmi Microsoft untuk mengeksplorasi lebih lanjut.

Alamat proyek: https://github.com/microsoft/VibeVoice

Pertanyaan Terkait

QApa itu VibeVoice dan mengapa proyek ini mendapatkan perhatian besar di GitHub?

AVibeVoice adalah keluarga model AI suara canggih yang dikembangkan oleh Microsoft, mencakup kemampuan seperti pengenalan suara otomatis (ASR) dan teks-ke-suara (TTS). Proyek ini mendapat perhatian karena kemampuannya memproses audio panjang, menghasilkan percakapan alami multi-pembicara, serta karakteristik latensi rendah secara real-time, dan telah meraih sekitar 27K bintang di GitHub.

QApa keunggulan utama dari model VibeVoice-ASR-7B?

AVibeVoice-ASR-7B adalah model pengubah suara-ke-teks terpadu yang dapat memproses file audio hingga 60 menit sekaligus dan mengeluarkan hasil transkripsi terstruktur. Ini mencakup pengenalan pembicara, stempel waktu yang tepat, konten detail, mendukung lebih dari 50 bahasa, dan memiliki fitur kata kustom untuk meningkatkan akurasi pengenalan istilah khusus.

QBagaimana VibeVoice-TTS-1.5B mengatasi tantangan dalam generasi suara?

AVibeVoice-TTS-1.5B berfokus pada generasi teks-ke-suara yang dapat menghasilkan audio terus-menerus hingga 90 menit dalam satu kali generasi, mendukung hingga 4 pembicara berbeda untuk simulasi percakapan alami. Suara yang dihasilkan ekspresif dan alami, meniru jeda, penekanan, dan perubahan emosi yang nyata, dengan efisiensi komputasi tinggi berkat penggunaan continuous speech tokenizer dan desain frame rate rendah (7.5Hz).

QApa kegunaan khusus dari VibeVoice-Realtime-0.5B?

AVibeVoice-Realtime-0.5B dirancang untuk skenario real-time, mendukung input teks streaming dengan latency output audio pertama sekitar 300 milidetik, dan masih dapat menghasilkan suara panjang hingga 10 menit. Model ini sangat cocok untuk aplikasi interaktif yang membutuhkan respons instan, seperti asisten suara real-time atau skenario sulih suara langsung.

QBagaimana Microsoft memastikan Pengembangan AI yang Bertanggung Jawab dalam proyek VibeVoice?

AMicrosoft telah menerapkan mekanisme keamanan seperti penyematan watermark audio dan pernyataan tanggung jawab yang dapat didengar untuk memastikan penggunaan yang bertanggung jawab. Proyek ini sempat diturunkan sementara karena risiko penyalahgunaan potensial, tetapi kemudian diunggah kembali dengan penambahan fitur-fitur keamanan ini, mencerminkan prinsip pengembangan AI yang bertanggung jawab.

Bacaan Terkait

Trading

Spot
Futures

Artikel Populer

Cara Membeli ONE

Selamat datang di HTX.com! Kami telah membuat pembelian Harmony (ONE) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli Harmony (ONE) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan Harmony (ONE) AndaSetelah melakukan pembelian, simpan Harmony (ONE) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading Harmony (ONE)Lakukan trading Harmony (ONE) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

477 Total TayanganDipublikasikan pada 2024.12.12Diperbarui pada 2025.03.21

Cara Membeli ONE

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga ONE (ONE) disajikan di bawah ini.

活动图片