Microsoft Membuka Sumber AI Suara Terdepan VibeVoice: Proses 90 Menit Percakapan Multi-Pembicara Sekaligus, GitHub Raih 27K Star dengan Cepat
Microsoft baru-baru ini merilis model AI suara canggih VibeVoice sebagai proyek open-source, mencakup kemampuan ASR (Automatic Speech Recognition) dan TTS (Text-to-Speech). Model ini mampu memproses audio panjang (hingga 90 menit) dan percakapan multi-pembicara dengan latensi rendah. Proyek ini cepat populer di GitHub, mencapai sekitar 27K Star.
VibeVoice-ASR-7B dapat memproses file audio hingga 60 menit, menghasilkan transkrip terstruktur dengan identifikasi pembicara, stempel waktu, dan dukungan untuk lebih dari 50 bahasa. VibeVoice-TTS-1.5B berfokus pada generasi suara ekspresif untuk percakapan alami hingga 4 pembicara dalam satu sesi. Sementara VibeVoice-Realtime-0.5B dirancang untuk skenario real-time dengan latency sekitar 300ms.
Proyek ini menggunakan lisensi MIT, mendukung deploy lokal tanpa biaya langganan cloud, dan telah menerapkan mekanisme keamanan seperti watermark audio. Tersedia di GitHub dan Hugging Face untuk eksplorasi lebih lanjut.
marsbit03/30 07:18