微软开源前沿语音 AI 家族 VibeVoice:单次处理 90 分钟多说话人对话,GitHub 迅速获 27K Star
微软开源了名为VibeVoice的语音AI模型家族,涵盖语音识别(ASR)和文本转语音(TTS)能力,支持本地部署,采用MIT许可。该项目在GitHub已获约27K星,主要包含三个模型:
- VibeVoice-ASR-7B:可一次性处理长达60分钟音频,支持50多种语言,输出带说话人识别、时间戳和内容转录,适用于会议记录和播客转录。
- VibeVoice-TTS-1.5B:单次生成90分钟音频,支持最多4个说话人的自然对话,语音表现力强,适合有声书和多角色内容制作。
- VibeVoice-Realtime-0.5B:专为实时场景设计,延迟约300毫秒,支持流式输入和长语音生成,适用于语音助手和直播。
项目曾因安全风险短暂下架,后通过音频水印和免责声明等机制重新上线,目前可在GitHub和Hugging Face获取。
marsbit12小时前