Microsoft недавно открыл исходный код передового семейства голосовых ИИ-моделей под названием VibeVoice, которое охватывает такие возможности, как автоматическое распознавание речи (ASR) и преобразование текста в речь (TTS). Проект быстро привлек внимание сообщества разработчиков благодаря своей мощной обработке длинных аудио, генерации естественных диалогов с несколькими говорящими, а также характеристикам низкой задержки в реальном времени. На данный момент он набрал около 27 тысяч звезд на GitHub.
Будучи фреймворком для открытых исследований, VibeVoice использует лицензию MIT, поддерживает локальное развертывание, не требует облачных подписок и направлен на содействие сотрудничеству и инновациям в области синтеза речи. Семейство моделей в основном включает три ключевых компонента, каждый со своей специализацией, которые решают традиционные проблемы голосового ИИ в обработке длинных последовательностей, согласованности говорящего и естественной плавности.
VibeVoice-ASR-7B: Мощный инструмент для структурированного преобразования речи в текст длительностью до 60 минут
VibeVoice-ASR-7B — это унифицированная модель преобразования речи в текст, способная обрабатывать аудиофайлы длиной до 60 минут за один раз и напрямую выводить структурированные результаты транскрипции. Вывод включает не только «кто говорит» (идентификация говорящего) и «когда говорит» (точные временные метки), но и «что сказано» (подробное содержание), а также поддерживает функцию пользовательских горячих слов, что может эффективно повысить точность распознавания специальных имен или технических терминов. Модель поддерживает более 50 языков и подходит для сложных сценариев, таких как запись длинных совещаний или транскрипция подкастов.
Разработчики сообщества уже создали на основе этой модели практические инструменты, например, метод ввода с помощью голоса под названием Vibing, который поддерживает платформы macOS и Windows. Отзывы пользователей показывают, что его скорость и точность распознавания довольно хороши, что может значительно повысить эффективность повседневного голосового ввода.
VibeVoice-TTS-1.5B: Выразительное генерация речи для много говорящих длительностью 90 минут
VibeVoice-TTS-1.5B — это основная модель, ориентированная на преобразование текста в речь, способная за одно поколение создавать непрерывное аудио длительностью до 90 минут, поддерживая моделирование естественного диалога для до 4 различных говорящих. Генерируемая моделью речь выразительна, звучит естественно и плавно, может имитировать реальные паузы, акценты и эмоциональные переходы, что идеально подходит для создания подкастов, длинных аудио-нарративов, аудиокниг или контента с участием нескольких персонажей.
По сравнению со многими традиционными моделями TTS, которые поддерживают только 1-2 говорящих, VibeVoice-TTS достиг значительного прорыва в согласованности для длинных форм и нескольких говорящих. Его основа использует непрерывное речевое токенизирование (акустическое и семантическое) в сочетании с низкой частотой кадров (7,5 Гц), что значительно повышает вычислительную эффективность обработки длинных последовательностей.
VibeVoice-Realtime-0.5B: TTS в реальном времени с задержкой около 300 мс
VibeVoice-Realtime-0.5B ориентирован на сценарии реального времени, поддерживает потоковый ввод текста, задержка вывода первого звука составляет около 300 миллисекунд, при этом модель также может генерировать длинную речь продолжительностью около 10 минут. Эта модель особенно подходит для интерактивных приложений, требующих немедленного ответа, таких как голосовые помощники в реальном времени или сценарии озвучки в прямом эфире.
Кроме того, в проект добавлена экспериментальная поддержка говорящих, включая многоязычную речь и различные стили английского языка, что предоставляет разработчикам больше возможностей для настройки.
Комментарий AIbase: Открытый исходный код Microsoft VibeVoice не только снижает порог использования высокопроизводительного голосового ИИ, но и предоставляет комплексное решение для локального развертывания. Проект был временно удален из-за потенциальных рисков неправомерного использования, но позже был возвращен с внедрением механизмов безопасности, таких как аудио-водяные знаки и слышимые предупреждения, что демонстрирует принципы ответственной разработки ИИ. В настоящее время разработчики могут получить веса моделей в репозитории GitHub и на Hugging Face, а также быстро протестировать их на таких платформах, как Colab.
Благодаря постоянному вкладу сообщества открытого исходного кода (например, оптимизированные форки для Apple Silicon), VibeVoice有望有望 ускорить внедрение в таких областях, как создание контента, инструменты доступности и голосовое взаимодействие. Заинтересованные разработчики могут посетить официальную страницу проекта Microsoft для дальнейшего изучения.
Адрес проекта: https://github.com/microsoft/VibeVoice







