Microsoft ha lanzado recientemente como código abierto la familia de modelos de IA de voz de vanguardia llamada VibeVoice, que abarca capacidades como el reconocimiento automático de voz (ASR) y la conversión de texto a voz (TTS). El proyecto, con su potente procesamiento de audio largo, generación de diálogos naturales con múltiples hablantes y características de baja latencia en tiempo real, ha captado rápidamente la atención de la comunidad de desarrolladores, alcanzando actualmente alrededor de 27,000 estrellas en GitHub.
Como marco de investigación de código abierto, VibeVoice utiliza la licencia MIT, admite implementación local, no requiere costos de suscripción en la nube y tiene como objetivo impulsar la colaboración e innovación en el campo de la síntesis de voz. La familia de modelos incluye principalmente tres miembros centrales, cada uno con un enfoque diferente, que abordan conjuntamente los puntos débiles de la IA de voz tradicional en el procesamiento de secuencias largas, la consistencia del hablante y la fluidez natural.
VibeVoice-ASR-7B: La herramienta para transcripción estructurada de voz a texto de hasta 60 minutos
VibeVoice-ASR-7B es un modelo unificado de voz a texto capaz de procesar archivos de audio de hasta 60 minutos de duración de una sola vez, generando directamente resultados de transcripción estructurados. La salida no solo incluye "quién está hablando" (identificación del hablante) y "cuándo se habla" (marcas de tiempo precisas), sino también "qué se dijo" (contenido detallado), y admite la función de palabras clave personalizadas, lo que puede mejorar efectivamente la precisión en el reconocimiento de nombres propios o términos técnicos. El modelo es compatible con más de 50 idiomas y es adecuado para escenarios complejos como transcripciones de reuniones largas o podcasts.
Los desarrolladores de la comunidad ya han creado herramientas prácticas basadas en este modelo, como un método de entrada por voz llamado Vibing, compatible con las plataformas macOS y Windows. Los comentarios de los usuarios indican que su velocidad y precisión de reconocimiento son notables, pudiendo mejorar significativamente la eficiencia en la entrada de voz diaria.
VibeVoice-TTS-1.5B: Generación de voz expresiva de 90 minutos con múltiples hablantes
VibeVoice-TTS-1.5B es el modelo central enfocado en la conversión de texto a voz, capaz de producir audio continuo de hasta 90 minutos en una sola generación, admitiendo la simulación de diálogos naturales con hasta 4 hablantes diferentes. La voz generada por el modelo es expresiva, suena natural y fluida, y puede imitar pausas realistas, énfasis y cambios emocionales, lo que la hace ideal para la producción de podcasts, narrativas de audio largas, audiolibros o contenido con diálogos de múltiples personajes.
En comparación con muchos modelos TTS tradicionales que solo admiten 1-2 hablantes, VibeVoice-TTS ha logrado un avance significativo en la consistencia de formas largas y múltiples hablantes. Su base utiliza un tokenizador de voz continuo (tokenizador acústico y semántico) combinado con un diseño de baja frecuencia de frames (7.5 Hz), mejorando sustancialmente la eficiencia computacional en el procesamiento de secuencias largas.
VibeVoice-Realtime-0.5B: TTS en tiempo real con una latencia de aproximadamente 300 ms
VibeVoice-Realtime-0.5B se centra en escenarios en tiempo real, admite entrada de texto en flujo continuo (streaming), con una latencia de salida del primer audio de aproximadamente 300 milisegundos, y además puede generar voz de larga duración de unos 10 minutos. Este modelo es especialmente adecuado para aplicaciones interactivas que requieren respuestas inmediatas, como asistentes de voz en tiempo real o escenarios de doblaje en vivo.
Además, el proyecto incorpora soporte experimental para hablantes, incluyendo voz multilingüe y varias variantes de estilos de inglés, ofreciendo a los desarrolladores más espacio para personalización.
Comentario de AIbase: La apertura del código de VibeVoice por parte de Microsoft no solo reduce el umbral de uso de la IA de voz de alto rendimiento, sino que también proporciona una solución completa para la implementación local. El proyecto fue retirado brevemente debido a posibles riesgos de uso indebido, pero se relanzó posteriormente mediante mecanismos de seguridad como la incorporación de marcas de agua de audio y declaraciones audibles de exención de responsabilidad, reflejando los principios de desarrollo responsable de IA. Actualmente, los desarrolladores pueden obtener los pesos en el repositorio de GitHub y en Hugging Face, y probarlo rápidamente a través de plataformas como Colab.
Con las continuas contribuciones de la comunidad de código abierto (como la bifurcación optimizada para Apple Silicon), se espera que VibeVoice acelere su implementación en áreas como la creación de contenido, herramientas de accesibilidad e interacción por voz. Los desarrolladores interesados pueden visitar la página oficial del proyecto de Microsoft para explorar más.
Dirección del proyecto: https://github.com/microsoft/VibeVoice







