Microsoft abre en código abierto la familia de IA de voz VibeVoice: procesa 90 minutos de diálogo con múltiples hablantes de una sola vez, alcanza rápidamente 27K estrellas en GitHub

marsbitPublicado a 2026-03-30Actualizado a 2026-03-30

Resumen

Microsoft ha lanzado como código abierto su familia de modelos de IA de voz VibeVoice, que incluye capacidades de reconocimiento de voz (ASR) y síntesis de voz (TTS). El proyecto, que ya cuenta con 27K estrellas en GitHub, destaca por procesar hasta 90 minutos de audio con múltiples hablantes, baja latencia y soporte para más de 50 idiomas. Los modelos principales son: - VibeVoice-ASR-7B: Transcribe audio de 60 minutos con identificación de hablantes y marcas de tiempo. - VibeVoice-TTS-1.5B: Genera 90 minutos de audio con hasta 4 voces distintas y expresividad natural. - VibeVoice-Realtime-0.5B: Ofrece síntesis en tiempo real con apenas 300 ms de delay. El framework, bajo licencia MIT, permite despliegue local sin costes de suscripción e incluye medidas de seguridad como marcas de agua. Ya se han desarrollado herramientas prácticas como un teclado de voz para macOS y Windows.

Microsoft ha lanzado recientemente como código abierto la familia de modelos de IA de voz de vanguardia llamada VibeVoice, que abarca capacidades como el reconocimiento automático de voz (ASR) y la conversión de texto a voz (TTS). El proyecto, con su potente procesamiento de audio largo, generación de diálogos naturales con múltiples hablantes y características de baja latencia en tiempo real, ha captado rápidamente la atención de la comunidad de desarrolladores, alcanzando actualmente alrededor de 27,000 estrellas en GitHub.

Como marco de investigación de código abierto, VibeVoice utiliza la licencia MIT, admite implementación local, no requiere costos de suscripción en la nube y tiene como objetivo impulsar la colaboración e innovación en el campo de la síntesis de voz. La familia de modelos incluye principalmente tres miembros centrales, cada uno con un enfoque diferente, que abordan conjuntamente los puntos débiles de la IA de voz tradicional en el procesamiento de secuencias largas, la consistencia del hablante y la fluidez natural.

VibeVoice-ASR-7B: La herramienta para transcripción estructurada de voz a texto de hasta 60 minutos

VibeVoice-ASR-7B es un modelo unificado de voz a texto capaz de procesar archivos de audio de hasta 60 minutos de duración de una sola vez, generando directamente resultados de transcripción estructurados. La salida no solo incluye "quién está hablando" (identificación del hablante) y "cuándo se habla" (marcas de tiempo precisas), sino también "qué se dijo" (contenido detallado), y admite la función de palabras clave personalizadas, lo que puede mejorar efectivamente la precisión en el reconocimiento de nombres propios o términos técnicos. El modelo es compatible con más de 50 idiomas y es adecuado para escenarios complejos como transcripciones de reuniones largas o podcasts.

Los desarrolladores de la comunidad ya han creado herramientas prácticas basadas en este modelo, como un método de entrada por voz llamado Vibing, compatible con las plataformas macOS y Windows. Los comentarios de los usuarios indican que su velocidad y precisión de reconocimiento son notables, pudiendo mejorar significativamente la eficiencia en la entrada de voz diaria.

VibeVoice-TTS-1.5B: Generación de voz expresiva de 90 minutos con múltiples hablantes

VibeVoice-TTS-1.5B es el modelo central enfocado en la conversión de texto a voz, capaz de producir audio continuo de hasta 90 minutos en una sola generación, admitiendo la simulación de diálogos naturales con hasta 4 hablantes diferentes. La voz generada por el modelo es expresiva, suena natural y fluida, y puede imitar pausas realistas, énfasis y cambios emocionales, lo que la hace ideal para la producción de podcasts, narrativas de audio largas, audiolibros o contenido con diálogos de múltiples personajes.

En comparación con muchos modelos TTS tradicionales que solo admiten 1-2 hablantes, VibeVoice-TTS ha logrado un avance significativo en la consistencia de formas largas y múltiples hablantes. Su base utiliza un tokenizador de voz continuo (tokenizador acústico y semántico) combinado con un diseño de baja frecuencia de frames (7.5 Hz), mejorando sustancialmente la eficiencia computacional en el procesamiento de secuencias largas.

VibeVoice-Realtime-0.5B: TTS en tiempo real con una latencia de aproximadamente 300 ms

VibeVoice-Realtime-0.5B se centra en escenarios en tiempo real, admite entrada de texto en flujo continuo (streaming), con una latencia de salida del primer audio de aproximadamente 300 milisegundos, y además puede generar voz de larga duración de unos 10 minutos. Este modelo es especialmente adecuado para aplicaciones interactivas que requieren respuestas inmediatas, como asistentes de voz en tiempo real o escenarios de doblaje en vivo.

Además, el proyecto incorpora soporte experimental para hablantes, incluyendo voz multilingüe y varias variantes de estilos de inglés, ofreciendo a los desarrolladores más espacio para personalización.

Comentario de AIbase: La apertura del código de VibeVoice por parte de Microsoft no solo reduce el umbral de uso de la IA de voz de alto rendimiento, sino que también proporciona una solución completa para la implementación local. El proyecto fue retirado brevemente debido a posibles riesgos de uso indebido, pero se relanzó posteriormente mediante mecanismos de seguridad como la incorporación de marcas de agua de audio y declaraciones audibles de exención de responsabilidad, reflejando los principios de desarrollo responsable de IA. Actualmente, los desarrolladores pueden obtener los pesos en el repositorio de GitHub y en Hugging Face, y probarlo rápidamente a través de plataformas como Colab.

Con las continuas contribuciones de la comunidad de código abierto (como la bifurcación optimizada para Apple Silicon), se espera que VibeVoice acelere su implementación en áreas como la creación de contenido, herramientas de accesibilidad e interacción por voz. Los desarrolladores interesados pueden visitar la página oficial del proyecto de Microsoft para explorar más.

Dirección del proyecto: https://github.com/microsoft/VibeVoice

Preguntas relacionadas

Q¿Qué es VibeVoice y por qué ha generado tanto interés en GitHub?

AVibeVoice es una familia de modelos de IA de voz de vanguardia de código abierto de Microsoft que incluye capacidades como reconocimiento automático de voz (ASR) y texto a voz (TTS). Ha generado interés debido a su potente procesamiento de audio largo, generación de conversaciones naturales con múltiples hablantes y características de baja latencia en tiempo real, obteniendo alrededor de 27K estrellas en GitHub.

Q¿Cuáles son los tres modelos principales de la familia VibeVoice y qué hace cada uno?

ALos tres modelos principales son: 1) VibeVoice-ASR-7B: Un modelo unificado de voz a texto que puede procesar archivos de audio de hasta 60 minutos. 2) VibeVoice-TTS-1.5B: Un modelo de texto a voz que puede generar hasta 90 minutos de audio continuo con hasta 4 hablantes diferentes. 3) VibeVoice-Realtime-0.5B: Un modelo de TTS en tiempo real con una latencia de unos 300 ms, adecuado para aplicaciones interactivas.

Q¿Qué ventaja ofrece VibeVoice-ASR-7B en la transcripción de audio largo?

AVibeVoice-ASR-7B puede procesar archivos de audio de hasta 60 minutos de una sola vez y generar una transcripción estructurada que incluye la identificación del hablante, marcas de tiempo precisas y el contenido detallado. También admite más de 50 idiomas y tiene una función de palabras clave personalizable para mejorar la precisión.

Q¿Cómo maneja VibeVoice-TTS-1.5B la generación de conversaciones con múltiples hablantes?

AVibeVoice-TTS-1.5B puede simular conversaciones naturales con hasta 4 hablantes diferentes en una sola generación, produciendo audio de hasta 90 minutos. Genera voz expresiva que suena natural, imitando pausas reales, énfasis y transiciones emocionales. Utiliza un tokenizador de voz continuo y un diseño de baja frecuencia de cuadros (7.5Hz) para una mayor eficiencia computacional.

Q¿Qué medidas de seguridad tomó el proyecto VibeVoice antes de ser relanzado?

AEl proyecto VibeVoice fue relanzado después de incorporar mecanismos de seguridad como la marca de agua de audio integrada y declaraciones de exención de responsabilidad audibles para abordar los riesgos de uso indebido, lo que refleja los principios de desarrollo responsable de IA.

Lecturas Relacionadas

Trading

Spot
Futuros

Artículos destacados

Cómo comprar ONE

¡Bienvenido a HTX.com! Hemos hecho que comprar Harmony (ONE) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Harmony (ONE) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Harmony (ONE)Después de comprar tu Harmony (ONE), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Harmony (ONE)Tradear fácilmente con Harmony (ONE) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

390 Vistas totalesPublicado en 2024.12.12Actualizado en 2025.03.21

Cómo comprar ONE

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de ONE (ONE).

活动图片