Microsoft libera VibeVoice: El fin de las transcripciones caóticas

Si alguna vez te tocó transcribir una entrevista, un podcast o una reunión de una hora, sabes que el verdadero dolor de cabeza no es pasar el audio a texto, sino saber quién dijo qué.

Hasta ahora, herramientas populares hacían un trabajo decente convirtiendo la voz, pero se perdían a la hora de identificar a los hablantes. Para solucionar esto, Microsoft acaba de liberar VibeVoice-ASR, un modelo de inteligencia artificial de código abierto que hace todo el trabajo pesado en una sola pasada.

¿Qué lo hace diferente?

Básicamente, VibeVoice no solo escucha, sino que entiende el contexto de la sala. Mientras otras herramientas requieren que conectes varios sistemas para separar las voces, este modelo de Microsoft te entrega un paquete estructurado y listo para usarse:

Quién: Identifica a cada persona (lo que en el mundo técnico se conoce como diarización).
Cuándo: Te da las marcas de tiempo exactas.
Qué: La transcripción pura y dura.

El sistema es capaz de procesar audios largos, de hasta 60 minutos del tirón, sin perder el hilo de la conversación. Esto lo vuelve una herramienta espectacular para creadores de contenido, periodistas o cualquier empresa que necesite archivar sus reuniones de forma accesible.

Gratis, pero con un "pequeño" detalle de hardware

La gran ventaja es que Microsoft lanzó este modelo bajo licencia MIT. Esto significa que está gratis en plataformas como GitHub y Hugging Face para que lo descargues, lo modifiques y lo integres en tus propias aplicaciones sin pagar costosas suscripciones mensuales.

Sin embargo, hay un detalle importante a tener en cuenta. Si planeas correrlo localmente en tu propia computadora, vas a necesitar una máquina bastante potente. Las pruebas más recientes de la comunidad de desarrolladores muestran que, durante la fase inicial de carga, el modelo puede devorar hasta 61.5 GB de memoria RAM. Definitivamente no es algo que vayas a poder ejecutar en la laptop del día a día sin que se congele.

Aun así, si cuentas con el hardware necesario o trabajas con servidores en la nube, VibeVoice se posiciona hoy como una de las opciones más sólidas y económicas para montar tu propio sistema de transcripción profesional.

Microsoft presenta VibeVoice: transcripción de audio precisa y gratuita

¿Por qué te importa esto?

Microsoft libera VibeVoice: El fin de las transcripciones caóticas

¿Qué lo hace diferente?

Gratis, pero con un "pequeño" detalle de hardware