Vall-E, el nuevo modelo de inteligencia artificial de Microsoft que imita cualquier voz humana basándose sólo en un original de 3 segundos

Por: Elena Shcherban | 11.01.2023, 00:47

Microsoft presentó un nuevo modelo de inteligencia artificial llamado Vall-E. Se basa en la tecnología EnCodec, que Meta anunció en octubre de 2022.

Detalles

Microsoft llama a VALL-E un "modelo de lenguaje de códec neural". Esta inteligencia artificial es capaz de imitar cualquier voz humana, y para ello sólo necesita escuchar 3 segundos de la voz original. La IA descompone la información en componentes y sintetiza variaciones de su sonido en distintas frases, gracias a lo cual puede reproducir con precisión el timbre y el tono emocional del hablante.

Para entrenar a Vall-E, Microsoft utilizó grabaciones de 60.000 horas de conversaciones registradas por más de 7.000 personas reales. En su mayoría utilizaron audiolibros de la biblioteca LibriVox.

Se pueden escuchar ejemplos de voces simuladas de Vall-E en GitHub.

Microsoft afirma que Vall-E podría utilizarse como una herramienta de conversión de texto a voz, una forma de editar el habla y un sistema de creación de audio conectándolo a otras IA generativas.

Fuente: Vall-E