Meta ha desarrollado un modelo generativo de IA para la conversión de texto en voz
Meta ha presentado un modelo generativo para convertir texto en voz llamado Voicebox. Según sus creadores, el algoritmo hará por el habla lo que ChatGPT y DALL-E hicieron por el texto y las imágenes.
Lo que sabemos
Al igual que los sistemas generativos para texto e imágenes, Voicebox puede crear la salida desde cero, convertir estilos y modificar la muestra proporcionada. El sistema se ha entrenado con 50.000 horas de voz grabada y transcripciones de audiolibros de dominio público en inglés, francés, español, alemán, polaco y portugués.
Como resultado, Voicebox es capaz de editar clips, eliminar ruidos y sustituir palabras mal pronunciadas.
"Una persona puede identificar qué segmento del habla en bruto está dañado por el ruido (por ejemplo, el ladrido de un perro), cortarlo y ordenar al modelo que regenere ese segmento", explican los investigadores.
Voicebox también puede reproducir el habla a partir de un fragmento de dos segundos, transferir el estilo entre idiomas y crear diversas muestras para conjuntos de datos sintéticos.
Para cuándo
Meta no ha publicado el código fuente del modelo. Los desarrolladores citaron "riesgos potenciales de uso indebido" a pesar de los "muchos usos interesantes de los modelos generativos del lenguaje".
Fuente: Meta.