Meta ha desarrollado un modelo generativo de IA para la conversión de texto en voz

Por: Bohdan Kaminskyi | 16.06.2023, 18:53

Meta ha presentado un modelo generativo para convertir texto en voz llamado Voicebox. Según sus creadores, el algoritmo hará por el habla lo que ChatGPT y DALL-E hicieron por el texto y las imágenes.

Lo que sabemos

Al igual que los sistemas generativos para texto e imágenes, Voicebox puede crear la salida desde cero, convertir estilos y modificar la muestra proporcionada. El sistema se ha entrenado con 50.000 horas de voz grabada y transcripciones de audiolibros de dominio público en inglés, francés, español, alemán, polaco y portugués.

Como resultado, Voicebox es capaz de editar clips, eliminar ruidos y sustituir palabras mal pronunciadas.

"Una persona puede identificar qué segmento del habla en bruto está dañado por el ruido (por ejemplo, el ladrido de un perro), cortarlo y ordenar al modelo que regenere ese segmento", explican los investigadores.

Voicebox también puede reproducir el habla a partir de un fragmento de dos segundos, transferir el estilo entre idiomas y crear diversas muestras para conjuntos de datos sintéticos.

Para cuándo

Meta no ha publicado el código fuente del modelo. Los desarrolladores citaron "riesgos potenciales de uso indebido" a pesar de los "muchos usos interesantes de los modelos generativos del lenguaje".

Fuente: Meta.