Meta a développé un modèle d'IA générative pour la synthèse vocale.
Meta a introduit un modèle génératif pour convertir le texte en parole, appelé Voicebox. Selon les développeurs, l'algorithme fera pour la parole ce que ChatGPT et DALL-E ont fait pour le texte et les images.
Ce que nous savons
À l'instar des systèmes génératifs pour le texte et les images, Voicebox peut créer des sorties à partir de zéro, convertir des styles et modifier l'échantillon fourni. Le système a été entraîné sur 50 000 heures d'enregistrements vocaux et de transcriptions de livres audio du domaine public en anglais, français, espagnol, allemand, polonais et portugais.
En conséquence, Voicebox est capable d'éditer des clips, de supprimer les bruits et de remplacer les mots mal prononcés.
"Une personne peut identifier le segment de parole brut endommagé par le bruit (comme l'aboiement d'un chien), le couper et demander au modèle de régénérer ce segment", expliquent les chercheurs.
La Voicebox peut également reproduire la parole à partir d'un extrait de deux secondes, transférer le style d'une langue à l'autre et créer une variété d'échantillons pour des ensembles de données synthétiques.
Quand l'attendre ?
Meta n'a pas publié le code source du modèle. Les développeurs ont invoqué des "risques potentiels d'utilisation abusive" malgré les "nombreuses utilisations intéressantes des modèles de langage génératifs".
Source : Meta.