Vall-E, le nouveau modèle d'IA de Microsoft qui imite n'importe quelle voix humaine à partir d'un original de 3 secondes seulement

Par: Elena Shcherban | 11.01.2023, 00:47

Microsoft a présenté un nouveau modèle d'intelligence artificielle appelé Vall-E. Il est basé sur la technologie EnCodec, que Meta a annoncée en octobre 2022.

Détails

Microsoft appelle VALL-E un "modèle de langage à codecs neuronaux". Cette intelligence artificielle est capable d'imiter n'importe quelle voix humaine, et il lui suffit d'écouter 3 secondes de la voix originale pour y parvenir. L'IA décompose l'information en composants et synthétise les variations de son son dans différentes phrases, ce qui lui permet de reproduire avec précision le timbre et le ton émotionnel de l'orateur.

Pour entraîner Vall-E, Microsoft a utilisé des enregistrements de 60 000 heures de conversations enregistrées par plus de 7 000 personnes réelles. Ils ont surtout utilisé des livres audio de la bibliothèque LibriVox.

Des exemples de voix simulées par Vall-E peuvent être entendus sur GitHub.

Selon Microsoft, Vall-E pourrait être utilisé comme un outil de conversion texte-voix, un moyen d'éditer la parole et un système de création audio en le connectant à d'autres IA génératives.

Source : Vall-E