Vall-E, il nuovo modello di intelligenza artificiale di Microsoft che imita qualsiasi voce umana basandosi su un originale di soli 3 secondi

Di: Elena Shcherban | 11.01.2023, 00:47

Microsoft ha presentato un nuovo modello di intelligenza artificiale denominato Vall-E. Si basa sulla tecnologia EnCodec, che Meta ha annunciato nell'ottobre 2022.

Dettagli

Microsoft definisce VALL-E un "modello linguistico di codec neurale". Questa intelligenza artificiale è in grado di imitare qualsiasi voce umana e per farlo ha bisogno di ascoltare solo 3 secondi della voce originale. L'intelligenza artificiale scompone le informazioni in componenti e sintetizza le variazioni del suono in diverse frasi, riuscendo così a riprodurre con precisione il timbro e il tono emotivo di chi parla.

Per addestrare Vall-E, Microsoft ha utilizzato registrazioni di 60.000 ore di conversazioni registrate da oltre 7.000 persone reali. Per lo più hanno utilizzato gli audiolibri della libreria LibriVox.

Esempi di voci simulate di Vall-E possono essere ascoltati su GitHub.

Secondo Microsoft, Vall-E potrebbe essere utilizzato come strumento di text-to-voice, per modificare il parlato e come sistema di creazione audio collegandolo ad altre IA generative.

Fonte: Vall-E