Meta ha sviluppato un modello di intelligenza artificiale generativa per la sintesi vocale.

Di: Bohdan Kaminskyi | 16.06.2023, 18:53

Meta ha presentato un modello generativo per la conversione del testo in parlato chiamato Voicebox. Secondo gli sviluppatori, l'algoritmo farà per il parlato ciò che ChatGPT e DALL-E hanno fatto per il testo e le immagini.

Cosa sappiamo

Come i sistemi generativi per il testo e le immagini, Voicebox può creare output da zero, convertire stili e modificare il campione fornito. Il sistema è stato addestrato su 50.000 ore di parlato registrato e trascrizioni di audiolibri di dominio pubblico in inglese, francese, spagnolo, tedesco, polacco e portoghese.

Di conseguenza, Voicebox è in grado di modificare le clip, rimuovere il rumore e sostituire le parole pronunciate male.

"Una persona può identificare quale segmento di parlato grezzo è danneggiato dal rumore (come l'abbaiare di un cane), tagliarlo e istruire il modello a rigenerare quel segmento", hanno detto i ricercatori.

Voicebox è anche in grado di riprodurre il parlato a partire da un estratto di due secondi, di trasferire lo stile multilingue e di creare una serie di campioni per set di dati sintetici.

Quando aspettarselo

Meta non ha pubblicato il codice sorgente del modello. Gli sviluppatori hanno citato i "potenziali rischi di uso improprio", nonostante i "molti usi interessanti dei modelli linguistici generativi".

Fonte: Meta.