Meta ha sviluppato un modello di intelligenza artificiale generativa per la sintesi vocale.
Meta ha presentato un modello generativo per la conversione del testo in parlato chiamato Voicebox. Secondo gli sviluppatori, l'algoritmo farà per il parlato ciò che ChatGPT e DALL-E hanno fatto per il testo e le immagini.
Cosa sappiamo
Come i sistemi generativi per il testo e le immagini, Voicebox può creare output da zero, convertire stili e modificare il campione fornito. Il sistema è stato addestrato su 50.000 ore di parlato registrato e trascrizioni di audiolibri di dominio pubblico in inglese, francese, spagnolo, tedesco, polacco e portoghese.
Di conseguenza, Voicebox è in grado di modificare le clip, rimuovere il rumore e sostituire le parole pronunciate male.
"Una persona può identificare quale segmento di parlato grezzo è danneggiato dal rumore (come l'abbaiare di un cane), tagliarlo e istruire il modello a rigenerare quel segmento", hanno detto i ricercatori.
Voicebox è anche in grado di riprodurre il parlato a partire da un estratto di due secondi, di trasferire lo stile multilingue e di creare una serie di campioni per set di dati sintetici.
Quando aspettarselo
Meta non ha pubblicato il codice sorgente del modello. Gli sviluppatori hanno citato i "potenziali rischi di uso improprio", nonostante i "molti usi interessanti dei modelli linguistici generativi".
Fonte: Meta.