Microsoft ha svelato strumenti di clonazione vocale e dipfake

Di: Bohdan Kaminskyi | 16.11.2023, 16:35

Microsoft

Alla conferenza Ignite, Microsoft ha annunciato un servizio per la creazione di avatar fotorealistici di persone con animazione labiale in base a un testo dato. Ha inoltre mostrato uno strumento per la clonazione della voce in base a un campione audio.

Ecco cosa sappiamo

Il nuovo servizio di avatar text to speech Azure AI Speech consente di caricare la foto di una persona e di comporre un testo. Su questa base viene poi generato un video di un avatar che parla.

I doppelganger digitali possono parlare diverse lingue. Nei copioni, possono utilizzare modelli di intelligenza artificiale come GPT-3.5 di OpenAI per rispondere alle domande dei clienti al di fuori dei copioni.

Un'altra funzione di Personal voice può ricreare la voce di un utente in pochi secondi. Richiede una registrazione audio di un minuto.

L'azienda suggerisce di utilizzare Personal voice per creare assistenti vocali personalizzati, doppiare contenuti in diverse lingue e creare narrazioni personalizzate per storie, audiolibri e podcast.

Secondo Microsoft, entrambi gli strumenti saranno disponibili per un numero limitato di utenti e solo per determinati scenari. Inoltre, i clienti dovranno dare un consenso esplicito all'utilizzo della loro voce e della loro immagine.

In questo modo si intende limitare il potenziale uso improprio della tecnologia per la creazione di "dipfakes" all'insaputa delle persone. Microsoft afferma che sta adottando un approccio responsabile all'etica dell'IA.

Fonte: Microsoft, Microsoft