Microsoft avduket verktøy for dipfake og stemmekloning

Av: Bohdan Kaminskyi | 16.11.2023, 16:35

Microsoft

På Ignite-konferansen kunngjorde Microsoft en tjeneste for å lage fotorealistiske avatarer av mennesker med leppeanimasjon i henhold til en gitt tekst. De viste også frem et verktøy for stemmekloning ved hjelp av lydprøver.

Dette er hva vi vet

Med den nye avatartjenesten Azure AI Speech Text to Speech kan du laste opp et bilde av en person og komponere et manus. Deretter genereres en video av en talende avatar basert på dette.

De digitale dobbeltgjengerne kan snakke flere språk. I skript kan de bruke kunstig intelligens-modeller som OpenAIs GPT-3.5 til å svare på kundespørsmål utenfor skriptet.

En annen personlig stemmefunksjon kan gjenskape en brukers stemme på få sekunder. Det krever et lydopptak på ett minutt.

Selskapet foreslår å bruke Personal voice til å lage personlige stemmeassistenter, kopiere innhold til ulike språk og lage tilpassede fortellinger til fortellinger, lydbøker og podcaster.

Ifølge Microsoft vil begge verktøyene være tilgjengelige for et begrenset antall brukere og kun for visse scenarier. I tillegg må kundene gi eksplisitt samtykke til at stemmen og bildet deres brukes.

Hensikten er å begrense muligheten for at teknologien misbrukes til å lage dipfakes uten at folk er klar over det. Microsoft sier at de har en ansvarlig tilnærming til AI-etikk.

Kilde: Microsoft, Microsoft