Google har avduket VLOGGER, en kunstig intelligens som kan gi liv til stillbilder.

Av: Bohdan Kaminskyi | 19.03.2024, 20:13

Google

Google-forskere har utviklet et nytt kunstig intelligenssystem kalt VLOGGER som kan generere realistiske videoer av mennesker som beveger seg og snakker ut fra bare ett bilde.

Dette er hva vi vet

VLOGGER kan ta et bilde av en person og et lydspor som input, og deretter generere en video av personen som sier ord med passende ansiktsuttrykk, gester og hodebevegelser. Selv om de genererte videoene ikke er perfekte, viser de betydelige fremskritt når det gjelder å gi liv til statiske bilder.

For å lage modellen har utviklerne samlet inn et enormt MENTOR-datasett med mer enn 800 000 personer og 2200 timer med video. Gjennom dette har VLOGGER lært seg å generere en rekke karakterer i ulike aldre, med ulik etnisk bakgrunn og i ulike miljøer.

Teknologien åpner for mange bruksområder, blant annet automatisk ettersynkronisering av video, redigering og utfylling av manglende opptak og oppretting av hele videoer fra ett enkelt bilde. Dette kan være nyttig for underholdningsindustrien, virtual reality, opplæringsprogrammer og for å skape AI-drevne virtuelle assistenter.

Det er imidlertid en risiko for at VLOGGER kan brukes til å lage deepfakes - syntetiske mediefiler der en ekte person er erstattet av en falsk. Etter hvert som slike videoer blir mer sofistikerte, kan de forsterke problemene med feilinformasjon og spoofing på internett.

Utviklerne erkjenner at VLOGGER har sine begrensninger. Videoene som lages, er relativt korte, har statiske bakgrunner, og personene beveger seg ikke i et 3D-miljø. Likevel kaller forskerne modellen en milepæl innen AI-forskning.

Kilde: VentureBeat: VentureBeat