Google heeft VLOGGER onthuld, een kunstmatige intelligentie die foto's tot leven kan brengen
Onderzoekers van Google hebben een nieuw kunstmatig intelligentiesysteem genaamd VLOGGER ontwikkeld dat realistische video's van bewegende en pratende mensen kan genereren op basis van slechts één foto.
Dit is wat we weten
VLOGGER kan een foto van een persoon en een audiotrack als invoer nemen en vervolgens een video samenstellen van die persoon die woorden zegt en daarbij de juiste gezichtsuitdrukkingen, gebaren en hoofdbewegingen maakt. Hoewel de gegenereerde video's niet perfect zijn, laten ze een aanzienlijke vooruitgang zien in het tot leven brengen van statische beelden.
Om het model te maken, verzamelden de ontwikkelaars een enorme MENTOR-dataset met meer dan 800.000 mensen en 2.200 uur aan video. Hierdoor heeft VLOGGER geleerd om een verscheidenheid aan personages van verschillende leeftijden, etnische achtergronden en in verschillende omgevingen te genereren.
De technologie maakt veel toepassingen mogelijk, zoals het automatisch nasynchroniseren van video's, het bewerken en aanvullen van ontbrekende beelden en het maken van volledige video's van een enkele foto. Dit kan nuttig zijn voor de entertainmentindustrie, virtual reality, trainingsprogramma's en het maken van AI-gestuurde virtuele assistenten.
Er bestaat echter een risico dat VLOGGER wordt gebruikt om deepfakes te maken - synthetische mediabestanden waarin een echt persoon wordt vervangen door een nepper. Naarmate dergelijke video's geavanceerder worden, kunnen ze de problemen van desinformatie en spoofing op het internet verergeren.
De ontwikkelaars erkennen dat VLOGGER beperkingen heeft. De gemaakte video's zijn relatief kort, hebben statische achtergronden en de mensen bewegen niet in een 3D-omgeving. Desondanks noemen de onderzoekers het model een mijlpaal in AI-onderzoek.
Bron: VentureBeat