Google ha presentato VLOGGER, un'intelligenza artificiale in grado di dare vita alle fotografie

Di: Bohdan Kaminskyi | 19.03.2024, 20:13

Google

I ricercatori di Google hanno sviluppato un nuovo sistema di intelligenza artificiale chiamato VLOGGER, in grado di generare video realistici di persone che si muovono e parlano partendo da una sola foto.

Ecco cosa sappiamo

VLOGGER è in grado di prendere in input una foto di una persona e una traccia audio, per poi sintetizzare un video di quella persona che pronuncia parole, fa espressioni facciali, gesti e movimenti della testa appropriati. Sebbene i video generati non siano perfetti, mostrano progressi significativi nel dare vita a immagini statiche.

Per creare il modello, gli sviluppatori hanno raccolto un enorme set di dati MENTOR con oltre 800.000 persone e 2.200 ore di video. Grazie a questo, VLOGGER ha imparato a generare una varietà di personaggi di età, origini etniche e ambienti diversi.

La tecnologia apre molte applicazioni, tra cui il doppiaggio automatico dei video, l'editing e il riempimento di filmati mancanti e la creazione di video completi da una singola foto. Potrebbe essere utile per l'industria dell'intrattenimento, la realtà virtuale, i programmi di formazione e la creazione di assistenti virtuali dotati di intelligenza artificiale.

Tuttavia, c'è il rischio di utilizzare VLOGGER per creare deepfakes - file multimediali sintetici in cui una persona reale è sostituita da una falsa. Questi video, diventando sempre più sofisticati, potrebbero aggravare i problemi di disinformazione e spoofing su Internet.

Gli sviluppatori riconoscono che VLOGGER ha dei limiti. I video creati sono relativamente brevi, hanno sfondi statici e le persone non si muovono in un ambiente 3D. Ciononostante, i ricercatori definiscono il modello una pietra miliare nella ricerca sull'intelligenza artificiale.

Fonte: VentureBeat