Google a dévoilé VLOGGER, une intelligence artificielle capable de donner vie à des photos.

Par: Bohdan Kaminskyi | 19.03.2024, 19:14
Google a dévoilé VLOGGER, une intelligence artificielle capable de donner vie à des photos.
Google

Des chercheurs de Google ont mis au point un nouveau système d'intelligence artificielle appelé VLOGGER, capable de générer des vidéos réalistes de personnes en train de bouger et de parler à partir d'une seule photo.

Voici ce que nous savons

VLOGGER peut prendre une photo d'une personne et une piste audio en entrée, puis synthétiser une vidéo de cette personne en train de prononcer des mots, avec les expressions faciales, les gestes et les mouvements de tête appropriés. Bien que les vidéos générées ne soient pas parfaites, elles témoignent d'un progrès significatif dans la manière de donner vie à des images statiques.

Pour créer le modèle, les développeurs ont recueilli un énorme ensemble de données MENTOR comprenant plus de 800 000 personnes et 2 200 heures de vidéo. Grâce à cela, VLOGGER a appris à générer une variété de personnages d'âges, d'origines ethniques et d'environnements différents.

Cette technologie ouvre la voie à de nombreuses applications, notamment le doublage automatique de vidéos, le montage et le remplissage de séquences manquantes, ainsi que la création de vidéos complètes à partir d'une seule photo. Elle pourrait être utile à l'industrie du divertissement, à la réalité virtuelle, aux programmes de formation et à la création d'assistants virtuels dotés d'une intelligence artificielle.

Toutefois, il existe un risque d'utiliser VLOGGER pour créer des "deepfakes", c'est-à-dire des fichiers multimédias synthétiques dans lesquels une personne réelle est remplacée par une fausse. Ces vidéos devenant de plus en plus sophistiquées, elles pourraient exacerber les problèmes de désinformation et d'usurpation d'identité sur l'internet.

Les développeurs reconnaissent que VLOGGER a des limites. Les vidéos créées sont relativement courtes, ont des arrière-plans statiques et les personnes ne se déplacent pas dans un environnement en 3D. Néanmoins, les chercheurs considèrent le modèle comme une étape importante dans la recherche sur l'IA.

Source : VentureBeat