Google hat VLOGGER vorgestellt, eine künstliche Intelligenz, die Fotos zum Leben erwecken kann

Von: Bohdan Kaminskyi | 19.03.2024, 20:13

Google

Google-Forscher haben ein neues System der künstlichen Intelligenz namens VLOGGER entwickelt, das aus einem einzigen Foto realistische Videos von Menschen erstellen kann, die sich bewegen und sprechen.

Was bekannt ist

VLOGGER kann ein Foto einer Person und eine Tonspur als Input nehmen und dann ein Video synthetisieren, in dem diese Person Worte sagt und dabei die passende Mimik, Gestik und Kopfbewegungen macht. Auch wenn die erzeugten Videos nicht perfekt sind, zeigen sie doch deutliche Fortschritte bei der Belebung statischer Bilder.

Zur Erstellung des Modells sammelten die Entwickler einen riesigen MENTOR-Datensatz mit mehr als 800.000 Personen und 2.200 Stunden Videomaterial. Auf diese Weise hat VLOGGER gelernt, eine Vielzahl von Charakteren unterschiedlichen Alters, unterschiedlicher ethnischer Herkunft und in unterschiedlichen Umgebungen zu erzeugen.

Die Technologie eröffnet viele Anwendungsmöglichkeiten, darunter die automatische Nachvertonung von Videos, die Bearbeitung und Ergänzung von fehlendem Material und die Erstellung vollständiger Videos aus einem einzigen Foto. Dies könnte für die Unterhaltungsindustrie, die virtuelle Realität, Schulungsprogramme und die Entwicklung von KI-gesteuerten virtuellen Assistenten nützlich sein.

Es besteht jedoch die Gefahr, dass VLOGGER zur Erstellung von Deepfakes verwendet wird - synthetische Mediendateien, bei denen eine echte Person durch eine Fälschung ersetzt wird. Da solche Videos immer ausgefeilter werden, könnten sie die Probleme der Fehlinformation und des Spoofing im Internet verschärfen.

Die Entwickler räumen ein, dass VLOGGER seine Grenzen hat. Die erstellten Videos sind relativ kurz, haben statische Hintergründe, und die Personen bewegen sich nicht in einer 3D-Umgebung. Dennoch bezeichnen die Forscher das Modell als einen Meilenstein in der KI-Forschung.

Quelle: VentureBeat