Google представила VLOGGER - штучний інтелект, здатний оживити нерухомі фотографії

Автор: Богдан Камінський | 19 березня 2024, 20:13

Google

Дослідники Google розробили нову систему штучного інтелекту VLOGGER, здатну генерувати реалістичні відеоролики з рухомими людьми, які рухаються і розмовляють, лише за однією фотографією.

Що відомо

VLOGGER може взяти на вхід фотографію людини й аудіодоріжку, а потім синтезувати відео, в якому ця людина вимовляє слова, робить відповідні міміку, жести та рухи головою. Хоча генеровані ролики неідеальні, вони демонструють значний прогрес у пожвавленні статичних зображень.

Для створення моделі розробники зібрали величезний набір даних MENTOR з більш ніж 800 000 людей і 2200 годинами відео. Завдяки цьому VLOGGER навчилася генерувати різноманітних персонажів різного віку, етнічного походження і в різних оточеннях.

Технологія відкриває безліч застосувань, включно з автоматичним дубляжем відео, редагуванням і заповненням пропущених кадрів, а також створенням повноцінних відеороликів за однією фотографією. Це може бути корисно для розважальної індустрії, віртуальної реальності, навчальних програм і створення віртуальних помічників на базі ШІ.

Однак існує ризик використання VLOGGER для створення діпфейків (deepfakes) - синтетичних медіафайлів, де реальна людина замінюється підробкою. У міру вдосконалення такі відео можуть посилити проблеми дезінформації та підробок в інтернеті.

Розробники визнають, що VLOGGER має обмеження. Створювані відеоролики відносно короткі, мають статичне тло, а люди не переміщуються в 3D-середовищі. Проте дослідники називають модель важливою віхою в дослідженнях ШІ.

Джерело: VentureBeat