Google представила VLOGGER - штучний інтелект, здатний оживити нерухомі фотографії
Дослідники Google розробили нову систему штучного інтелекту VLOGGER, здатну генерувати реалістичні відеоролики з рухомими людьми, які рухаються і розмовляють, лише за однією фотографією.
Що відомо
VLOGGER може взяти на вхід фотографію людини й аудіодоріжку, а потім синтезувати відео, в якому ця людина вимовляє слова, робить відповідні міміку, жести та рухи головою. Хоча генеровані ролики неідеальні, вони демонструють значний прогрес у пожвавленні статичних зображень.
Для створення моделі розробники зібрали величезний набір даних MENTOR з більш ніж 800 000 людей і 2200 годинами відео. Завдяки цьому VLOGGER навчилася генерувати різноманітних персонажів різного віку, етнічного походження і в різних оточеннях.
Технологія відкриває безліч застосувань, включно з автоматичним дубляжем відео, редагуванням і заповненням пропущених кадрів, а також створенням повноцінних відеороликів за однією фотографією. Це може бути корисно для розважальної індустрії, віртуальної реальності, навчальних програм і створення віртуальних помічників на базі ШІ.
Однак існує ризик використання VLOGGER для створення діпфейків (deepfakes) - синтетичних медіафайлів, де реальна людина замінюється підробкою. У міру вдосконалення такі відео можуть посилити проблеми дезінформації та підробок в інтернеті.
Розробники визнають, що VLOGGER має обмеження. Створювані відеоролики відносно короткі, мають статичне тло, а люди не переміщуються в 3D-середовищі. Проте дослідники називають модель важливою віхою в дослідженнях ШІ.
Джерело: VentureBeat