Телевизор научил нейросеть Google читать по губам
Исследователи Google DeepMind совместно с учеными Оксфордского университета решили обучить искусственный интеллект навыку чтения по губам. После просмотра тысяч часов эфира BBC обученная алгоритму распознавания мимики нейросеть WLAS начала понимать 46.8% слов. Показатель не выглядит впечатляющим (особенно на фоне современных систем расшифровки аудиозаписей с ошибкой не более 12%), но даже опытный чтец по губам может правильно разобрать сказанное только в 12.4% случаев. На лицо еще одна победа ИИ над человеком.
Смотреть — не пересмотреть
Несколько месяцев назад ученые Оксфордского рассказали о собственной разработке для чтения по губам. Система под названием LipNet с точностью в 93.4% угадывала слова, но программа имела дело с небольшой базой видео и 51 уникальным словом. WLAS пришлось обработать более 5000 часов разных шоу канала BBC, во время которых было произнесено 110 000 предложений и около 17 500 уникальных слов.
Кому это нужно?
Авторы проекта считают, что чтение по губам удачно дополнит и улучшит работу алгоритмов распознавания речи, например, когда запись ведется в шумном окружении. Разработка может помочь людям с нарушениями слуха во время общения с другими людьми, кроме того, новая функция позволила бы Siri и Google Ассистенту понимать пользователя без слов (например, когда помощником приходится пользоваться в общественных местах).
Источник: The Verge