Нейросеть Microsoft распознает речь лучше человека (и IBM Watson)
В конце прошлого года Microsoft представила алгоритм распознавания речи, который ошибается не чаще, чем профессиональный стенографист с коэффициентом ошибочных слов 5.9%. Теперь специалистам компании удалось снизить процент ошибок до рекордных 5.1%. При такой точности можно говорить о том, что система достигла уровня человека.
За последний год Microsoft улучшила свой результат на 12%. Компания использует искусственную нейронные сети и акустические модели, постоянно совершенствуя их. В частности, искусственный интеллект научился анализировать контекст и предсказывать, какие слова или фразы могут последовать дальше. Таким образом повышается точность расшифровки аудиозаписи. Эффективность подобных систем проверяют на сборнике из 2400 записей телефонных разговоров на общие темы, этот тест называется Switchboard.
Показатель в 5.1% ошибок сопоставим с результатами работы нескольких специалистов, которым разрешили прослушать аудиозапись несколько раз и общаться друг с другом. Если Microsoft планирует использовать алгоритм в своих сервисах, скоро голосовой помощник Cortana станет лучше понимать пользователей. Технология также может найти применение в офисном пакете компании (например, для перевода презентаций) и Microsoft Cognitive Services.
Есть куда расти
Нейросеть Microsoft вышла на один уровень с человеком, но только в одном тесте. Исследователи признают, что в шумных условиях, при распознавании речи с акцентом и расшифровке диалектов точность системы будет ниже. Еще одной целью ученых является научить компьютеры понимать услышанное, а не просто переводить его в текстовую форму.
Предыдущий рекорд точности распознавания речи принадлежал IBM, которая весной сообщила о снижении процента ошибочных слов до 5.5% (благодаря своей когнитивной системе Watson), но теперь в лидеры вырвалась Microsoft.
Источник: Microsoft