Meta представила набор данных, который позволит обучать системы распознавания речи на "кластерах" дикторов
Компания Meta AI представила новый набор данных, который обещает повысить эффективность работы инструментов автоматического распознавания речи (ASR) за счет кластеризации дикторов.
Что известно
Многие наборы данных, используемые для обучения ASR-моделей, организованы по демографическому признаку: возрастная группа, пол, национальность, английский акцент. Это ограничивает вариативность произношения, на котором обучаются алгоритмы, и мешает им понимать широкий круг пользователей.
Чтобы обойти эту проблему, Meta AI разработала набор данных, который опирается на метод кластеризации высказываний. Каждый кластер содержит похожий набор фраз от различных дикторов. Это значит, что модель ASR научится распознавать одно и то же высказывание, произнесенное разными людьми.
Итоговый набор данных Meta включает чуть более 27 000 командных высказываний, собранных от 595 добровольцев из США. Их фразы посвящены семи основным темам: музыка, съемка, утилиты, управление уведомлениями, обмен сообщениями, звонки и диктовка.
В качестве подсказок дикторам задавались вопросы о том, как они будут осуществлять голосовой поиск песни или строить планы с друзьями.
Результаты тестирования набора данных оказались многообещающими: производительность модели повысилась "для всех демографических групп [...], хотя наибольший прирост был достигнут за счет более широкого использования акцентов", — говорится в блоге.
В целом производительность ASR при использовании метода кластеризации выросла на 10%. При этом значительный прирост был получен и в группе 66-85 лет, традиционно недопредставленной в пространстве голосовых команд.
Источник: Meta AI.