Meta представила набір даних, який дасть змогу навчати системи розпізнавання мови на "кластерах" дикторів
Компанія Meta AI представила новий набір даних, який обіцяє підвищити ефективність роботи інструментів автоматичного розпізнавання мови (ASR) за рахунок кластеризації дикторів.
Що відомо
Багато наборів даних, що використовуються для навчання ASR-моделей, організовані за демографічною ознакою: вікова група, стать, національність, англійський акцент. Це обмежує варіативність вимови, на якій навчаються алгоритми, та заважає їм розуміти широке коло користувачів.
Щоб обійти цю проблему, Meta AI розробила набір даних, який спирається на метод кластеризації висловлювань. Кожен кластер містить схожий набір фраз від різних дикторів. Це означає, що модель ASR навчиться розпізнавати одне й те саме висловлювання, вимовлене різними людьми.
Підсумковий набір даних Meta охоплює трохи більше ніж 27 000 командних висловлювань, зібраних від 595 добровольців зі США. Їхні фрази присвячені семи основним темам: музика, зйомка, утиліти, управління сповіщеннями, обмін повідомленнями, дзвінки і диктування.
В якості підказки дикторам ставили запитання про те, як вони здійснюватимуть голосовий пошук пісні або будуватимуть плани з друзями.
Результати тестування набору даних виявилися багатообіцяючими: продуктивність моделі підвищилася "для всіх демографічних груп [...], хоча найбільший приріст було досягнуто завдяки ширшому використанню акцентів", - ідеться в блозі.
Загалом продуктивність ASR при використанні методу кластеризації зросла на 10%. При цьому значний приріст було отримано і в групі 66-85 років, традиційно недопредставленій у просторі голосових команд.
Джерело: Meta AI.