Машинное обучение предсказывает эмоции по голосу за 1,5 секунды с человеческой точностью
Domingo Alvarez E/Unsplash
Исследователи из Германии разработали модели машинного обучения, способные распознавать эмоции в коротких голосовых фрагментах продолжительностью всего 1,5 секунды с точностью, сравнимой с человеческой.
Что известно
В новом исследовании, опубликованном в журнале Frontiers in Psychology, ученые сравнили три типа моделей: глубокие нейронные сети (DNN), сверточные нейронные сети (CNN) и гибридную модель (C-DNN).
Модели обучались на немецких и канадских наборах данных с бессмысленными предложениями, произнесенными актерами с разными эмоциональными оттенками, чтобы исключить влияние языка и смысла на распознавание.
"Наши модели достигли точности, аналогичной человеческой, при классификации эмоциональных предложений, произнесенных актерами", — заявил ведущий автор Ханнес Димерлинг (Hannes Diemerling) из Института человеческого развития Макса Планка (Max Planck).
Исследователи обнаружили, что DNN и гибридная C-DNN, комбинирующая аудио и визуальные данные, работают лучше, чем CNN с использованием только спектрограмм. В целом все модели превзошли случайные догадки в точности распознавания эмоций.
По словам Димерлинга, тот факт, что люди и модели ИИ показали сопоставимые результаты, может означать, что они опираются на схожие закономерности в звуке для выявления эмоционального подтекста.
Ученые отметили, что подобные системы могут найти применение в областях, требующих интерпретации эмоций, таких как терапия или технологии общения. Вместе с тем необходимо дальнейшее изучение оптимальной продолжительности аудиофрагментов и анализ спонтанных эмоциональных проявлений.
Источник: TechXplore