Машинное обучение предсказывает эмоции по голосу за 1,5 секунды с человеческой точностью

Автор: Богдан Каминский, 20 марта 2024, 23:12

Domingo Alvarez E/Unsplash

Исследователи из Германии разработали модели машинного обучения, способные распознавать эмоции в коротких голосовых фрагментах продолжительностью всего 1,5 секунды с точностью, сравнимой с человеческой.

Что известно

В новом исследовании, опубликованном в журнале Frontiers in Psychology, ученые сравнили три типа моделей: глубокие нейронные сети (DNN), сверточные нейронные сети (CNN) и гибридную модель (C-DNN).

Модели обучались на немецких и канадских наборах данных с бессмысленными предложениями, произнесенными актерами с разными эмоциональными оттенками, чтобы исключить влияние языка и смысла на распознавание.

"Наши модели достигли точности, аналогичной человеческой, при классификации эмоциональных предложений, произнесенных актерами", — заявил ведущий автор Ханнес Димерлинг (Hannes Diemerling) из Института человеческого развития Макса Планка (Max Planck).

Исследователи обнаружили, что DNN и гибридная C-DNN, комбинирующая аудио и визуальные данные, работают лучше, чем CNN с использованием только спектрограмм. В целом все модели превзошли случайные догадки в точности распознавания эмоций.

По словам Димерлинга, тот факт, что люди и модели ИИ показали сопоставимые результаты, может означать, что они опираются на схожие закономерности в звуке для выявления эмоционального подтекста.

Ученые отметили, что подобные системы могут найти применение в областях, требующих интерпретации эмоций, таких как терапия или технологии общения. Вместе с тем необходимо дальнейшее изучение оптимальной продолжительности аудиофрагментов и анализ спонтанных эмоциональных проявлений.

Источник: TechXplore

Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.

Искусственный интеллект