Машинне навчання передбачає розпізнавання емоцій у голосі за 1,5 секунди з людською точністю
Domingo Alvarez E/Unsplash
Дослідники з Німеччини розробили моделі машинного навчання, здатні розпізнавати емоції в коротких голосових фрагментах тривалістю всього 1,5 секунди з точністю, порівнянною з людською.
Що відомо
У новому дослідженні, опублікованому в журналі Frontiers in Psychology, вчені порівняли три типи моделей: глибокі нейронні мережі (DNN), згорткові нейронні мережі (CNN) і гібридну модель (C-DNN).
Моделі навчалися на німецьких і канадських наборах даних із безглуздими реченнями, вимовленими акторами з різними емоційними відтінками, щоб унеможливити вплив мови та сенсу на розпізнавання.
"Наші моделі досягли точності, аналогічної до людської, під час класифікації емоційних речень, виголошених акторами", - заявив провідний автор Ханнес Дімерлінг (Hannes Diemerling) з Інституту людського розвитку Макса Планка (Max Planck).
Дослідники виявили, що DNN і гібридна C-DNN, що комбінує аудіо- та візуальні дані, працюють краще, ніж CNN з використанням тільки спектрограм. Загалом усі моделі перевершили випадкові здогадки в точності розпізнавання емоцій.
За словами Дімерлінга, той факт, що люди та моделі ШІ показали зіставні результати, може означати, що вони спираються на схожі закономірності у звуці для виявлення емоційного підтексту.
Вчені зазначили, що подібні системи можуть знайти застосування в галузях, що вимагають інтерпретації емоцій, таких як терапія або технології спілкування. Водночас необхідне подальше вивчення оптимальної тривалості аудіофрагментів та аналіз спонтанних емоційних проявів.
Джерело: TechXplore