Машинне навчання передбачає розпізнавання емоцій у голосі за 1,5 секунди з людською точністю

Автор: Богдан Камінський | 20 березня 2024, 23:52

Domingo Alvarez E/Unsplash

Дослідники з Німеччини розробили моделі машинного навчання, здатні розпізнавати емоції в коротких голосових фрагментах тривалістю всього 1,5 секунди з точністю, порівнянною з людською.

Що відомо

У новому дослідженні, опублікованому в журналі Frontiers in Psychology, вчені порівняли три типи моделей: глибокі нейронні мережі (DNN), згорткові нейронні мережі (CNN) і гібридну модель (C-DNN).

Моделі навчалися на німецьких і канадських наборах даних із безглуздими реченнями, вимовленими акторами з різними емоційними відтінками, щоб унеможливити вплив мови та сенсу на розпізнавання.

"Наші моделі досягли точності, аналогічної до людської, під час класифікації емоційних речень, виголошених акторами", - заявив провідний автор Ханнес Дімерлінг (Hannes Diemerling) з Інституту людського розвитку Макса Планка (Max Planck).

Дослідники виявили, що DNN і гібридна C-DNN, що комбінує аудіо- та візуальні дані, працюють краще, ніж CNN з використанням тільки спектрограм. Загалом усі моделі перевершили випадкові здогадки в точності розпізнавання емоцій.

За словами Дімерлінга, той факт, що люди та моделі ШІ показали зіставні результати, може означати, що вони спираються на схожі закономірності у звуці для виявлення емоційного підтексту.

Вчені зазначили, що подібні системи можуть знайти застосування в галузях, що вимагають інтерпретації емоцій, таких як терапія або технології спілкування. Водночас необхідне подальше вивчення оптимальної тривалості аудіофрагментів та аналіз спонтанних емоційних проявів.

Джерело: TechXplore

Штучний інтелект

Читайте gg українською у Telegram

Написати коментар