Open uhhyunjoo opened 2 years ago
link | |
---|---|
paper | Emotions Understanding Model from Spoken Language using Deep Neural Networks and Mel-Frequency Cepstral Coefficients |
github | emotion-classification-from-audio-files |
대화로부터 감정을 이해하는 것이 간과되고 있다.
본 논문은 이러한 측면을 고려하여, 대화 중 주체가 표현하는 main emotion 을 identify 할 수 있게 하는, an efficienty strategy 에 집중했다.
한 번에 하나 이상의 basic emotion 을 나타내기도 하는데, speacker and listener 둘 다에 대해 그런 mixed emotions 의 percentage 를 인식하는 건 extremely difficult 하다는 게 본 연구진의 의견이다.
이를 고려하여, audio track 에서 가장 큰 값을 나타내는 emotion 을 identify 하는 것을 목적으로 하는 모델을 생성했다.
다른 접근 방식들은, computer vision 이나 text analysis 에서처럼 machine 이 feelings 를 classify 하려고 시도했었다.
본 연구는, Mel-frequency cepstral coefficients (MFCC) 를 고려하여 pure 한 audio data 를 사용하는 것을 목적으로 한다.
[ ] diaglogue : 대화
이전에, 많은 classification strategies 가 제안되었었다.
A real-time emotion recognition from speech using gradient boosting
gender / emotion / model 에 따라 성능 차이가 좀 있는듯
Ubiquitous Emotion Recognition Using Audio and Video Data
Recognizing emotion from singing and speaking using shared models
Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS)
7356 개의 RAVDESS files 는 7개의 식별자로 구성된 a unique filename 을 갖고 있다.
Deep learning models 는 data의 양에 대해 struggle with 하기 때문에, training and test set 을 enrich 하게 만들기 위한 a pipeline
본 연구진은 결과가 encouragning 하다고 본다.
Speech | Song | |
---|---|---|
오디오 + 비디오 | 2880 | 2024 |
오디오 | 1440 | 1012 |