uhhyunjoo / paper-notes

이슈로 가볍게 남깁니다.
0 stars 0 forks source link

[EAIS 2020] Emotions Understanding Model from Spoken Language using Deep Neural Networks and Mel-Frequency Cepstral Coefficients #13

Open uhhyunjoo opened 2 years ago

uhhyunjoo commented 2 years ago
link
paper Emotions Understanding Model from Spoken Language using Deep Neural Networks and Mel-Frequency Cepstral Coefficients
github emotion-classification-from-audio-files
uhhyunjoo commented 2 years ago

Abstract

uhhyunjoo commented 2 years ago

Introduction

uhhyunjoo commented 2 years ago

Related Work

이전에, 많은 classification strategies 가 제안되었었다.

  1. A real-time emotion recognition from speech using gradient boosting

    • Gradient Boosting, KNN, SVM 을 사용해서, RAVDESS dataset 에 대해 gender 에 따른 differences 를 identify 하고, granular classification 을 해서, 특정 task 에 대해서는 40% ~ 80% 의 accuracy 를 얻기도 했다.
    • 제안된 classifiers 는 다른 datasets 에 대해는 다르게 작동했다. (근데 일단 이 논문에서는 RAVDESS 에 대해서만 다룰게 ㅇㅇ)
    • 세 가지 types of dataset 이 생성됨 : only male recordings, only femal recordings, a combined ones.
    • gender / emotion / model 에 따라 성능 차이가 좀 있는듯

  2. Ubiquitous Emotion Recognition Using Audio and Video Data

    • audio 에 대해 66.41% 의 accuracy
    • audio + video 에 대해 90% 의 accuracy
    • faces 와 audio waveforms 를 포함하는 pre-processed image data 가 주어지고, 3 separately deep networks 를 학습시켰다.
    • 1 : only on image data, 2 : only on plotted audio waveforms, 3 : both image and waveform data
  3. Recognizing emotion from singing and speaking using shared models

    • RAVDESS dataset 을 사용한 첫번째 접근 방식
    • 그러나, only some of the emotions avilable 을 classifying 했다.
    • overall accuracy 가 본 논문에서 제안한 모델보다 더 높은데, 본 논문보다 less classes 를 사용했다.
    • speech and song 에 대한 three shared emotion recognition models 을 제안했다.
    • a simple model : domain 에 대해 independent 한 a single classifier 를 생성한다.
    • a single-task hierarchical model : domain during training 을 사용한다. 각 도메인에 대해 a separate emotion classifier 를 학습시킨다.
    • a multi-task hierarchical model : domain during training 을 사용한다. both domains 에 대해 emotion 을 jointly predict 할 수 있는 a multi-task classifier 를 학습시킨다.
    • testing phase 에서, testing data 는 predicted domain 에 따라 separated 된다.
    • estimated domain 에 상응하는 classifier 를 사용하여, data 가 analyzed 된다.
    • 해당 연구는 directed acyclic graph SVM (DAGSVM) 논문을 채택하여 수행되었다.
uhhyunjoo commented 2 years ago

Proposed Model

uhhyunjoo commented 2 years ago

image

uhhyunjoo commented 2 years ago

Evaluation of the model

uhhyunjoo commented 2 years ago

Dataset

Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS)


7356 개의 RAVDESS files 는 7개의 식별자로 구성된 a unique filename 을 갖고 있다.

uhhyunjoo commented 2 years ago

Enrichment of training data

Deep learning models 는 data의 양에 대해 struggle with 하기 때문에, training and test set 을 enrich 하게 만들기 위한 a pipeline

Metrics, data splitting and experimental runs

uhhyunjoo commented 2 years ago

Discussion of results

image

image

image

image

본 연구진은 결과가 encouragning 하다고 본다.

uhhyunjoo commented 2 years ago
Speech Song
오디오 + 비디오 2880 2024
오디오 1440 1012