Speech Emotion Recognition (SER) 에서 추가적인 noise 는 해당 시스템을 저하시킨다.
이전 연구들의 대부분은 noise degradation 을 siganl level 이나 feature level 에서 다뤘었다.
본 논문에서는 SER 에서의 추가적인 노이즈의 robustness aspect 를 해결하기 위해, an utterance level parametric Generative nosie model 을 사용하여 multi-conditioning 과 data augmentatino 을 할 것을 제안한다.
해당 Generative noise model 은 mel-filterbank enery domain 에서의 전체 noise space 를 확장시킬 수 있는 noise types 를 생성하도록 설계되었다.
이러한 특성은, SER 시스템을 unseen noise condition 에 대해 robust 하도록 만들어준다.
생성된 noise types 는 SER 시스템을 학습시키기 위한 multi-conditioned data 를 생성하는 데 사용될 수 있다.
Multi-conditioning 방식은 학습 데이터를 몇 배로 증가시킬 수도 있다.
제안된 모델의 성능을 EmoDB 와 IEMOCAP 데이터셋에 대해 report 했다.
또한, NOISEX-92 database 의 noise samples 를 사용하여 multi-conditioning 과 datat augmentation 에 대해 탐색하기도 하였다.