keonlee9420 / Cross-Speaker-Emotion-Transfer

PyTorch Implementation of ByteDance's Cross-speaker Emotion Transfer Based on Speaker Condition Layer Normalization and Semi-Supervised Training in Text-To-Speech
MIT License
181 stars 26 forks source link

Reasons for using HiFi-GAN or MelGAN as vocoder #17

Open BEOMSEOK-K opened 9 months ago

BEOMSEOK-K commented 9 months ago

I am curious as to why you used HiFi-GAN or MelGAN rather than the vocoder (WaveRNN) described in the paper.

안녕하세요, 코드를 공유해주셔서 감사합니다. 저는 본 코드에서 논문에 기재되어 있는 vocoder (WaveRNN)가 아닌 HiFi-GAN 또는 MelGAN을 쓴 이유에 대해서 궁금합니다. 성능이나 트렌드 등의 이유로 인해 사용하셨는지 궁금합니다. 감사합니다.