Mel-Gan 학습데이터 전처리 관련해서 질문이 있습니다.

안녕하세요 승원님. 먼저 이렇게 좋은 코드 공개해주셔서 감사합니다.
제가 음성합성 경험이 적어서, 기본적일수도 있는 부분에 대해 질문하는 점 사과드립니다.

전에 WaveRNN 보코더를 학습해본 적이 있습니다.
제가 참고해서 사용했던 레포에서는 Vocoder 앞단의 Mel-Predict Network로 생성한 Mel-Spectrogram을 학습용 Mel로 사용을 했습니다.

어차피 앞단에 모델이 고정되어 있다면, 실제로 모델이 생성한 Mel을 사용하는게 신호처리 매커니즘으로 생성한 Mel을 학습에 사용하는 것보다 더 나은 결과를 보이지 않을까 생각하고 있습니다. 이에 대해서 승원님의 의견을 여쭤보고 싶습니다.

또 한가지 여쭤보고 싶은 점은, Vocoder를 단일 화자로 학습할 수도 있지만, 다화자로 학습할 수도 있는데 다화자로 학습시 모델이 생성해내는 음질이 아무래도 떨어질까요?

감사합니다.

seungwonpark / melgan