Tacotron으로는 꽤 쓸만하게 성능이 나와서 잘 활용하고 있습니다.
보다 음질을 높이기 위해 Wavenet Vocoder도 테스트해보고 있는데
600k까지 학습해보니, 거의 잡음만 출력되다가 일부 부분에서만 음성이 출력됩니다.
Loss는 5 이상에서 더이상 수렴을 하지 않는 거 같습니다.
245k까지 Wavenet Vocoder를 학습하신 결과를 보니, 음질은 안 좋지만 결과는 어느 정도 나오는데
그때의 loss가 어느 정도였는지 기억하시나요?
또, Wavenet Vocoder로 학습하는 과정이 제가 이해한 게 맞는지 확인해주실 수 있으신가요?
원하는 데이터셋으로 Wavenet Vocoder를 학습함(train_wavenet.py)
기존에 학습한 Tacotron 모델로 원하는 text를 음성으로 합성함(synthesizer.py)
2과정에서 생긴 npy 파일을 기반으로 Wavenet 모델로 음성을 생성함(generate.py)
(1과 2의 Wavenet과 Tacotron 모델은 동일한 데이터셋으로 학습했습니다.)
안녕하세요, 구현해주신 코드 잘 사용하고 있습니다. 감사합니다.
Tacotron으로는 꽤 쓸만하게 성능이 나와서 잘 활용하고 있습니다. 보다 음질을 높이기 위해 Wavenet Vocoder도 테스트해보고 있는데 600k까지 학습해보니, 거의 잡음만 출력되다가 일부 부분에서만 음성이 출력됩니다. Loss는 5 이상에서 더이상 수렴을 하지 않는 거 같습니다.
245k까지 Wavenet Vocoder를 학습하신 결과를 보니, 음질은 안 좋지만 결과는 어느 정도 나오는데 그때의 loss가 어느 정도였는지 기억하시나요?
또, Wavenet Vocoder로 학습하는 과정이 제가 이해한 게 맞는지 확인해주실 수 있으신가요?
감사합니다.