hccho2 / Tacotron-Wavenet-Vocoder-Korean

Tacotron, Korean, Wavenet-Vocoder, Korean TTS
MIT License
172 stars 64 forks source link

Wavenet-Vocoder 학습 관련 문의드립니다 #7

Open ailuropoda0 opened 4 years ago

ailuropoda0 commented 4 years ago

안녕하세요, 구현해주신 코드 잘 사용하고 있습니다. 감사합니다.

Tacotron으로는 꽤 쓸만하게 성능이 나와서 잘 활용하고 있습니다. 보다 음질을 높이기 위해 Wavenet Vocoder도 테스트해보고 있는데 600k까지 학습해보니, 거의 잡음만 출력되다가 일부 부분에서만 음성이 출력됩니다. Loss는 5 이상에서 더이상 수렴을 하지 않는 거 같습니다.

245k까지 Wavenet Vocoder를 학습하신 결과를 보니, 음질은 안 좋지만 결과는 어느 정도 나오는데 그때의 loss가 어느 정도였는지 기억하시나요?

또, Wavenet Vocoder로 학습하는 과정이 제가 이해한 게 맞는지 확인해주실 수 있으신가요?

  1. 원하는 데이터셋으로 Wavenet Vocoder를 학습함(train_wavenet.py)
  2. 기존에 학습한 Tacotron 모델로 원하는 text를 음성으로 합성함(synthesizer.py)
  3. 2과정에서 생긴 npy 파일을 기반으로 Wavenet 모델로 음성을 생성함(generate.py) (1과 2의 Wavenet과 Tacotron 모델은 동일한 데이터셋으로 학습했습니다.)

감사합니다.

ocean-park commented 4 years ago

저는 이렇게 나오는데, @ailuropoda0 께서는 어떤지 공유 가능하신가요? 데이터는 10시간 정도 분량입니다

step 136178 - loss = 6.033, (1.035 sec/step)