왜 tacotron2 만 학습해도 합성이 되는건가요?

hccho2 / Tacotron2-Wavenet-Korean-TTS

Korean TTS, Tacotron2, Wavenet

MIT License

165 stars 96 forks source link

왜 tacotron2 만 학습해도 합성이 되는건가요? #7

Open gateoneh92 opened 5 years ago

gateoneh92 commented 5 years ago

tacotron2로 text에서 mel을 추측하고 wavenet으로 audio를 생성하는데 tacotron2만 학습해도 합성이 되는 이유는 무엇인가요?

gateoneh92 commented 5 years ago

그리고 이 모델은 gpu 메모리를 차지하지 않나요?

jarvis08 commented 5 years ago

지나가다 들렀습니다. 작성자는 아닙니다.. 원래 Tacotron-2 모델 자체도 음성 합성 네트워크이지만, 보다 자연스러운 합성을 위해 WaveNet을 추가한 것입니다. gpu 메모리는 학습시에 엄청나지만, 학습 후 Inference 단계에서는 그렇지 않은걸로 알고 있습니다. 이부분은 carpedm20님의 Tacotron-1을 이용한 multi-speaker 네트워크에서 확인해 봤습니다.

jarvis08 commented 5 years ago

wavenet 미사용시 default vocoder로 griffin lim을 사용할 것 같은데, 그부분은 작성자님께서 확인을..

hccho2 commented 5 years ago

tacotron이 mel spectrogram을 만들고, griffin-lim vocoder가 음성(wav 파일)을 만듭니다.

tacotron이 만든 mel spctrogram을 wavenet에 넣어도 음성을 만들 수 있습니다.

paman2 commented 4 years ago

python synthesizer.py --load_path logdir-tacotron2/moon_2020-04-09_17-42-32 --num_speakers 2 --speaker_id 0 --text "당신을 사랑해요"

라고 했는데,,, train결과만 ("먼저~~~") 이름 음성만 wav 파일에 저장이 됩니다 "당신을 사랑해요" 라는 음성이 저장이 되지 않는데 이건 어떻게 해결해야 하나요? 지나가시는 분들도 알려주시면 감사합니다