Open gateoneh92 opened 5 years ago
그리고 이 모델은 gpu 메모리를 차지하지 않나요?
지나가다 들렀습니다. 작성자는 아닙니다.. 원래 Tacotron-2 모델 자체도 음성 합성 네트워크이지만, 보다 자연스러운 합성을 위해 WaveNet을 추가한 것입니다. gpu 메모리는 학습시에 엄청나지만, 학습 후 Inference 단계에서는 그렇지 않은걸로 알고 있습니다. 이부분은 carpedm20님의 Tacotron-1을 이용한 multi-speaker 네트워크에서 확인해 봤습니다.
wavenet 미사용시 default vocoder로 griffin lim을 사용할 것 같은데, 그부분은 작성자님께서 확인을..
tacotron이 mel spectrogram을 만들고, griffin-lim vocoder가 음성(wav 파일)을 만듭니다.
tacotron이 만든 mel spctrogram을 wavenet에 넣어도 음성을 만들 수 있습니다.
python synthesizer.py --load_path logdir-tacotron2/moon_2020-04-09_17-42-32 --num_speakers 2 --speaker_id 0 --text "당신을 사랑해요"
라고 했는데,,, train결과만 ("먼저~~~") 이름 음성만 wav 파일에 저장이 됩니다 "당신을 사랑해요" 라는 음성이 저장이 되지 않는데 이건 어떻게 해결해야 하나요? 지나가시는 분들도 알려주시면 감사합니다
tacotron2로 text에서 mel을 추측하고 wavenet으로 audio를 생성하는데 tacotron2만 학습해도 합성이 되는 이유는 무엇인가요?