HGU-DLLAB / Korean-FastSpeech2-Pytorch

Implementation of Korean FastSpeech2
MIT License
210 stars 50 forks source link

남성 목소리 synthesis 이슈 #15

Closed lsh950919 closed 3 years ago

lsh950919 commented 3 years ago

안녕하세요.

현재 제가 올려주신 모델을 남성 목소리에 대해 적용하려고 하고 있는 과정 중인데, custom dataset을 사용하려면 VocGAN도 같이 훈련을 시켜줘야 하는지 여쭤보고 싶습니다.

데이터셋은 여기에서 가져왔으며, transcript가 빠져있는 파일들이 많아 Google STT API를 사용해 훈련하고 있었습니다.

그런데 훈련 자체는 성공적이고, Tensorboard를 보면 loss도 어느정도 안정화가 되어 보입니다. 화면 캡처 2021-06-03 155031

그런데 synthesize.py를 실행하여 결과물을 들어보면, 말투같은 부분은 잘 되지만 목소리가 거의 학습되지 않고 계속 기계가 말하는 듯한 소리만 나옵니다.

이 repository를 다시 살펴보던 중 VocGAN을 kss dataset에 대해 훈련한 pretrained 모델을 사용하는 것으로 나오는데, 이 문제 때문에 발생하는 이슈일까 싶어서 여쭤보고 싶습니다.

감사합니다.

Jackson-Kang commented 3 years ago

@lsh950919 님께,

안녕하세요.

말씀하신대로 VocGAN은 여성 화자의 음성만을 포함하고 있는 kss dataset으로만 학습이 되었습니다. 그러므로 한국어 남성 화자의 목소리를 포함하고 있는 dataset으로 학습한 Vocoder 모델이 존재해야 원하시는 결과를 얻으실 수 있을 듯 합니다.

또한, vocoder 학습 모델을 교체하여도, 사전학습에 사용된 dataset이 여성이므로, 남성 스타일을 전이하는데 큰 도움이 되지 않을 수 있습니다.

권장드리는 바는 public dataset 중 아래 dataset을 사용하여 vocoder 혹은 FastSpeech2 학습을 권하는 바입니다.

답변이 도움이 되셨으면 합니다. 감사합니다.

lsh950919 commented 3 years ago

오 음성 데이터 자료 정말 감사합니다!

VocGAN repo에서 multi speaker pretrained 모델을 다운로드 받아 사용했더니 목소리가 제대로 나왔습니다.

알려주신 데이터도 한번 사용해서 pretrained 모델을 만들 수 있는지 시도 해보겠습니다.

감사합니다!

Jackson-Kang commented 3 years ago

음질 개선을 위해서는, 실제 사용할 데이터를 vocoder 학습에 포함시키는 것이 좋습니다. 도움이 되셨으면 합니다.

감사합니다.

lsh950919 commented 3 years ago

@Jackson-Kang 위에 말씀하신 부분은 vocoder의 pretrained 모델에 실제 사용되는 데이터를 fine-tuning 시켜야 음질 개선에 도움이 된다는 말씀이실까요?

Jackson-Kang commented 3 years ago

@Jackson-Kang 위에 말씀하신 부분은 vocoder의 pretrained 모델에 실제 사용되는 데이터를 fine-tuning 시켜야 음질 개선에 도움이 된다는 말씀이실까요?

안녕하세요 @lsh950919 님,

먼저, 제가 답변을 명확히 드리지 않아 혼란스러우셨던 점 양해부탁드립니다. 질문주신 사항에 답변드립니다.

말씀하신 것과는 별개로 (꼭 전이학습을 사용하지 않으시더라도), 학습시 vocoder가 다양한 목소리에 노출이 되어야 (다양한 음성에 대해 좋은 음질의 음성을 생성할 수 있는) 일반화 능력(generalization ability)이 좋아진다는 의미였습니다.

감사합니다.