keonlee9420 / Expressive-FastSpeech2

PyTorch Implementation of Non-autoregressive Expressive (emotional, conversational) TTS based on FastSpeech2, supporting English, Korean, and your own languages.
Other
267 stars 46 forks source link

장문의 합성에서 원활한 합성이 안됩니다 #3

Closed eastjin218 closed 2 years ago

eastjin218 commented 3 years ago

공공데이터 아닌 개별 데이터로 학습을 진행하였습니다. 60자 이상의 장문의 합성에서 원활한 합성이 안됩니다. 혹시 데이터가 문제 일까요?? 아니면 데이터의 양이 문제일까요?? 현재 데이터의 발화시간은 1시간 10분 가량입니다.selvas의 공공데이터(각 발화데이터 총 1시간 가량으로 15명)와 합쳐서 합성을 진행하였는데. 제가 추가한 데이터에서만 장문의 생성시 뒤로 갈수록 목소리가 원활하게 되지 못합니다. 무엇을 확인해보면 될까요?? 감사합니다

keonlee9420 commented 3 years ago

일반적인 기준에서 1시간 정도의 데이터는 충분하지 않아보입니다. 더군다나 공공데이터에서는 긴 문장에서도 합성이 잘 된다면 개별 데이터가 너무 작아서 생긴 문제로 볼 수 있습니다. 그게 아니라면 max_seq_len을 늘려보세요. 다만, 이에 따라 메모리 사용량이 증가해 batch size를 줄이셔야 할 수 있습니다.

keonlee9420 commented 2 years ago

Close the issue due to the inactivity. you can reopen it anytime if you have issues.