된소리 발음이 잘 안되는 이슈

안녕하세요. SMART-Multi-Speaker-Style-TTS의 모델로 AI hurb에 있는 감정음성 데이터셋을 사전학습을 시켰는데, 무엇이 잘못된 것인지 된소리 발음이 잘 발화가 안되는 경향이 있습니다. 원인으로 인풋 텍스트를 cleaned를 안해서 그런 것으로 추정하고 있는데 config.json에 "cleaned_text":false 로 되어 있더군요. 또 models.py에서 TextEncoder 클래스에서 attention.Encoder를 사용하지 않고 wavenet_layer로 구현되어 있는 점도 영향이 있을까 고민이 됩니다. 인풋 텍스트를 음소 단위로 넣는 부분(ex: 안녕하세요-> ㅇㅏㄴㄴㅕㅇㅎㅏㅅㅔㅇㅛ)과 TextEncoder에서 attention.Encoder 사용하는 부분에 대해 조언을 구합니다. 가능하시다면 filelists의 샘플 파일도 공유부탁드립니다.

SMART-TTS / SMART-Multi-Speaker-Style-TTS

된소리 발음이 잘 안되는 이슈 #5