기술문서를 본 뒤에 질문이 있습니다.

SMART-TTS / SMART-Multi-Speaker-Style-TTS

Multi-speaker & Multi-style TTS

GNU General Public License v3.0

28 stars 8 forks source link

먼저, 좋은 오픈 소스 감사합니다.

기술 문서의 1번의 다 항목에서 타겟 화자의 다른 문장을 random sampling하여 훈련을 진행했다고 되어 있는데 어떤 세팅으로 진행하셨는지 알려주실 수 있을까요?

일단 저는 화자 A의 발화가 utt1, utt2, utt3, ..., , uttN 처럼 있다면 훈련시에 utt1이 타겟일 때 1~N 중에 하나를 골라서 reference로 사용했다는 뜻으로 이해했습니다. 이 때 궁금한게 utt1의 reference는 매번 바뀌게 세팅하셨나요? 처음에는 2가 ref, 그 다음엔 6이 ref 이런식으로 바뀌면서 학습을 진행했는지 궁금합니다.

하나만 더 여쭤보고 싶은게 random reference audio sampling을 사용해서 텍스트와 스타일과의 disentanglement를 도모한다고 하셨는데 혹시 이를 적용하지 않은 것과 적용한 것의 차이를 정리한 결과물이 있을까요? 어느 정도 유의미한 시도였는지 궁금합니다.

안녕하세요! 저희 프로젝트에 관심 가져주셔서 정말 감사드립니다.

먼저 말씀하신것과 같이 훈련시 utt1이 타겟일때 utt1~N 중 하나를 고르는것이 맞습니다. 또한, utt1이 다음 epoch에 나타났을때, reference는 새로 sampling 되도록 코드가 짜여있습니다. 본 프로젝트의 data_utils.py 코드에서 random_ref를 서치하여 트레이스 해보시면 조금 더 정확히 어떤방식으로 구현되었는지 확인하실 수 있습니다.

마지막으로 이를 적용한 것과 적용하지 않은 것을 수치적으로 정리는 따로 해 보진 않았고, infer한 샘플들을 통해 확인한 정도로 보시면 될것 같습니다.

관심 가져주셔서 감사합니다 :)

SMART-TTS / SMART-Multi-Speaker-Style-TTS

기술문서를 본 뒤에 질문이 있습니다. #2