SMART-TTS / SMART-Multi-Speaker-Style-TTS

Multi-speaker & Multi-style TTS
GNU General Public License v3.0
28 stars 8 forks source link

기술문서를 본 뒤에 질문이 있습니다. #2

Closed seastar105 closed 2 years ago

seastar105 commented 2 years ago

먼저, 좋은 오픈 소스 감사합니다.

기술 문서의 1번의 다 항목에서 타겟 화자의 다른 문장을 random sampling하여 훈련을 진행했다고 되어 있는데 어떤 세팅으로 진행하셨는지 알려주실 수 있을까요?

일단 저는 화자 A의 발화가 utt1, utt2, utt3, ..., , uttN 처럼 있다면 훈련시에 utt1이 타겟일 때 1~N 중에 하나를 골라서 reference로 사용했다는 뜻으로 이해했습니다. 이 때 궁금한게 utt1의 reference는 매번 바뀌게 세팅하셨나요? 처음에는 2가 ref, 그 다음엔 6이 ref 이런식으로 바뀌면서 학습을 진행했는지 궁금합니다.

하나만 더 여쭤보고 싶은게 random reference audio sampling을 사용해서 텍스트와 스타일과의 disentanglement를 도모한다고 하셨는데 혹시 이를 적용하지 않은 것과 적용한 것의 차이를 정리한 결과물이 있을까요? 어느 정도 유의미한 시도였는지 궁금합니다.

SMART-TTS commented 2 years ago

안녕하세요! 저희 프로젝트에 관심 가져주셔서 정말 감사드립니다.

먼저 말씀하신것과 같이 훈련시 utt1이 타겟일때 utt1~N 중 하나를 고르는것이 맞습니다. 또한, utt1이 다음 epoch에 나타났을때, reference는 새로 sampling 되도록 코드가 짜여있습니다. 본 프로젝트의 data_utils.py 코드에서 random_ref를 서치하여 트레이스 해보시면 조금 더 정확히 어떤방식으로 구현되었는지 확인하실 수 있습니다.

마지막으로 이를 적용한 것과 적용하지 않은 것을 수치적으로 정리는 따로 해 보진 않았고, infer한 샘플들을 통해 확인한 정도로 보시면 될것 같습니다.

관심 가져주셔서 감사합니다 :)