Closed Moon-sung-woo closed 3 years ago
안녕하세요! 질문해 주신 내용에 답변 드립니다.
말씀해 주신 내용이 맞습니다. 더 덧붙이자면, Voice Conversion은 source speech를 target speaker의 목소리로 전환하는 작업입니다. any to many는 학습 과정에서 보지 못했던 speaker의 음성을 source speech로 넣어주는 것이고, many to many는 학습에 사용했었던 speaker의 음성을 source speech로 넣어주는 것입니다.
네 맞습니다. Multispeaker dataset으로 pretrain된 vocoder를 말씀해주신 assem-vc를 통과한 mel로 finetuning하는 방식입니다. "ground truth-aligned"이라는 wording은 Tacotron2 논문에서 처음 제시되었으며, 최근에는 HiFi-GAN 논문에서도 같은 방식을 사용하는 등 TTS에서 간혹 사용되던 기법이었습니다.
Thank you for your interest in our work!
안녕하세요! 음성합성을 공부하고 있는 학생입니다.
논문 잘 읽었습니다! 샘플 오디오를 들으면서 엄청난 성능에 깜짝 놀랐습니다.
제가 VC논문을 처음 읽어 모르는 것이 생겨 질문을 하게 되었습니다.
many to many, any to many가 뭔지를 모르겠습니다. 제가 이해하기로는 many to many가 학습에 사용했었던 speaker를 inference시에도 사용한것이고 any to many가 학습에서 보지 못했던 speaker를 inference 시에 사용한 것이 맞는지 모르겠습니다 ㅠㅠ
GTA finetuning에 대해서 찾아봤는데 마땅한 내용을 찾지 못했습니다. 제가 논문을 읽고 이해하기로는 원래 학습시킨 모델에 추가적으로 assem-vc를 통과한 mel을 더 추가적으로 finetuning 하는것이 맞는지 여쭤보고 싶습니다.
감사합니다.