tts_infer and the preprocess

adelacvg / NS2VC

Unofficial implementation of NaturalSpeech2 for Voice Conversion and Text to Speech

232 stars 12 forks source link

tts_infer and the preprocess #21

Closed yiwei0730 closed 1 year ago

yiwei0730 commented 1 year ago

你在預處理的時候，把TextGrid中空白區域變成sil，但infer的時候使用的處理卻是使用sp作為替代，似乎是使用未訓練的sp作為空白音的phoneme。我測試的時候，發現似乎sp會因為訓練的問題，導致合成聲音會有滋滋聲。然後想讓您給個建議，我目前35萬步的 200位語者200hr的聲音，但是語料內的語者在使用infer的時候，相似度似乎還是不高，雖然音質都不錯，有沒有什麼訓練上的建議，，以下附上loss的圖片，不過我也看不出這個有什麼訓練上的涵義。

adelacvg commented 1 year ago

我这里实验即使只使用aishell3集内也能比较像，或许可以尝试再加一些spk。另外关于sil和sp的问题您可以自行修改，由于该项目的文本前端借用了fs2的，十分不完善，但为了兼容mfa只能暂时保留。后续会开发使用mas对齐的代码，对于不同的文本前端有更好的泛用性。

yiwei0730 commented 1 year ago

了解，感謝。 duration部分，mas的部分好像有看到一篇Alignment的文章(One TTS Alignment To Rule Them All)，似乎更新一點，好像也是個實用的alignment work

hexastrayer commented 1 year ago

你在預處理的時候，把TextGrid中空白區域變成sil，但infer的時候使用的處理卻是使用sp作為替代，似乎是使用未訓練的sp作為空白音的phoneme。我測試的時候，發現似乎sp會因為訓練的問題，導致合成聲音會有滋滋聲。然後想讓您給個建議，我目前35萬步的 200位語者200hr的聲音，但是語料內的語者在使用infer的時候，相似度似乎還是不高，雖然音質都不錯，有沒有什麼訓練上的建議，，以下附上loss的圖片，不過我也看不出這個有什麼訓練上的涵義。

Hi，我在训练时diff_loss和您tensoborad图中的一样一直在震荡并没有收敛。请问有什么好的解决办法吗。