adelacvg / NS2VC

Unofficial implementation of NaturalSpeech2 for Voice Conversion and Text to Speech
232 stars 12 forks source link

tts_infer and the preprocess #21

Closed yiwei0730 closed 1 year ago

yiwei0730 commented 1 year ago

你在預處理的時候,把TextGrid中空白區域變成sil,但infer的時候使用的處理卻是使用sp作為替代,似乎是使用未訓練的sp作為空白音的phoneme。 我測試的時候,發現似乎sp會因為訓練的問題,導致合成聲音會有滋滋聲。 然後想讓您給個建議,我目前35萬步的 200位語者200hr的聲音,但是語料內的語者在使用infer的時候,相似度似乎還是不高,雖然音質都不錯,有沒有什麼訓練上的建議,,以下附上loss的圖片,不過我也看不出這個有什麼訓練上的涵義。 image

adelacvg commented 1 year ago

我这里实验即使只使用aishell3集内也能比较像,或许可以尝试再加一些spk。另外关于sil和sp的问题您可以自行修改,由于该项目的文本前端借用了fs2的,十分不完善,但为了兼容mfa只能暂时保留。后续会开发使用mas对齐的代码,对于不同的文本前端有更好的泛用性。

yiwei0730 commented 1 year ago

了解,感謝。 duration部分,mas的部分好像有看到一篇Alignment的文章(One TTS Alignment To Rule Them All),似乎更新一點,好像也是個實用的alignment work

hexastrayer commented 1 year ago

你在預處理的時候,把TextGrid中空白區域變成sil,但infer的時候使用的處理卻是使用sp作為替代,似乎是使用未訓練的sp作為空白音的phoneme。 我測試的時候,發現似乎sp會因為訓練的問題,導致合成聲音會有滋滋聲。 然後想讓您給個建議,我目前35萬步的 200位語者200hr的聲音,但是語料內的語者在使用infer的時候,相似度似乎還是不高,雖然音質都不錯,有沒有什麼訓練上的建議,,以下附上loss的圖片,不過我也看不出這個有什麼訓練上的涵義。 image

Hi,我在训练时diff_loss和您tensoborad图中的一样一直在震荡并没有收敛。请问有什么好的解决办法吗。