adelacvg / NS2VC

Unofficial implementation of NaturalSpeech2 for Voice Conversion and Text to Speech
223 stars 12 forks source link

diff-vits vs NS2 tts-v2 #26

Open yiwei0730 opened 9 months ago

yiwei0730 commented 9 months ago

想要請教您幾個問題

  1. 想請問diff-vits這個項目與ns2 tts-v2的差別在哪裡 目前粗略看過去以及以前有看到,似乎是將主模型改成vits但留下了naturalspeech的架構?
  2. 我在tts-v2的模型中測試了一個1500+音色 600+hr的訓練資料集,測試集外數據還是會有大部分不太相似的情況。 是否真如論文所測試,需要更大量的數據集才能有集外的泛化性效果。您認為大概需要多少小時和多少資料以上的音色才能有較好的結果。
  3. 想請問您覺得MFA所預測出來的ground-truth duration與利用MAS預測出來的duration 兩者的差別在哪,您似乎比較偏好於MAS的預測系統。
adelacvg commented 9 months ago
  1. 如你所说,主要区别就是tts-v2前级和fs2类似而diff-vits前级和vits类似,diff-vits主要是为了防止音素字典被mfa模型约束,因为mfa的训练与标注还是一个比较麻烦的事情。具体效果的话我认为tts-v2的duration是更稳定的,diff-vits目前测下来duration还有些问题。
  2. 模型有一定泛化性但是并不特别多,想要有好的泛化最好还是用更多样的数据去训练,我并不知道需要多少数据才能有好的zero shot效果,如果有特定的目标fine tune是最好的选择。
  3. mfa很稳定但需要标注与训练,mas与模型一同训练但不是很容易收敛。我偏向于更简单的流程准备数据并训练end2end模型,但事实上mfa可能效果更好更稳定。
yiwei0730 commented 9 months ago

感謝回復,我也是在mas和mfa之間想做個取捨,mfa處理過程複雜,mas收斂可能不容易,我看似乎lucidrain大神使用另一種AlignerNet : One TTS Alignment To Rule Them All。