单人语料和多人语料训练效果有差异

Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion

Apache License 2.0

4.65k stars 698 forks source link

刚玩这个的时候我只用了一个音色语料训练了200个迭代。后来我又重新来了一次训练，相比第一次多加了小团团和康辉的语料，同样是训练200次迭代。

结果两个模型中都有的那个speaker_id效果有差异，能明显感觉到三个语料一起训练的模型效果更差，具体体现在语句停顿上，该停的不停不该停的停。

我以为不同speaker_id的数据在训练时不应该有相互作用影响呀，那如果有影响，在多人训练时候该如何掌控各自效果？还是说即使是单语料训练每次同样的迭代出来的效果都不尽相同？

Plachtaa / VITS-fast-fine-tuning