Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.65k stars 698 forks source link

单人语料和多人语料训练效果有差异 #551

Closed tuotuoshao closed 6 months ago

tuotuoshao commented 7 months ago

刚玩这个的时候我只用了一个音色语料训练了200个迭代。后来我又重新来了一次训练,相比第一次多加了小团团和康辉的语料,同样是训练200次迭代。

结果两个模型中都有的那个speaker_id效果有差异,能明显感觉到三个语料一起训练的模型效果更差,具体体现在语句停顿上,该停的不停不该停的停。

我以为不同speaker_id的数据在训练时不应该有相互作用影响呀,那如果有影响,在多人训练时候该如何掌控各自效果?还是说即使是单语料训练每次同样的迭代出来的效果都不尽相同?

tuotuoshao commented 7 months ago

我突然想到我看到别人说过多人语料要保持音色语速差不多。当时我觉得音色要差不多那我还训练多人干嘛,但是语速要求差不多是不是有点道理。

我测试的音色和康辉都是标准普通话速度也差不多,而小团团语料是b站弄下来的,有没有可能是被小团团的不正常断句给影响到了。因为我还训练过一个emo电台主播语料,出来那断句频率就很高。

所以不同speaker_id的数据会影响所有人的效果?