CjangCjengh / MoeGoe

Executable file for VITS inference
MIT License
2.33k stars 249 forks source link

请问大佬有尝试过 tacotron2,fastspeech2 等模型的效果吗? #3

Closed sixyang closed 2 years ago

sixyang commented 2 years ago

我最近也有这样的想法,因为gal语料很多,但是准备想用 fastspeech2或者tacotron2来尝试的,不知道大佬之前是否有做过调研?还是看这个模型出的比较近,感觉效果会更好一点?

CjangCjengh commented 2 years ago

tacotron2有之前的视频里有试过,因为需要单独训练解码器,所以效果不是很理想

sixyang commented 2 years ago

请问可以透露一下训练数据有多少?能开放训练过程吗?谢谢! 了解到 VITS 的训练成本好像挺高的,paddleSpeech 那边在 csmsc 数据集上训练用 4 个GPU 训练了两周效果都不怎么好。

CjangCjengh commented 2 years ago

大概三万条语句,数据集的话由于牵涉到版权问题不方便在github上公开