Labmem-Zhouyx / CDFSE_FastSpeech2

The Official Implementation of “Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis”
MIT License
81 stars 12 forks source link

你好,关于AIshell3数据的训练问题 #5

Open xiangkanghuang opened 1 year ago

xiangkanghuang commented 1 year ago

你好,使用AISHELL-3数据集按照readme进行训练,loss的图如下,尝试推理但是不能合成出正常声音,请问是为什么呢? text/symbols.py已经更改为中文的。 image image

Labmem-Zhouyx commented 1 year ago

你好,合成不出声音我推测是因为训练并未合理收敛,看图中这次训练的loss仍存在很大问题,不仅是分类器的性能(phone/speaker loss)还是声学模型方面(mel/duration/pitch/energy loss)。

正常loss曲线可参考下图 image image

xiangkanghuang commented 1 year ago

你好,合成不出声音我推测是因为训练并未合理收敛,看图中这次训练的loss仍存在很大问题,不仅是分类器的性能(phone/speaker loss)还是声学模型方面(mel/duration/pitch/energy loss)。

正常loss曲线可参考下图 image image 谢谢,已经修复了,是因为安装环境的版本没有对

yyz845935161 commented 1 year ago

我也遇到的同样的问题,按照requirements.txt中的版本安装,可是有些包的某些函数已经被遗弃,请问python版本,还有其他包的版本应该怎么选