Open mayuanyang opened 1 year ago
自己录制的麦克风数据的采样率是什么样的?与预训练数据相同吗
自己录制的麦克风数据的采样率是什么样的?与预训练数据相同吗
有尝试过16k,24k还有42k,但是效果都差不多
This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.
尝试用tts_finetune的模式去做广东话克隆,声音是像的,可是就是电流声大,训练数据是来自于自己的麦克风录音,训练数据听起来很清晰的,可是finetune出来的结果就是大“震音/电流音”, 尝试用其他TTS生成的wav和差不多的量作为训练题材,克隆出来的效果很不错。请问效果不好是因为录音问题吗?
Finetune的步骤
这个是训练出来的样本 170.wav.zip