PaddlePaddle / PaddleSpeech

Easy-to-use Speech Toolkit including Self-Supervised Learning model, SOTA/Streaming ASR with punctuation, Streaming TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting. Won NAACL2022 Best Demo Award.
https://paddlespeech.readthedocs.io
Apache License 2.0
11.21k stars 1.86k forks source link

[TTS]小样本微调,参考一句PaddleSpeech/examples/other/tts_finetune /tts3/在thchs30数据集上微调,loss降到1.5就不降了,且推理时候能学到微调数据集的声色,但是生成的语音有沙沙的杂声,请问是哪里出现了问题呢 #3667

Open balicheng opened 10 months ago

balicheng commented 10 months ago

基于PaddleSpeech/examples/other/tts_finetune /tts3/的readme,在中英混合模型上,如果从BZNSYP中选出来3k条语音微调am模型,loss可以下降到0.7左右,且用微调模型合成语音,声音比较清晰,同样用aishell3的数据集的某个人的声音的多条数据微调,推理模型合成的声音也很清晰,没有沙沙的声音; 但是用上述方法,在thchs30上选了250个同一个人的语音进行微调,微调后推理模型合成的语音存在沙沙的声音,又从thchs30中选出1000条同一个人的音色的数据微调,微调后loss仍然在1.5左右,且推理合成的声音中存在沙沙的声音,但是能学到微调数据中的音色。

请问大佬们,上述是哪里出现了问题呢

zxcd commented 10 months ago

采样率不一致的问题。BZNSYP的采样率是48k的,aishell3 是 44.1kHz, thchs30是16k的,对tts来说会比较低。

balicheng commented 10 months ago

采样率不一致的问题。BZNSYP的采样率是48k的,aishell3 是 44.1kHz, thchs30是16k的,对tts来说会比较低。

那么针对在thchs30数据集上微调存在沙沙的噪声,loss只能降到1.6左右的情况,定位到是采样率不同的问题的话,请问应该修改哪个参数解决沙沙的噪声?在是在生成mfa结果的时候修改采样率相关参数还是在微调am时候修改采样率相关参数呢?还是说我重采样thchs30是16k成48k,提升在thchs30上的微调效果解决沙沙的问题呢