Closed rockbenben closed 11 months ago
用 CJE 模型和 400 段中文短音频进行 1000 次训练后,短句听起来蛮清晰的了,但长句发音依然很含糊。
例如,在 样例.zip 文件中,短句「这是一款入门很难,精通更难的游戏,但精通之后可以花式虐电脑。」的生成语音时长为 6 秒,相对清晰。但当将两个相同的短句重复形成长句时,生成的语音时长仅为 9 秒,发音特别含糊。
我打算继续训练至 5000 次,观察长句的发音清晰度是否会有所改善。大家有没有其他的建议能改善长句的发音问题?
经过5000次训练后,效果仍然没有改善。我猜我可能过度修改了语料文本,一些语音并没有被Whisper识别,但我已经做了标注。
准备重新检查,重新录音
用 CJE 模型和 400 段中文短音频进行 1000 次训练后,短句听起来蛮清晰的了,但长句发音依然很含糊。
例如,在 样例.zip 文件中,短句「这是一款入门很难,精通更难的游戏,但精通之后可以花式虐电脑。」的生成语音时长为 6 秒,相对清晰。但当将两个相同的短句重复形成长句时,生成的语音时长仅为 9 秒,发音特别含糊。
我打算继续训练至 5000 次,观察长句的发音清晰度是否会有所改善。大家有没有其他的建议能改善长句的发音问题?