Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.65k stars 698 forks source link

求助, 关于文字数量影响生成音频的速度问题 #578

Closed zc627788 closed 4 months ago

zc627788 commented 4 months ago

想了解下是否所有的VITS,训练出来的模型,都会有生成音频速度问题,比如一段60字文本,生成需要10几秒,如果数量到达几百字,这样不是需要更长时间了,有什么解决方案吗,求解,感谢!!!

shirubei commented 4 months ago

感觉应该是跟你的显卡内存大小有很大关系。 我自己的环境觉得没有太大问题,2080Ti 22GB显存,除了第一次点击生成音频是比较慢(感觉应该是加载模型的时间),其他时候都挺快的。比如,以下这段文件,包含标点是92个字,点一下"生成"按钮,很快就出来了,估计不用0.5秒。之前用1080Ti 11GB的时候也是差不多这样的感觉。

一定要进行校对,看看系统自动判断的汉字是不是跟声音文件能对得上,以提高最后的效果 2 使用一个长语音文件,让系统自动切割成小段的语音的时候,更容易出现标注不准确的情况,需要好好地确认。

zc627788 commented 4 months ago

感谢解答,我也觉得是,我用得是低端得笔记本,换到高点得配置速度就不一样了