求助, 关于文字数量影响生成音频的速度问题

Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion

Apache License 2.0

4.65k stars 698 forks source link

感觉应该是跟你的显卡内存大小有很大关系。我自己的环境觉得没有太大问题，2080Ti 22GB显存，除了第一次点击生成音频是比较慢(感觉应该是加载模型的时间），其他时候都挺快的。比如，以下这段文件，包含标点是92个字，点一下"生成"按钮，很快就出来了，估计不用0.5秒。之前用1080Ti 11GB的时候也是差不多这样的感觉。

一定要进行校对，看看系统自动判断的汉字是不是跟声音文件能对得上，以提高最后的效果 2 使用一个长语音文件，让系统自动切割成小段的语音的时候，更容易出现标注不准确的情况，需要好好地确认。

Plachtaa / VITS-fast-fine-tuning

求助, 关于文字数量影响生成音频的速度问题 #578