Open jark006 opened 1 year ago
谢谢你的建议,你的建议很不错,我空了试一试 edge-tts ,
即使是一种语言,训练数据也需要10小时以上的高清语音,如果是中英文混合,需要的数据量会更大。
另外支持中英文混合有两种方式,一种是只支持英文字母的逐个念,另外一种是中文中完整的英文朗读,后面这种的难度更大,需要在建模单元上的仔细考量。
我空了先试一试edge-tts 看其生成的数据能否达到要求,当然数据许可证的问题不知道有没有,如果方案可行再考虑。
我现在把中英文强行粘合起来了,如果大段中文片段里只有少数英文的话,即使突兀,但至少能听个响 https://github.com/jark006/SummerTTS
建议增加cuda加速
我现在把中英文强行粘合起来了,如果大段中文片段里只有少数英文的话,即使突兀,但至少能听个响 https://github.com/jark006/SummerTTS
请问支持中文和英文字母数字混合吗?
首先,这个项目很棒,很轻量级(相对bark而言)。
但是中英文混合还是硬伤,有没有考虑过用edge-tts来生成训练数据呢? 仅需要收集中英文混合的文本即可,然后用edge-tts生成音频文件。
例如这样, pip安装edge-tts后,就可以直接操作了
要是怕微软商业许可啥的,你可以开源一下训练步骤,我们自己动手