huakunyang / SummerTTS

SummerTTS 是一个基于C++的独立编译的中文和英文语音合成项目,可以本地运行不需要网络,而且没有额外的依赖,一键编译完成即可用于中文和英文的语音合成。SummerTTS is a standalone Chinese and English speech synthesis(TTS) project that has almost no dependency and could be easily used for Chinese TTS with just one key build out
401 stars 72 forks source link

关于TTS文本的变量 #32

Closed 5m1le71ger closed 10 months ago

5m1le71ger commented 10 months ago

比如有下面这一段话: 您的小型汽车xxxxxx被交通技术监控设备记录,请立即驶离。 x的部分是车牌号,是动态的变量,其余部分是固定不变的。

如果直接转换这句话,会因为长句而导致延时太长。 一般的做法是,固定不变的部分先生成并保存好,动态的部分由TTS即时转换,然后依次播放这三部分的语音文件。 但是这又会导致拼接的部分放音不流畅。

有没有一种可能,将“您的小型汽车”的生成的语音文件保存下来后,同时也将其内部的上下文数据也保存下来,当需要即时生成车牌号语音的时候,就根据这上下文数据进行生成,这样子语音就能流畅起来了。

huakunyang commented 10 months ago

蛮有意思的想法,基于RNN的模型应该可以作到这点,但目前的方案基于vits,地层使用transformer/attention,所以其实没有时间序列上的中间状态。