Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.65k stars 698 forks source link

多条文本并行推理,生成的语音如何确定填充起始点 #582

Closed tuotuoshao closed 1 month ago

tuotuoshao commented 3 months ago

在vc_inference.py示例中,有model.infer(x_tst, x_tst_lengths, sid) 其中 x_tst.size=(1,len), x_tst_lengths.size=1, sid.size=1。

我现在要n条不同长度的文本并行推理,填充完之后 x_tst.size=(n,max_len), x_tst_lengths.size=n, sid.size=n。 最后n条语音也生成了,唯一的问题是只有最长的语音是正常的,其他的语音结尾都有机器音。 问题源自短文本填充,最后生成的语音怎么截取才能完美去掉多余的机器音?推理过程中有产生描述未填充的语音长度的变量吗?