Artrajz / vits-simple-api

A simple VITS HTTP API, developed by extending Moegoe with additional features.
GNU Affero General Public License v3.0
807 stars 119 forks source link

最后有0.5-1s的时间是没声音的, 有点冗余, 怎么处理掉 #85

Closed guojishuo closed 1 year ago

Artrajz commented 1 year ago

可以详细说下吗。

是不是推理长文本时,才会有的0.5-1s没声音。

guojishuo commented 1 year ago

image http://127.0.0.1:23456/voice/vits?text=%E6%88%91%E6%98%AF%E4%B8%80%E4%B8%AA%E6%99%BA%E8%83%BD%E8%AF%AD%E9%9F%B3%E5%B0%8F%E5%8A%A9%E6%89%8B&id=142&format=wav&lang=zh&length=1.4 调用如上接口, 获取到的音频文件, 在1s时就念完所有的东西了, 但音频是2s的长度

guojishuo commented 1 year ago

可以详细说下吗。

是不是推理长文本时,才会有的0.5-1s没声音。

因为应用场景是将长文本按标点拆分成多段语句, 依次调用接口获取音频, 但因每段音频都有0.5s的空白冗余, 整体流式播放时, 每段音频之间停顿感太明显了, 体验有点差

guojishuo commented 1 year ago

为啥关掉了

Artrajz commented 1 year ago

呃,因为我在提交的时候引用了这个issues,它就自动关掉了,不过那个提交也是修复了这个问题,你可以看下

guojishuo commented 1 year ago

好的, 膜拜大佬