[BUG:API] stream流式api特别慢 - Githubissues

lenML / Speech-AI-Forge

🍦 Speech-AI-Forge is a project developed around TTS generation model, implementing an API Server and a Gradio-based WebUI.

https://huggingface.co/spaces/lenML/ChatTTS-Forge

GNU Affero General Public License v3.0

710 stars 87 forks source link

[BUG:API] stream流式api特别慢 #138

Closed xiaozhu1106 closed 1 month ago

xiaozhu1106 commented 1 month ago

确认清单

[X] 我已经阅读过 README.md 和 dependencies.md 文件
[X] 我已经确认之前没有 issue 或 discussion 涉及此 BUG
[X] 我已经确认问题发生在最新代码或稳定版本中

Forge Commit 或者 Tag

v0.7.0

Python 版本

3.10

PyTorch 版本

2.3.0

操作系统信息

Linux

BUG 描述

stream流式api特别慢，基本最快都是2秒左右才开始返回。使用了api和提供的playground的stream测试页面，效果都是一样的

BUG 端点

v1/xtts_v2/tts_stream以及/v1/tts(参数stream:True)

复现参数

http://localhost:7870/v1/xtts_v2/tts_stream?text=你好，这是一个测试。你好，这是一个测试。你好，这是一个测试。你好，这是一个测试。你好，这是一个测试。你好，这是一个测试&speaker_wav=female2

期望结果

1秒内开始流式输出

实际结果

2秒后才开始流式输出

错误信息

No response

zhzLuke96 commented 1 month ago

fixed 9c1473b540f0beac708c797dd91e7a70ab81cbe2

应该能解决一点问题，xtts默认format使用raw不进行ffmpeg编码+减少 tokenizer 延迟

但是延迟是肯定有的

chattts 流式生成 chunk 大小不能太小，不然vocos输出质量很差，所以肯定做不到生成一个字就返回流式结果
其次，生成结果设置了 format 的话，模型合成结果还需要经过 ffmpeg 编码成 mp3/ogg 之类的也有无法减少的延迟

如果还有问题可以继续评论这个issue，暂时标 quickfix

zhzLuke96 commented 1 month ago

ref #148 和这个问题相关

已修复