lenML / Speech-AI-Forge

🍦 Speech-AI-Forge is a project developed around TTS generation model, implementing an API Server and a Gradio-based WebUI.
https://huggingface.co/spaces/lenML/ChatTTS-Forge
GNU Affero General Public License v3.0
710 stars 87 forks source link

[BUG:API] stream流式api特别慢 #138

Closed xiaozhu1106 closed 1 month ago

xiaozhu1106 commented 1 month ago

确认清单

Forge Commit 或者 Tag

v0.7.0

Python 版本

3.10

PyTorch 版本

2.3.0

操作系统信息

Linux

BUG 描述

stream流式api特别慢,基本最快都是2秒左右才开始返回。 使用了api和提供的playground的stream测试页面,效果都是一样的

BUG 端点

v1/xtts_v2/tts_stream以及/v1/tts(参数stream:True)

复现参数

http://localhost:7870/v1/xtts_v2/tts_stream?text=你好,这是一个测试。你好,这是一个测试。你好,这是一个测试。你好,这是一个测试。你好,这是一个测试。你好,这是一个测试&speaker_wav=female2

期望结果

1秒内开始流式输出

实际结果

2秒后才开始流式输出

错误信息

No response

zhzLuke96 commented 1 month ago

fixed 9c1473b540f0beac708c797dd91e7a70ab81cbe2

应该能解决一点问题,xtts默认format使用raw不进行ffmpeg编码+减少 tokenizer 延迟

但是延迟是肯定有的

  1. chattts 流式生成 chunk 大小不能太小,不然vocos输出质量很差,所以肯定做不到生成一个字就返回流式结果
  2. 其次,生成结果设置了 format 的话,模型合成结果还需要经过 ffmpeg 编码成 mp3/ogg 之类的也有无法减少的延迟

如果还有问题可以继续评论这个issue,暂时标 quickfix

zhzLuke96 commented 1 month ago

ref #148 和这个问题相关

已修复