main 分支的 api_v2 推理速度过慢

BobReal0822 commented 2 months ago

听说 v2 速度变快了，测试了一下：

使用最新的 main 分支的 api_v2 推理，汉字 60 字左右需要 5-7秒，这个速度比 fast 分支慢很多，batch_size 已经开到了 8。

bug 吗？

ChasonJiang commented 2 months ago

慢很多是多少？能提供详细的测试数据嘛？我这边测试下来是没有明显变慢

qmxwby commented 2 months ago

慢很多是多少？能提供详细的测试数据嘛？我这边测试下来是没有明显变慢

测试下来，感觉和api.py速度差不多，api_v2我看用了并行推理，主要提升在哪些方面。

ChasonJiang commented 2 months ago

慢很多是多少？能提供详细的测试数据嘛？我这边测试下来是没有明显变慢

测试下来，感觉和api.py速度差不多，api_v2我看用了并行推理，主要提升在哪些方面。

@qmxwby api.py现在的推理速度优化本来也不错了，在较短的文本时，api_v2的优势不是很明显，几乎持平，甚至超越，但是在长文本时，api_v2就比api.py快了数倍！

ChasonJiang commented 2 months ago

比如在下列文本中，api.py的推理时长约60秒，但api_v2却只花了约10秒！ api.py api_v2

本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.

qmxwby commented 2 months ago

慢很多是多少？能提供详细的测试数据嘛？我这边测试下来是没有明显变慢

测试下来，感觉和api.py速度差不多，api_v2我看用了并行推理，主要提升在哪些方面。

@qmxwby api.py现在的推理速度优化本来也不错了，在较短的文本时，api_v2的优势不是很明显，几乎持平，甚至超越，但是在长文本时，api_v2就比api.py快了数倍！

明白你的意思，在整体推理返回音频的话api_v2的并行效果很有优势，不过实际落地场景其实多的还是实时性流式推理，似乎api_v2的提升不大。主要还是首包延迟没法很好的降低，以及接口的吞吐量。不知道你是否有用过多卡推理尝试过，我准备迁移到多卡环境试一下，看是否有提升。或者有用什么推理引擎尝试吗，比如ONNX和TensorRT

ChasonJiang commented 2 months ago

慢很多是多少？能提供详细的测试数据嘛？我这边测试下来是没有明显变慢

测试下来，感觉和api.py速度差不多，api_v2我看用了并行推理，主要提升在哪些方面。

@qmxwby api.py现在的推理速度优化本来也不错了，在较短的文本时，api_v2的优势不是很明显，几乎持平，甚至超越，但是在长文本时，api_v2就比api.py快了数倍！

明白你的意思，在整体推理返回音频的话api_v2的并行效果很有优势，不过实际落地场景其实多的还是实时性流式推理，似乎api_v2的提升不大。主要还是首包延迟没法很好的降低，以及接口的吞吐量。不知道你是否有用过多卡推理尝试过，我准备迁移到多卡环境试一下，看是否有提升。或者有用什么推理引擎尝试吗，比如ONNX和TensorRT

@qmxwby api_v2也有流式返回（句子级别）。不太懂你说的首包延迟是指什么

qmxwby commented 2 months ago

首包延迟指的是调用流式接口，第一次接收到语音包的延迟时间。目前测试下来采用所有标点符号的切分方式，首包延迟平均在3~4s，这其实在生产环境中已经属于延迟较大的情况。需要做优化降低延迟时间。

qmxwby commented 2 months ago

慢很多是多少？能提供详细的测试数据嘛？我这边测试下来是没有明显变慢

测试下来，感觉和api.py速度差不多，api_v2我看用了并行推理，主要提升在哪些方面。

@qmxwby api.py现在的推理速度优化本来也不错了，在较短的文本时，api_v2的优势不是很明显，几乎持平，甚至超越，但是在长文本时，api_v2就比api.py快了数倍！

明白你的意思，在整体推理返回音频的话api_v2的并行效果很有优势，不过实际落地场景其实多的还是实时性流式推理，似乎api_v2的提升不大。主要还是首包延迟没法很好的降低，以及接口的吞吐量。不知道你是否有用过多卡推理尝试过，我准备迁移到多卡环境试一下，看是否有提升。或者有用什么推理引擎尝试吗，比如ONNX和TensorRT

@qmxwby api_v2也有流式返回（句子级别）。不太懂你说的首包延迟是指什么

另外我想问一下，api_v2相比于api_v1的核心是不是构造batch_size，使得模型可以批量推理。 api_v1的batch_size相当于固定为1，api_v2可以根据自己的显存自行设置。

ChasonJiang commented 2 months ago

首包延迟指的是调用流式接口，第一次接收到语音包的延迟时间。目前测试下来采用所有标点符号的切分方式，首包延迟平均在3~4s，这其实在生产环境中已经属于延迟较大的情况。需要做优化降低延迟时间。

@qmxwby 我刚做的测试没有发现首包延迟大于其他后续包（稳定以后），你能提供一下你的测试数据吗？顺便，刚启动的时候，首包的推理时间是不稳定的，需要“热身”，后续就稳定了

ChasonJiang commented 2 months ago

另外我想问一下，api_v2相比于api_v1的核心是不是构造batch_size，使得模型可以批量推理。 api_v1的batch_size相当于固定为1，api_v2可以根据自己的显存自行设置。

@qmxwby 是的

ChasonJiang commented 2 months ago

下列是测试参数： { "text": " 我画的不是帽子，是一条巨蟒在消化着一头大象。于是我又把巨蟒肚子里的情况画了出来，以便让大人们能够看懂。这些大人总是需要解释。我的第二号作品是这样的：大人们劝我把这些画着开着肚皮的，或闭上肚皮的蟒蛇的图画放在一边，还是把兴趣放在地理、历史、算术、语法上。就这样，在六岁的那年，我就放弃了当画家这一美好的职业。我的第一号、第二号作品的不成功，使我泄了气。这些大人们，靠他们自己什么也弄不懂，还得老是不断地给他们作解释。这真叫孩子们腻味。后来，我只好选择了另外一个职业，我学会了开飞机，世界各地差不多都飞到过。的确，地理学帮了我很大的忙。我一眼就能分辨出中国和亚里桑那。要是夜里迷失了航向，这是很有用的。这样，在我的生活中，我跟许多严肃的人有过很多的接触。我在大人们中间生活过很长时间。我仔细地观察过他们，但这并没有使我对他们的看法有多大的改变。当我遇到一个头脑看来稍微清楚的大人时，我就拿出一直保存着的我那第一号作品来测试测试他。我想知道他是否真的有理解能力。可是，得到的回答总是：“这是顶帽子。”我就不和他谈巨蟒呀，原始森林呀，或者星星之类的事。我只得迁就他们的水平，和他们谈些桥牌呀，高尔夫球呀，政治呀，领带呀这些。于是大人们就十分高兴能认识我这样一个通情达理的人。", "text_lang": "zh", "ref_audio_path": "C:\\Users\\14404\\Downloads\\说话-名字是我自己取的，大家也叫我三月、小三月…你呢？你想叫我什么？.wav", "aux_ref_audio_paths": ["C:\\Users\\14404\\Data\\莫娜-虽然最初是被菲谢尔连拖带拽喊过来的，但在不知不觉中，度过了一个愉快的夏天啊。.wav"], "prompt_text": "名字是我自己取的，大家也叫我三月、小三月…你呢？你想叫我什么？", "prompt_lang": "zh", "text_split_method": "cut5", "streaming_mode":true, "batch_size":20, "parallel_infer":true }

BobReal0822 commented 2 months ago

batch_size

@ChasonJiang 短文本的话，貌似满了2s左右，更多的数据信息我再测试看看哈。

thom802311 commented 2 months ago

@ChasonJiang TTS的run里面要是不开no_grad，有没有办法每次推理一段能把cuda的占用释放掉。

BobReal0822 commented 2 months ago

慢很多是多少？能提供详细的测试数据嘛？我这边测试下来是没有明显变慢

这边测试了一下 V1、V2 的 api_v2，同样的参数（batch_size=8），不同长度的文本速度如下： 74 字平均耗时: V1: 7.8s; V2: 11s; 442字平均耗时：V1: 4.5s; V2: 6s; 1336字已经有点爆显存了，不过平均来看，V1: 65 it/s; V2: 92 it/s

测试的文本如下，不同的字数是截取或者叠加的：

《黑神话：悟空》目前仅上线了 PC 标准版和主机版，支持在 PC 和 PS5 上游玩。但通过云游戏的方式，Mac、手机和电视等设备也可以体验该游戏。例如，华为云联合赞奇上线了《黑神话：悟空》专属云主机，玩家无需下载游戏，只需三步即可开始游玩：注册华为云账号并完成实名认证，返回活动页面选购云工作站套餐，下单后会收到内含赞奇云工作站账号信息的短信提示；下载赞奇超高清云工作站客户端（安装包链接），用短信内置账号密码登录，点击申请桌面选择专属机型；连接专属云主机，登录 steam/wegame 平台（需提前购买游戏），无需下载，即刻开玩。另外，腾讯的 start 云游戏平台支持 Windows、Mac 和电视平台，购买 wegame 版《黑神话：悟空》可赠送免费云游戏时长，能提供至臻 60 帧画质，还能开光追，但不支持安卓平台；网易云游戏也可体验《黑神话：悟空》，其支持多档位的配置选择，包括 Android 和 iOS 设备，不过需要自行购买游戏，新用户有 2 小时免费游戏时长。

ChasonJiang commented 2 months ago

慢很多是多少？能提供详细的测试数据嘛？我这边测试下来是没有明显变慢

这边测试了一下 V1、V2 的 api_v2，同样的参数（batch_size=8），不同长度的文本速度如下： 74 字平均耗时: V1: 7.8s; V2: 11s; 442字平均耗时：V1: 4.5s; V2: 6s; 1336字已经有点爆显存了，不过平均来看，V1: 65 it/s; V2: 92 it/s

测试的文本如下，不同的字数是截取或者叠加的：

《黑神话：悟空》目前仅上线了 PC 标准版和主机版，支持在 PC 和 PS5 上游玩。但通过云游戏的方式，Mac、手机和电视等设备也可以体验该游戏。例如，华为云联合赞奇上线了《黑神话：悟空》专属云主机，玩家无需下载游戏，只需三步即可开始游玩：注册华为云账号并完成实名认证，返回活动页面选购云工作站套餐，下单后会收到内含赞奇云工作站账号信息的短信提示；下载赞奇超高清云工作站客户端（安装包链接），用短信内置账号密码登录，点击申请桌面选择专属机型；连接专属云主机，登录 steam/wegame 平台（需提前购买游戏），无需下载，即刻开玩。另外，腾讯的 start 云游戏平台支持 Windows、Mac 和电视平台，购买 wegame 版《黑神话：悟空》可赠送免费云游戏时长，能提供至臻 60 帧画质，还能开光追，但不支持安卓平台；网易云游戏也可体验《黑神话：悟空》，其支持多档位的配置选择，包括 Android 和 iOS 设备，不过需要自行购买游戏，新用户有 2 小时免费游戏时长。

@BobReal0822 采用的是什么切分方式呢？

ChasonJiang commented 2 months ago

一般使用cut5性能最好

BobReal0822 commented 2 months ago

一般使用cut5性能最好

用的是 cut2，cut5 能快多少呢？

BobReal0822 commented 2 months ago

一般使用cut5性能最好

今天拉了 Main 最新的代码，用上周的数据测试了一下，api_v2 速度可以达到 90 it/s 左右了，但是文本稍微长一些就会卡死（可能是爆显存了）；上周 442 字还能正常运营，这周最新的代码就会卡死（cut2、cut5 都会）。

YuChuanhui3 commented 2 months ago

慢很多是多少？能提供详细的测试数据嘛？我这边测试下来是没有明显变慢

这边测试了一下 V1、V2 的 api_v2，同样的参数（batch_size=8），不同长度的文本速度如下： 74 字平均耗时: V1: 7.8s; V2: 11s; 442字平均耗时：V1: 4.5s; V2: 6s; 1336字已经有点爆显存了，不过平均来看，V1: 65 it/s; V2: 92 it/s

测试的文本如下，不同的字数是截取或者叠加的：

《黑神话：悟空》目前仅上线了 PC 标准版和主机版，支持在 PC 和 PS5 上游玩。但通过云游戏的方式，Mac、手机和电视等设备也可以体验该游戏。例如，华为云联合赞奇上线了《黑神话：悟空》专属云主机，玩家无需下载游戏，只需三步即可开始游玩：注册华为云账号并完成实名认证，返回活动页面选购云工作站套餐，下单后会收到内含赞奇云工作站账号信息的短信提示；下载赞奇超高清云工作站客户端（安装包链接），用短信内置账号密码登录，点击申请桌面选择专属机型；连接专属云主机，登录 steam/wegame 平台（需提前购买游戏），无需下载，即刻开玩。另外，腾讯的 start 云游戏平台支持 Windows、Mac 和电视平台，购买 wegame 版《黑神话：悟空》可赠送免费云游戏时长，能提供至臻 60 帧画质，还能开光追，但不支持安卓平台；网易云游戏也可体验《黑神话：悟空》，其支持多档位的配置选择，包括 Android 和 iOS 设备，不过需要自行购买游戏，新用户有 2 小时免费游戏时长。

硬件配置是多少呢

BobReal0822 commented 1 month ago

一般使用cut5性能最好

提升了 batch_size，用更多的数据测试了一下，V2 速度确实不错，整体上略高于 V1，前面大概没做好控制变量。感谢耐心回复 @ChasonJiang

RVC-Boss / GPT-SoVITS

main 分支的 api_v2 推理速度过慢 #1523