Artrajz / vits-simple-api

A simple VITS HTTP API, developed by extending Moegoe with additional features.
GNU Affero General Public License v3.0
777 stars 116 forks source link

软件启动时间太长了,平均需要25秒,能否缩短启动时间呢? #159

Closed XDesktopSoft closed 1 month ago

XDesktopSoft commented 4 months ago

运行环境

问题描述

在我的RTX4060Ti 16GB显存台式机上,本软件启动到可用平均需要花费25-30秒,

问题复现步骤

双击Windows一键包中的Start.bat文件启动软件,启动后等待软件加载完毕大概需要25-30秒时间。 能否缩短这个时间呢?

另外,Windows一键包在朗读了英文和日文后会在data\bert\chinese-roberta-wwm-ext-large等文件夹下自动下载 1.3GB大小的pytorch_model.bin,有好几个,这样导致整个包实际超过12GB了,能否减小整个包的文件大小呢? 感谢楼主制作分享,期待更多优化

Artrajz commented 4 months ago

双击Windows一键包中的Start.bat文件启动软件,启动后等待软件加载完毕大概需要25-30秒时间。 能否缩短这个时间呢?

启动慢是因为把多音词典加载和语种识别库的加载放到初始化的过程中了,这样做的目的是减少第一次推理所需要的时间。同时还有bert模型和其他模型的加载也会增加耗时。如果不减少bert模型,目前是没什么好的办法缩短初始化时间的。

Windows一键包在朗读了英文和日文后会在data\bert\chinese-roberta-wwm-ext-large等文件夹下自动下载 1.3GB大小的pytorch_model.bin,有好几个,这样导致整个包实际超过12GB了,能否减小整个包的文件大小呢?

chinese-roberta-wwm-ext-large是朗读中文所需要的bert模型。如果要朗读英文日文的话,则需要下载对应的bert模型,这些在程序启动时会自动下载。如果只需要中文,就可以只用中文的bert模型,空间占用也能得到减小,除此之外没办法再减小整个项目的大小了

Artrajz commented 4 months ago

启动慢是因为把多音词典加载和语种识别库的加载放到初始化的过程中了,这样做的目的是减少第一次推理所需要的时间。

如果只用中文的话,或许可以把语种识别库的加载省去

XDesktopSoft commented 4 months ago

双击Windows一键包中的Start.bat文件启动软件,启动后等待软件加载完毕大概需要25-30秒时间。 能否缩短这个时间呢?

启动慢是因为把多音词典加载和语种识别库的加载放到初始化的过程中了,这样做的目的是减少第一次推理所需要的时间。同时还有bert模型和其他模型的加载也会增加耗时。如果不减少bert模型,目前是没什么好的办法缩短初始化时间的。

Windows一键包在朗读了英文和日文后会在data\bert\chinese-roberta-wwm-ext-large等文件夹下自动下载 1.3GB大小的pytorch_model.bin,有好几个,这样导致整个包实际超过12GB了,能否减小整个包的文件大小呢?

chinese-roberta-wwm-ext-large是朗读中文所需要的bert模型。如果要朗读英文日文的话,则需要下载对应的bert模型,这些在程序启动时会自动下载。如果只需要中文,就可以只用中文的bert模型,空间占用也能得到减小,除此之外没办法再减小整个项目的大小了

感谢回复! 如果只使用GPT-SoVITS的话,是否可以选择去掉加载Bert的模型来加快启动速度呢?

Artrajz commented 4 months ago

感谢回复! 如果只使用GPT-SoVITS的话,是否可以选择去掉加载Bert的模型来加快启动速度呢?

GPT-SoVITS也是需要用到chinese-roberta-wwm-ext-large的,也无法去掉。GPT-SoVITS同时也需要加载chinese_hubert_base,这两个都是无法去掉的。