ZaVang / GPT-SoVits

MIT License
19 stars 2 forks source link

有几个小问题想请教一下。 #8

Closed himmeled closed 6 months ago

himmeled commented 6 months ago

大佬您好,我有几个问题想请教一下:

1、在使用您的代码进行inference的时候,生成的语音第一句常常被吞掉了,这是自回归导致的么?重复抽卡亦如此。比如文字:

As the sun rose slowly over the horizon, painting the sky with a vibrant array of oranges and reds, I found myself standing on the edge of a new journey. The world around me seemed to awaken, each sound and sight bringing a sense of excitement and anticipation. The gentle breeze carried the scent of fresh earth and distant flowers, reminding me of the possibilities that lay ahead. 其中As the sun rose slowly over the horizon在生成的语音中没有被包含。

2、在句中若出现吞字或重复的现象时,我有修改top_k和top_p的值,会有一定改善,对于这两个参数的值定义您有更好的建议吗?

3、如果我选取一段500字左右的中文进行infer,最后生成的会是一段胡话,啥也听不清,这个您有什么建议吗?

4、在gpt和sovits模型训练时epoch和bs参数您有什么好的建议吗?

5、onnx进行推理的问题,好像原项目没有onnx推理的代码,可以麻烦大佬指点下吗?

ZaVang commented 6 months ago

大佬您好,我有几个问题想请教一下:

1、在使用您的代码进行inference的时候,生成的语音第一句常常被吞掉了,这是自回归导致的么?重复抽卡亦如此。比如文字:

As the sun rose slowly over the horizon, painting the sky with a vibrant array of oranges and reds, I found myself standing on the edge of a new journey. The world around me seemed to awaken, each sound and sight bringing a sense of excitement and anticipation. The gentle breeze carried the scent of fresh earth and distant flowers, reminding me of the possibilities that lay ahead. 其中As the sun rose slowly over the horizon在生成的语音中没有被包含。

2、在句中若出现吞字或重复的现象时,我有修改top_k和top_p的值,会有一定改善,对于这两个参数的值定义您有更好的建议吗?

3、如果我选取一段500字左右的中文进行infer,最后生成的会是一段胡话,啥也听不清,这个您有什么建议吗?

4、在gpt和sovits模型训练时epoch和bs参数您有什么好的建议吗?

5、onnx进行推理的问题,好像原项目没有onnx推理的代码,可以麻烦大佬指点下吗?

我自己跑的时候倒是没出现过一整句被吞掉的情况,吞掉一些词倒是有,重新抽卡能改善一点。然后我自己一般也是一句一句跑的,我没试过一次跑500字这么长,你有试过先切分再跑吗。topp和topk的话我一般是默认不动的,一般来说调低的话会更加倾向于输出固定的情感语调,但是这也不一定是最好的。 至于epoch和bs得看你的数据集了,我自己的话数据集比较少,一般就bs=16,epoch基本25以内都能调的差不多,这方面我也没有进行太多的尝试。onnx部分我可能之后会补一下吧。

himmeled commented 6 months ago

大佬您好,我有几个问题想请教一下: 1、在使用您的代码进行inference的时候,生成的语音第一句常常被吞掉了,这是自回归导致的么?重复抽卡亦如此。比如文字: As the sun rose slowly over the horizon, painting the sky with a vibrant array of oranges and reds, I found myself standing on the edge of a new journey. The world around me seemed to awaken, each sound and sight bringing a sense of excitement and anticipation. The gentle breeze carried the scent of fresh earth and distant flowers, reminding me of the possibilities that lay ahead. 其中As the sun rose slowly over the horizon在生成的语音中没有被包含。 2、在句中若出现吞字或重复的现象时,我有修改top_k和top_p的值,会有一定改善,对于这两个参数的值定义您有更好的建议吗? 3、如果我选取一段500字左右的中文进行infer,最后生成的会是一段胡话,啥也听不清,这个您有什么建议吗? 4、在gpt和sovits模型训练时epoch和bs参数您有什么好的建议吗? 5、onnx进行推理的问题,好像原项目没有onnx推理的代码,可以麻烦大佬指点下吗?

我自己跑的时候倒是没出现过一整句被吞掉的情况,吞掉一些词倒是有,重新抽卡能改善一点。然后我自己一般也是一句一句跑的,我没试过一次跑500字这么长,你有试过先切分再跑吗。topp和topk的话我一般是默认不动的,一般来说调低的话会更加倾向于输出固定的情感语调,但是这也不一定是最好的。 至于epoch和bs得看你的数据集了,我自己的话数据集比较少,一般就bs=16,epoch基本25以内都能调的差不多,这方面我也没有进行太多的尝试。onnx部分我可能之后会补一下吧。

好的,我试下切分再跑,感谢大佬的回复。