Open pengpengtao opened 4 months ago
得设置输入长度呢
得设置输入长度呢
有参考例子吗
你这个模型是动态的输入,你要么设置几个动态输入,要么把onnx的shape固定一下
我设置动态输入好像不管用,如果固定onnx的shape,那么文字长度也固定,感觉不合适
是的,所以他是不太合适转rknn的
是的,所以他是不太合适转rknn的
我好像已经解决了,支持任意长度的文字输出音频
这么强?莫非是用了pad?还是mask?
用了pad,比onnx快了4倍
最长能推理多长的文本? 文本过短的时候是不是要浪费后面那么多token了
30s是没有问题,具体多长没测试过,只要模型能支持的最大长度应该都能达到。如果文本过短确实会浪费token,但是浪费比较少,我测试了一个字的token和音频长度,然后设置的阈值是74,如果切段z_p的长度小于74才padding,所以并不会浪费很多。阈值也可以设置55,但是我听起来有点不自然。可能需要根据不同的模型,设置不同的阈值,我尝试了0-256的阈值
太强了
最好的解决方案是 后置编码器和声码器按chunk导出,毕竟前端不费资源,后端可以流式生成
最好的解决方案是 后置编码器和声码器按chunk导出,毕竟前端不费资源,后端可以流式生成
你说得对
最好的解决方案是 后置编码器和声码器按chunk导出,毕竟前端不费资源,后端可以流式生成
你说得对
我确实是这样做的,这样在npu上可以跑比较大的模型
30s是没有问题,具体多长没测试过,只要模型能支持的最大长度应该都能达到。如果文本过短确实会浪费token,但是浪费比较少,我测试了一个字的token和音频长度,然后设置的阈值是74,如果切段z_p的长度小于74才padding,所以并不会浪费很多。阈值也可以设置55,但是我听起来有点不自然。可能需要根据不同的模型,设置不同的阈值,我尝试了0-256的阈值
请问你导出是int8量化么,int8量化后的模型有很明显的噪声你是怎么解决的
30s是没有问题,具体多长没测试过,只要模型能支持的最大长度应该都能达到。如果文本过短确实会浪费token,但是浪费比较少,我测试了一个字的token和音频长度,然后设置的阈值是74,如果切段z_p的长度小于74才padding,所以并不会浪费很多。阈值也可以设置55,但是我听起来有点不自然。可能需要根据不同的模型,设置不同的阈值,我尝试了0-256的阈值
请问你导出是int8量化么,int8量化后的模型有很明显的噪声你是怎么解决的
估计是fp16
30s是没有问题,具体多长没测试过,只要模型能支持的最大长度应该都能达到。如果文本过短确实会浪费token,但是浪费比较少,我测试了一个字的token和音频长度,然后设置的阈值是74,如果切段z_p的长度小于74才padding,所以并不会浪费很多。阈值也可以设置55,但是我听起来有点不自然。可能需要根据不同的模型,设置不同的阈值,我尝试了0-256的阈值
请问你导出是int8量化么,int8量化后的模型有很明显的噪声你是怎么解决的
没试过int8,
--> Config model done --> Loading model I It is recommended onnx opset 19, but your onnx model opset is 13! I Model converted from pytorch, 'opset_version' should be set 19 in torch.onnx.export for successful convert! I Loading : 100%|███████████████████████████████████████████| 1892/1892 [00:00<00:00, 293803.15it/s] E load_onnx: The input shape ['N', 'T'] of 'tokens' is not support! Please set the 'inputs' / 'input_size_list' parameters of 'rknn.load_onnx', or set the 'dyanmic_input' parameter of 'rknn.config' to fix the input shape! I ===================== WARN(0) ===================== E rknn-toolkit2 version: 2.0.0b0+9bab5682 E load_onnx: Catch exception when loading onnx model: /mnt/f/7_8/vits/python-api-examples/vits-icefall-zh-aishell3/model.onnx! E load_onnx: Traceback (most recent call last): E load_onnx: File "rknn/api/rknn_base.py", line 1546, in rknn.api.rknn_base.RKNNBase.load_onnx E load_onnx: File "rknn/api/rknn_base.py", line 764, in rknn.api.rknn_base.RKNNBase._create_ir_and_inputs_meta E load_onnx: File "rknn/api/rknn_log.py", line 92, in rknn.api.rknn_log.RKNNLog.e E load_onnx: ValueError: The input shape ['N', 'T'] of 'tokens' is not support! E load_onnx: Please set the 'inputs' / 'input_size_list' parameters of 'rknn.load_onnx', or set the 'dyanmic_input' parameter of 'rknn.config' to fix the input shape!