Open EbanShen opened 3 months ago
请问不同片段之间有重叠部分吗
请问不同片段之间有重叠部分吗
输入片段是由麦克风采集获得的,每个输入片段之间是没有重叠部分的
请问不同片段之间有重叠部分吗
输入片段是由麦克风采集获得的,每个输入片段之间是没有重叠部分的
我也是这个问题,我觉得应该就是不重叠分帧导致的
同样吞字,想看看你是怎么写的推理
请问不同片段之间有重叠部分吗
输入片段是由麦克风采集获得的,每个输入片段之间是没有重叠部分的
我也是这个问题,我觉得应该就是不重叠分帧导致的
尝试过使用缓存保留部分历史数据,与新数据一起送入推理引擎,然后每次取固定部位的数据返回,但每次返回的片段依然会有衔接不上的问题。
同样吞字,想看看你是怎么写的推理
我目前就是用历史缓存+新数据送入推理引擎,每次返回取前面部分,但依然会有衔接不上的问题
目前在尝试用libtorch复刻RVC的处理流程。 之前用onnxruntime推理onnx模型,不知道是不是小引擎对某些算子不支持,所以小片段推理问题较多。
目前在尝试用libtorch复刻RVC的处理流程。 之前用onnxruntime推理onnx模型,不知道是不是小引擎对某些算子不支持,所以小片段推理问题较多。
意思是不用onnx 单纯用torch推理 衔接效果还不错吗
目前在尝试用libtorch复刻RVC的处理流程。 之前用onnxruntime推理onnx模型,不知道是不是小引擎对某些算子不支持,所以小片段推理问题较多。
据我所知 Google开源的神经音频编解码器Lyra 如果用官方给的tflite 是可以不重叠分帧直接流式在线推理的 生成音频没有任何不连贯的感觉 但是如果转成onnx用onnx推理 生成音频会很吵
环境: RVC版本:https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI.git -- RVC的git仓库最新提交版本 使用以下脚本导出的onnx:https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/blob/main/tools/export_onnx.py 原模型为rvc自带的keruanV1.pth,导出模型为keruanV1.onnx,确认生成的是动态模型。
现象: 由于是做实时变声推理,因此每次送入模型的数据片段会很短,大概7200个采样。但输出的数据片段并不能很好的衔接在一起。如:片段A、B、C,在从麦克风进来后,三个数据片段的声音是连续的,但从变声器出来后,听感上A会高一些,B会低一些,而且三个片段的衔接处也无法丝滑过渡,会导致衔接处播放时产生噪音。实际听感就是,变声后的声音会周期性出现“点点点”的声音。
所做的尝试:
请问是否有什么办法,能让每次推理的数据片段能衔接起来,让声音连续呢?