Closed opentld closed 1 year ago
stream模式没做VAD,语音太长了,会导致内存溢出。
stream 模式,是不是可以支持任意长的音频?(只要他们不是一次性送进来的,理论上讲,需要 cache 的数据是一定的,不会 oom 吧?)
stream模式没做VAD,语音太长了,会导致内存溢出。
过一段时间,就mm->reset 怎么样?会解决吗?
stream模式没做VAD,语音太长了,会导致内存溢出。
过一段时间,就mm->reset 怎么样?会解决吗?
应该不行,改起来比较麻烦,所以就没给stream模式加VAD。可以试试sherpa-ncnn和sherpa-onnx,里面有最先进的模型,而且支持会更好
stream 模式,是不是可以支持任意长的音频?(只要他们不是一次性送进来的,理论上讲,需要 cache 的数据是一定的,不会 oom 吧?)
paddlespeech的模型,cache是累积的,不是一个固定的窗口,所以会溢出。
stream 模式,是不是可以支持任意长的音频?(只要他们不是一次性送进来的,理论上讲,需要 cache 的数据是一定的,不会 oom 吧?)
paddlespeech的模型,cache是累积的,不是一个固定的窗口,所以会溢出。
这种设计是不是不能支持长时间持续运行?
stream 模式,是不是可以支持任意长的音频?(只要他们不是一次性送进来的,理论上讲,需要 cache 的数据是一定的,不会 oom 吧?)
paddlespeech的模型,cache是累积的,不是一个固定的窗口,所以会溢出。
这种设计是不是不能支持长时间持续运行?
恩,不支持。只是支持每句话的流式,不是每段话的流式。
stream模式没做VAD,语音太长了,会导致内存溢出。
过一段时间,就mm->reset 怎么样?会解决吗?
应该不行,改起来比较麻烦,所以就没给stream模式加VAD。可以试试sherpa-ncnn和sherpa-onnx,里面有最先进的模型,而且支持会更好
试了一下,reset是可以的,只是会丢字...
stream 模式,是不是可以支持任意长的音频?(只要他们不是一次性送进来的,理论上讲,需要 cache 的数据是一定的,不会 oom 吧?)
paddlespeech的模型,cache是累积的,不是一个固定的窗口,所以会溢出。
这种设计是不是不能支持长时间持续运行?
恩,不支持。只是支持每句话的流式,不是每段话的流式。
模型是这么设计的,还是他们的实现有这个限制? 可以不可以改掉呢?
stream模式没做VAD,语音太长了,会导致内存溢出。
过一段时间,就mm->reset 怎么样?会解决吗?
应该不行,改起来比较麻烦,所以就没给stream模式加VAD。可以试试sherpa-ncnn和sherpa-onnx,里面有最先进的模型,而且支持会更好
其实是可以的,只需要一点小编程技巧 ;)
stream模式没做VAD,语音太长了,会导致内存溢出。
过一段时间,就mm->reset 怎么样?会解决吗?
应该不行,改起来比较麻烦,所以就没给stream模式加VAD。可以试试sherpa-ncnn和sherpa-onnx,里面有最先进的模型,而且支持会更好
其实是可以的,只需要一点小编程技巧 ;)
什么小编程技巧呀?语音切片么?
问题出在这一句:
报0x0000005异常,读取了禁止读取的内存
每次都是sum累加到665040就出错,是音频问题?还是有bug了?
@chenkui164 大佬请关注一下