Open mikeswf opened 1 month ago
是需要一次性导入.wav文件,还是说也支持边讲话边输出
该模型是离线语音识别模型, 不支持实时语音处理。但可以结合在线识别模型和vad模型,通过2pass的方式达到实时处理的效果,可以参考funasr实时听写部分的图。
再或者直接使用vad模型加该离线语音识别模型,实现边说话边输出,但是观感上有一定的滞后,文字是一句一句蹦出来的。
是需要一次性导入.wav文件,还是说也支持边讲话边输出