yeyupiaoling / PPASR

基于PaddlePaddle实现端到端中文语音识别,从入门到实战,超简单的入门案例,超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型
Apache License 2.0
824 stars 129 forks source link

同一个音频实时识别与长语音识别相去甚远。 #154

Closed a00147600 closed 1 year ago

a00147600 commented 1 year ago

长语音识别是正常的。实时识别则部分误差极大。我可以提供我目前的音频。

为了实现以下格式 我不得不使用实时识别 [00:01,00:10]你好,我是某某,请问你是谁谁吗? 长语音使用了vad活动检测,因此难以找到某个时间段的识别效果。请大佬帮忙看一下。

注意到语音活动检测可以输出活动的位置。本问题作废。