同一个音频实时识别与长语音识别相去甚远。

yeyupiaoling / PPASR

基于PaddlePaddle实现端到端中文语音识别，从入门到实战，超简单的入门案例，超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型

Apache License 2.0

824 stars 129 forks source link

Closed a00147600 closed 1 year ago

a00147600 commented 1 year ago

长语音识别是正常的。实时识别则部分误差极大。我可以提供我目前的音频。

为了实现以下格式我不得不使用实时识别 [00:01,00:10]你好,我是某某，请问你是谁谁吗？长语音使用了vad活动检测，因此难以找到某个时间段的识别效果。请大佬帮忙看一下。

注意到语音活动检测可以输出活动的位置。本问题作废。