modelscope / FunASR

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.
https://www.funasr.com
Other
7.04k stars 752 forks source link

转写长音频(20分钟以上)的时候,会出现大量的叠字 #2150

Open sipeter opened 1 month ago

sipeter commented 1 month ago

在转写长音频(20分钟以上)的时候,会出现大量的叠字,回放音频,发现一般出现在:

  1. 一句话出现短暂的停顿,会把上一个字重复输出一次,比如:提醒出发,醒停顿了一下,就会识别为提醒醒出发;
  2. 把上一个词的前一个字,错误的识别为上一个词的后一个字,比如:微博留言,会识别为:微博博言; 以下是我的模型配置: image 叠字截图: image 测试音频(转写后,用正则表达式:(.)\1 可以查看叠字现象):

MA005_测试.zip

其他测试过的模型: speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch 也存在这个问题。 总结以下规律:‘

  1. 同一段音频,用faster whisper 不会出现这么高频率的叠字现象;
  2. 将音频截取出小段,可以消除叠字现象;
  3. 不是所有音频都遇到这个问题。

Environment