转写长音频（20分钟以上）的时候，会出现大量的叠字 - Githubissues

modelscope / FunASR

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

https://www.funasr.com

Other

7.04k stars 752 forks source link

转写长音频（20分钟以上）的时候，会出现大量的叠字 #2150

Open sipeter opened 1 month ago

sipeter commented 1 month ago

在转写长音频（20分钟以上）的时候，会出现大量的叠字，回放音频，发现一般出现在：

一句话出现短暂的停顿，会把上一个字重复输出一次，比如：提醒出发，醒停顿了一下，就会识别为提醒醒出发；
把上一个词的前一个字，错误的识别为上一个词的后一个字，比如：微博留言，会识别为：微博博言；以下是我的模型配置：叠字截图：测试音频（转写后，用正则表达式：(.)\1 可以查看叠字现象）：

MA005_测试.zip

其他测试过的模型： speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch 也存在这个问题。总结以下规律：‘

同一段音频，用faster whisper 不会出现这么高频率的叠字现象；
将音频截取出小段，可以消除叠字现象；
不是所有音频都遇到这个问题。

Environment

OS (e.g., Linux): windows 10
FunASR Version (e.g., 1.0.0): 1.1.12
ModelScope Version (e.g., 1.11.0): 1.15
PyTorch Version (e.g., 2.0.0): 2.1.2
How you installed funasr (pip, source):
Python version: 3.9
GPU (e.g., V100M32) 4070
CUDA/cuDNN version (e.g., cuda11.7): CU118
Docker version (e.g., funasr-runtime-sdk-cpu-0.4.1)
Any other relevant information: