modelscope / FunASR

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.
https://www.funasr.com
Other
4.97k stars 541 forks source link

识别结果存在循环输出或输出混乱问题 #1674

Open WjMessi1 opened 2 months ago

WjMessi1 commented 2 months ago

🐛 Bug

当我在模型仓库iic/speech_paraformer_asr_nat-zh-cn-8k-common-vocab8358-tensorflow1的网页端,测试一条音频(33秒)

https://github.com/WjMessi1/Error_wav_and_model/blob/9236ef24d466dbd973c63722ff105e3cb3598f8b/test_wav_overfit.wav

总是会把之后识别的结果,重复插入到之前的某个位置(如下图中的新庄新南新村),怀疑是输出结果时存在问题,导致输出顺序混乱。

下面测试的这句话,准确的label应该是: 中华人民共和国。你们一直莫名其妙的。八七七四。五零七。电话卡。销售。踢皮球。啥状态啊?不诈骗。注销。揭阳市。两天。核验完。参与参与一点。就是点进去以后。这个莘庄莘南新村。莘庄,莘南新村。

ad0076a5d131ba11ff036a1bd6e15cb

当我用自己finetune训练的模型测试时,也会遇见这个问题:

471d046e2e8f1c568607ddcdb83838e

Environment

LauraGPT commented 2 months ago

I have tested the 16k model:

'text': '中华人民共和国,你们一直莫名其妙的八七七四不明确电话卡销售踢皮球啥状态啊的诈骗注销揭阳市两篇核验完参与参与一点就是点进去以后,这个新庄新南新村辛庄西南新村。

We suggest you to use the 16k model.

WjMessi1 commented 2 months ago

I have tested the 16k model:

'text': '中华人民共和国,你们一直莫名其妙的八七七四不明确电话卡销售踢皮球啥状态啊的诈骗注销揭阳市两篇核验完参与参与一点就是点进去以后,这个新庄新南新村辛庄西南新村。

We suggest you to use the 16k model.

好的,谢谢解答!请问对于8k的模型,就是会存在这样的问题吗?