Open WjMessi1 opened 2 months ago
I have tested the 16k model:
'text': '中华人民共和国,你们一直莫名其妙的八七七四不明确电话卡销售踢皮球啥状态啊的诈骗注销揭阳市两篇核验完参与参与一点就是点进去以后,这个新庄新南新村辛庄西南新村。
We suggest you to use the 16k model.
I have tested the 16k model:
'text': '中华人民共和国,你们一直莫名其妙的八七七四不明确电话卡销售踢皮球啥状态啊的诈骗注销揭阳市两篇核验完参与参与一点就是点进去以后,这个新庄新南新村辛庄西南新村。
We suggest you to use the 16k model.
好的,谢谢解答!请问对于8k的模型,就是会存在这样的问题吗?
🐛 Bug
当我在模型仓库iic/speech_paraformer_asr_nat-zh-cn-8k-common-vocab8358-tensorflow1的网页端,测试一条音频(33秒)
https://github.com/WjMessi1/Error_wav_and_model/blob/9236ef24d466dbd973c63722ff105e3cb3598f8b/test_wav_overfit.wav
总是会把之后识别的结果,重复插入到之前的某个位置(如下图中的新庄新南新村),怀疑是输出结果时存在问题,导致输出顺序混乱。
下面测试的这句话,准确的label应该是: 中华人民共和国。你们一直莫名其妙的。八七七四。五零七。电话卡。销售。踢皮球。啥状态啊?不诈骗。注销。揭阳市。两天。核验完。参与参与一点。就是点进去以后。这个莘庄莘南新村。莘庄,莘南新村。
当我用自己finetune训练的模型测试时,也会遇见这个问题:
Environment