lovemefan / telespeech-asr-python

19 stars 2 forks source link

测试了感觉效果不理想 #5

Open mozeqiu123 opened 3 weeks ago

mozeqiu123 commented 3 weeks ago

对于那种现场环境的录音识别不好。音频有杂音就会漏识别和错误识别,估计还是要录音室的音频才能准确识别吧

lovemefan commented 3 weeks ago

由于技术报告还未公布,从现有的配置文件中发现:

speed_perturb: false
spec_aug: false

缺少一定的数据增强,在加上只有8种方言的1396h的监督数据,鲁棒性应该是欠缺的。后续等待官方开源30种方言微调的模型 https://github.com/Tele-AI/TeleSpeech-ASR/issues/6