Open mozeqiu123 opened 3 weeks ago
对于那种现场环境的录音识别不好。音频有杂音就会漏识别和错误识别,估计还是要录音室的音频才能准确识别吧
由于技术报告还未公布,从现有的配置文件中发现:
speed_perturb: false spec_aug: false
缺少一定的数据增强,在加上只有8种方言的1396h的监督数据,鲁棒性应该是欠缺的。后续等待官方开源30种方言微调的模型 https://github.com/Tele-AI/TeleSpeech-ASR/issues/6。
对于那种现场环境的录音识别不好。音频有杂音就会漏识别和错误识别,估计还是要录音室的音频才能准确识别吧