wenet-e2e / wenet

Production First and Production Ready End-to-End Speech Recognition Toolkit
https://wenet-e2e.github.io/wenet/
Apache License 2.0
3.87k stars 1.03k forks source link

降噪之后的音频推理准确度下降 #2522

Open MiningIrving opened 1 month ago

MiningIrving commented 1 month ago

我有一个需求需要在噪音环境中使用ASR进行转录,这些噪音处于高噪环境中,针对于以上需求我对wenet进行了一系列的噪音实验,发现了如下现象: 我向我的音频中添加SNR=1dB的白噪音后,不通过降噪其CER为4.55% 降噪之后其CER为28.12%,向降噪之后的音频加入4000~8000频率的白噪音再进行ASR推理,其准确度上升到7.67%。 在我的需求中,我确实需要使用到降噪模块,以保证VAD的准确性,我该如何对ASR进行改进,以达到人可以听清的时候,ASR也能转录正确。 是需要使用降噪后的数据进行微调吗,还是有其他方法

fclearner commented 1 month ago

端到端训练呗,asr去适应降噪模块,前端大佬们说任何软件层面的降噪都是对asr有损的

fclearner commented 1 month ago

可以把两个任务分开呢吗,一个是可以听(降噪)的音频,一个是用于识别的音频,asr可以加一些线上数据(带噪)去训练