降噪之后的音频推理准确度下降

wenet-e2e / wenet

Production First and Production Ready End-to-End Speech Recognition Toolkit

Apache License 2.0

3.87k stars 1.03k forks source link

我有一个需求需要在噪音环境中使用ASR进行转录，这些噪音处于高噪环境中，针对于以上需求我对wenet进行了一系列的噪音实验，发现了如下现象：我向我的音频中添加SNR=1dB的白噪音后，不通过降噪其CER为4.55% 降噪之后其CER为28.12%，向降噪之后的音频加入4000~8000频率的白噪音再进行ASR推理，其准确度上升到7.67%。在我的需求中，我确实需要使用到降噪模块，以保证VAD的准确性，我该如何对ASR进行改进，以达到人可以听清的时候，ASR也能转录正确。是需要使用降噪后的数据进行微调吗，还是有其他方法

wenet-e2e / wenet

降噪之后的音频推理准确度下降 #2522