nl8590687 / ASRT_SpeechRecognition

A Deep-Learning-Based Chinese Speech Recognition System 基于深度学习的中文语音识别系统
https://asrt.ailemon.net
GNU General Public License v3.0
7.77k stars 1.89k forks source link

请问特征提取中为什么要进行“除以音频长度”这一步? #236

Closed gloriashy closed 3 years ago

gloriashy commented 3 years ago

QQ图片20210428190429 QQ图片20210428190522 想要请教博主,为什么在图中的特征提取部分需要除音频的长度呢? 第二张图的上面是没有除音频长度的语谱图,下面是同一条音频的对应除了音频长度的语谱图。 如果是为了让语音的特征更加明显,为什么不以一个确定的值作为分母,而使用一个每一条音频都不一样的音频长度作为分母呢? 自己没有思考清楚其中的原理,想请教博主是出于什么样的考虑这样做?非常感谢您百忙之中抽空回答。

nl8590687 commented 3 years ago

算是一种归一化吧,不过这个也可以去掉的