请问特征提取中为什么要进行“除以音频长度”这一步？

QQ图片20210428190429 QQ图片20210428190522 想要请教博主，为什么在图中的特征提取部分需要除音频的长度呢？第二张图的上面是没有除音频长度的语谱图，下面是同一条音频的对应除了音频长度的语谱图。如果是为了让语音的特征更加明显，为什么不以一个确定的值作为分母，而使用一个每一条音频都不一样的音频长度作为分母呢？自己没有思考清楚其中的原理，想请教博主是出于什么样的考虑这样做？非常感谢您百忙之中抽空回答。

nl8590687 / ASRT_SpeechRecognition

请问特征提取中为什么要进行“除以音频长度”这一步？ #236