Closed gloriashy closed 3 years ago
想要请教博主,为什么在图中的特征提取部分需要除音频的长度呢? 第二张图的上面是没有除音频长度的语谱图,下面是同一条音频的对应除了音频长度的语谱图。 如果是为了让语音的特征更加明显,为什么不以一个确定的值作为分母,而使用一个每一条音频都不一样的音频长度作为分母呢? 自己没有思考清楚其中的原理,想请教博主是出于什么样的考虑这样做?非常感谢您百忙之中抽空回答。
算是一种归一化吧,不过这个也可以去掉的
想要请教博主,为什么在图中的特征提取部分需要除音频的长度呢? 第二张图的上面是没有除音频长度的语谱图,下面是同一条音频的对应除了音频长度的语谱图。 如果是为了让语音的特征更加明显,为什么不以一个确定的值作为分母,而使用一个每一条音频都不一样的音频长度作为分母呢? 自己没有思考清楚其中的原理,想请教博主是出于什么样的考虑这样做?非常感谢您百忙之中抽空回答。