请教音频特征归一化问题

zhchen18 commented 2 years ago

尊敬的开发者您好！

非常感谢您贡献M-SENA框架，相信这会有力推进MSA领域的发展。

最近在使用MMSA-FET提取音频特征时，发现如opensmile里的eGeMAPSv02 set，其特征向量在某些维度的值非常大(>1000)。但在MMSA框架里似乎并未对音频特征进行归一化，MMDataset.__normalize()更像是一个平均池化操作。想请教您，如何在不影响其他特征维度特异性的前提下，对这些大值特征进行归一化？

非常感谢。

FlameSky-S commented 2 years ago

您好，感谢您对我们工作的关注。

MMDataset.__normalize()不是音频特征归一化，当前MMSA框架中没有特征归一化的代码。

如何在不影响其他特征维度特异性的前提下，对这些大值特征进行归一化？

对于音频特征，在语音领域一般是在时序上进行归一化操作。如果这些数值比较大的特征维度（主要是F1频率，F2频率，F3频率）影响了模型训练，可以考虑剔除这几个维度。或者进行特征维度上的归一化（会影响特征在时序上的效果），这个要看具体需求和取舍了。

zhchen18 commented 2 years ago

了解，非常感谢您的回复！

thuiar / MMSA-FET

请教音频特征归一化问题 #12