Closed zhchen18 closed 2 years ago
您好,感谢您对我们工作的关注。
MMDataset.__normalize()不是音频特征归一化,当前MMSA框架中没有特征归一化的代码。
如何在不影响其他特征维度特异性的前提下,对这些大值特征进行归一化?
对于音频特征,在语音领域一般是在时序上进行归一化操作。如果这些数值比较大的特征维度(主要是F1频率,F2频率,F3频率)影响了模型训练,可以考虑剔除这几个维度。或者进行特征维度上的归一化(会影响特征在时序上的效果),这个要看具体需求和取舍了。
了解,非常感谢您的回复!
尊敬的开发者您好!
非常感谢您贡献M-SENA框架,相信这会有力推进MSA领域的发展。
最近在使用MMSA-FET提取音频特征时,发现如opensmile里的eGeMAPSv02 set,其特征向量在某些维度的值非常大(>1000)。 但在MMSA框架里似乎并未对音频特征进行归一化,MMDataset.__normalize()更像是一个平均池化操作。 想请教您,如何在不影响其他特征维度特异性的前提下,对这些大值特征进行归一化?
非常感谢。