关于数据预处理和softmax pretrain

Walleclipse / Deep_Speaker-speaker_recognition_system

Keras implementation of ‘’Deep Speaker: an End-to-End Neural Speaker Embedding System‘’ (speaker recognition)

246 stars 81 forks source link

关于数据预处理和softmax pretrain #23

Closed ShtWu closed 5 years ago

ShtWu commented 5 years ago

学长您好，我最近在做类似的项目。有几个问题想要请教一下：

语音特征提取之后是否需要对特征标准化和归一化？特征选择多少个dim的fbank会比较好？

triplet loss是否一定需要softmax pretrain? pretrain的话是用一般的softmax cross entropy loss吗？有没有什么特别的技巧和注意点？

非常感谢！

Walleclipse commented 5 years ago

你好，对特征不归一化也行，但是进行归一化的性能会稍微好一点。我在这里是选择了160个帧(1.6秒的音频)，每个帧是64维的fbank。所以特征维度为 (160, 64) 不一定需要softmax pretrain。文章里报道的是softmax pretrain 会让模型收敛的更快还有性能会提高一点。我在实验当中好像是性能差不多。pretrain 就是多分类问题，就是用 cross entropy。

ShtWu commented 5 years ago

在训练softmax的时候， validation acc一直低于1% validation data是手动split出来的已经出现过的所有Label。这有可能是什么原因导致的呢？

Walleclipse commented 5 years ago

你好，你是直接跑的是 pretraining.py 么？我分数据集的时候，只把0.05的数据分成了validation set。我们要保证，验证集上的大部分label，在训练集中出现过。你可以试试调小验证集，调大训练集

ShtWu commented 5 years ago

好的，谢谢。