Walleclipse / Deep_Speaker-speaker_recognition_system

Keras implementation of ‘’Deep Speaker: an End-to-End Neural Speaker Embedding System‘’ (speaker recognition)
246 stars 81 forks source link

关于数据预处理和softmax pretrain #23

Closed ShtWu closed 5 years ago

ShtWu commented 5 years ago

学长您好,我最近在做类似的项目。有几个问题想要请教一下:

语音特征提取之后是否需要对特征标准化和归一化?特征选择多少个dim的fbank会比较好?

triplet loss是否一定需要softmax pretrain? pretrain的话是用一般的softmax cross entropy loss吗?有没有什么特别的技巧和注意点?

非常感谢!

Walleclipse commented 5 years ago

你好, 对特征不归一化也行,但是进行归一化的性能会稍微好一点。 我在这里是选择了160个帧(1.6秒的音频),每个帧是64维的fbank。 所以特征维度为 (160, 64) 不一定需要softmax pretrain。文章里报道的是softmax pretrain 会让模型收敛的更快还有性能会提高一点。我在实验当中好像是性能差不多。pretrain 就是多分类问题,就是用 cross entropy。

ShtWu commented 5 years ago

在训练softmax的时候, validation acc一直低于1% validation data是手动split出来的已经出现过的所有Label。 这有可能是什么原因导致的呢?

Walleclipse commented 5 years ago

你好, 你是直接跑的是 pretraining.py 么? 我分数据集的时候,只把0.05的数据分成了validation set。我们要保证,验证集上的大部分label,在训练集中出现过。 你可以试试调小验证集,调大训练集

ShtWu commented 5 years ago

好的, 谢谢。