Walleclipse / Deep_Speaker-speaker_recognition_system

Keras implementation of ‘’Deep Speaker: an End-to-End Neural Speaker Embedding System‘’ (speaker recognition)
247 stars 81 forks source link

关于pretaining的问题 #10

Closed ShaofengZou closed 5 years ago

ShaofengZou commented 5 years ago

你好呀!

我想问下,这个pretrain在convolutional_model后面加了一个softmax层,这样的话整个网络的作用就相当于提取说话人声音的特征,然后做一个分类,实现一个说话人的身份识别,即给一段语音的特征,他能输出这段语音对应的说话人是吗?

另外还想问下这个预训练对后面的语音验证(验证语音A是不是speaker B发出的)起到了什么作用呢?

期待你的回复~

Walleclipse commented 5 years ago

你好! 你说的对,pretrain的网络就是给一段语音的特征,他能输出这段语音对应的说话人。 这个的作用就是pretrain的网络会在中间层特取声音的特征,而语音验证的网络也需要在中间层提取声音特征。所以我们可以把pretrain的网络的前面层(去掉softmax)拿过来用于语音验证的前面部分的模型。 在训练阶段,pretrain模型(speaker classification task)需要事先知道每一段语音的说话者。而语音验证(speaker recognition task)你不需要知道说话者是谁(换句话说是未知说话者),你只需要判断语音A是不是B发出的。

ShaofengZou commented 5 years ago

好滴,明白了,非常感谢!!

Walleclipse commented 5 years ago

不用客气