关于pretaining的问题

ShaofengZou commented 5 years ago

你好呀！

我想问下，这个pretrain在convolutional_model后面加了一个softmax层，这样的话整个网络的作用就相当于提取说话人声音的特征，然后做一个分类，实现一个说话人的身份识别，即给一段语音的特征，他能输出这段语音对应的说话人是吗？

另外还想问下这个预训练对后面的语音验证（验证语音A是不是speaker B发出的）起到了什么作用呢？

期待你的回复~

Walleclipse commented 5 years ago

你好！你说的对，pretrain的网络就是给一段语音的特征，他能输出这段语音对应的说话人。这个的作用就是pretrain的网络会在中间层特取声音的特征，而语音验证的网络也需要在中间层提取声音特征。所以我们可以把pretrain的网络的前面层（去掉softmax）拿过来用于语音验证的前面部分的模型。在训练阶段，pretrain模型（speaker classification task）需要事先知道每一段语音的说话者。而语音验证（speaker recognition task）你不需要知道说话者是谁（换句话说是未知说话者），你只需要判断语音A是不是B发出的。

ShaofengZou commented 5 years ago

好滴，明白了，非常感谢！！

Walleclipse commented 5 years ago

不用客气

Walleclipse / Deep_Speaker-speaker_recognition_system

关于pretaining的问题 #10

你好呀！

另外还想问下这个预训练对后面的语音验证（验证语音A是不是speaker B发出的）起到了什么作用呢？

期待你的回复~