Closed ShaofengZou closed 5 years ago
你好! 你说的对,pretrain的网络就是给一段语音的特征,他能输出这段语音对应的说话人。 这个的作用就是pretrain的网络会在中间层特取声音的特征,而语音验证的网络也需要在中间层提取声音特征。所以我们可以把pretrain的网络的前面层(去掉softmax)拿过来用于语音验证的前面部分的模型。 在训练阶段,pretrain模型(speaker classification task)需要事先知道每一段语音的说话者。而语音验证(speaker recognition task)你不需要知道说话者是谁(换句话说是未知说话者),你只需要判断语音A是不是B发出的。
好滴,明白了,非常感谢!!
不用客气
你好呀!
我想问下,这个pretrain在convolutional_model后面加了一个softmax层,这样的话整个网络的作用就相当于提取说话人声音的特征,然后做一个分类,实现一个说话人的身份识别,即给一段语音的特征,他能输出这段语音对应的说话人是吗?
另外还想问下这个预训练对后面的语音验证(验证语音A是不是speaker B发出的)起到了什么作用呢?
期待你的回复~