ask reason - Githubissues

Walleclipse / Deep_Speaker-speaker_recognition_system

Keras implementation of ‘’Deep Speaker: an End-to-End Neural Speaker Embedding System‘’ (speaker recognition)

246 stars 81 forks source link

你好！你说的结果达到 98% 是指 pretraining.py 的准确率是吧？其实CNN也可以做语音。就像这个项目一样，对于语音而言我们一般抽取语音的MFCC特征，对于每一帧而言MFCC特征是一个二维向量（时间vs频率），所以把几个帧连接起来就是一个 3D向量。可以用CNN网络，CNN网络非常适合抽取局部特征，比如一个帧内某些频率之间的联系。并且类似 Resnet这种残差网络对抽取局部特征非常强大。所以CNN不仅可以用语图像，而且可以用于其他需要抽取局部特征的问题，比如语音，自然语言处理等。这篇论文的作者在CNN与RNN(GRU)上取得了类似的结果。在我的实验中CNN取得的结果和作者类似，但是RNN结果差很多，当然主要原因是我不太会RNN。

Walleclipse / Deep_Speaker-speaker_recognition_system

ask reason #13