Walleclipse / Deep_Speaker-speaker_recognition_system

Keras implementation of ‘’Deep Speaker: an End-to-End Neural Speaker Embedding System‘’ (speaker recognition)
246 stars 81 forks source link

ask reason #13

Closed tingtingzhezhe closed 5 years ago

tingtingzhezhe commented 5 years ago

您好!我是一名学生,我最近在研究您这个实验,我用train_clean_100数据集跑的结果可以达到98%以上,想问一下,这个网络的优点在哪?之前cnn网络是用来做图像的,rnn网络用来处理语音,想知道为啥这个程序可以达到这么好的效果?

Walleclipse commented 5 years ago

你好! 你说的 结果达到 98% 是指 pretraining.py 的准确率是吧? 其实CNN也可以做语音。就像这个项目一样,对于语音而言我们一般抽取语音的MFCC特征,对于每一帧而言MFCC特征是一个二维向量(时间vs频率),所以把几个帧连接起来就是一个 3D向量。可以用CNN网络,CNN网络非常适合抽取局部特征,比如一个帧内某些频率之间的联系。并且 类似 Resnet这种残差网络对抽取局部特征非常强大。 所以CNN不仅可以用语图像,而且可以用于其他需要抽取局部特征的问题,比如语音,自然语言处理等。 这篇论文的作者在CNN与RNN(GRU)上取得了类似的结果。在我的实验中CNN取得的结果和作者类似,但是RNN结果差很多,当然主要原因是我不太会RNN。

tingtingzhezhe commented 5 years ago

谢谢您的解答!祝您科研顺利!!

Walleclipse commented 5 years ago

谢谢!也祝你顺利!