Walleclipse / Deep_Speaker-speaker_recognition_system

Keras implementation of ‘’Deep Speaker: an End-to-End Neural Speaker Embedding System‘’ (speaker recognition)
247 stars 81 forks source link

网络 #22

Closed tingtingzhezhe closed 5 years ago

tingtingzhezhe commented 5 years ago

您好!我想问一下,您这个搭建了多少层网络,和百度原文的区别是什么?

Walleclipse commented 5 years ago

你好, models.py 里面有三种模型。

  1. convolutional_model 是和原文描述一样的Resnet结构 (我是按照论文描述搭建,和实际百度用的模型可能有一些细微的差别),参数量是 24,314,491,可以查看 network.txt
  2. recurrent_model 是和原论文类似的GRU网络,但是我的GRU的性能比较差,估计和百度的有一些区别。
  3. convolutional_model_simple 是第一个convolutional_model 的简化版,参数量少很多,训练也快一点,但是性能可能比第一个差一点。
tingtingzhezhe commented 5 years ago

谢谢您细致的回答!祝福您科研顺利!顺心如意!

tingtingzhezhe commented 5 years ago

谢谢您细致的回答!祝福您科研顺利!顺心如意!

tingtingzhezhe commented 5 years ago

我还想再问一下,网络的具体输入节点数是不是160*64?相当于语谱图?

Walleclipse commented 5 years ago

是的,160帧,每一个帧是64维的MFCC特征。

tingtingzhezhe commented 5 years ago

学长,您好!我看了一下简化网络是58层吗?原文是不是一百多层?

Walleclipse commented 5 years ago

models.py 中的 convolutional_model_simple 应该是58层吧,没有算过,参数量比原来的模型少。原文是跟 convolutional_model 一样的。