Walleclipse / Deep_Speaker-speaker_recognition_system

Keras implementation of ‘’Deep Speaker: an End-to-End Neural Speaker Embedding System‘’ (speaker recognition)
246 stars 81 forks source link

你好,关于代码运行 #25

Closed cnWJliu closed 5 years ago

cnWJliu commented 5 years ago

您好,我是在校本科生,ML新手,在运行您的代码时候,遇到一些问题,向您请教。 问题1-----silence_detector.py文件下的第44行:wav_fn='/Users/walle/PycharmProjects/Speech/coding/my_deep_speaker/audio/spk_ver_20180401_20180630_70_3_reseg_test/wav'\ '/spk_ver_20180401_20180630_70_3_reseg_testZEBRA_KIDS00000_110411652-ZEBRA_KIDS00000_110411652_ff3875f4fb3e5ef4.wav',请问这个wav_fn的作用是什么呢?而且在您项目文件里没有这两个.wav文件,请问我需要怎么做呢? 问题2-----我用一个5s的任意音频替代了上述文件,train.py可以正常启动,但是运行时显示“Found 0000368 files with 00001 different speakers.”这里只分辨出1个说话人,是不是有问题呢? 问题3-----train.py正常启动后,运行到select_bacth.py文件下第187行:“ neg0_index = ninds[np.argwhere(san == max_sans[0]).flatten()[0]] “ 时出现异常,显示“list index out of range”,通过逐行debug后,发现原因是在第184行:”ninds = np.argwhere(hist_labels != speaker).flatten()“这里找不到索引,我觉得问题还是出在只有1个speaker上。但是我不知道该如何解决。请您赐教。

cnWJliu commented 5 years ago

后两个问题已经自行解决了,第一个问题中wav_fn的意义还是不理解。