关于如何进行声纹识别

Walleclipse / Deep_Speaker-speaker_recognition_system

Keras implementation of ‘’Deep Speaker: an End-to-End Neural Speaker Embedding System‘’ (speaker recognition)

247 stars 81 forks source link

你好，该网络最后会输出512维的语音的embedding，声纹识别类任务都是可以基于该代码做的。

你首先可以通过一个人的大量语音得到该说话者语音的embedding表示。比如说，这个人假设有10段语音，通过网络得到了10个512维的向量，随后做个平均得到该说话者的embedding表示。
输入一段伪造的语音，得到伪造语音的embedding表示。
计算伪造语音embedding与说话者embedding的相似度，比如cosine similarity。
设定阈值，比如说0.5，相似度高于该阈值就认为是true，低于就是false

Walleclipse / Deep_Speaker-speaker_recognition_system