Walleclipse / Deep_Speaker-speaker_recognition_system

Keras implementation of ‘’Deep Speaker: an End-to-End Neural Speaker Embedding System‘’ (speaker recognition)
247 stars 81 forks source link

关于如何进行声纹识别 #21

Closed ljr318 closed 5 years ago

ljr318 commented 5 years ago

您好! 我最近在写一篇关于声纹识别,语音伪造取证的相关论文。您的模型主要是做说话人识别,但我想应该也可以用来进行声纹识别。 请问如果我想单独的训练一个单一说话人的模型,在模型验证的过程中,输入一段伪造的语音,让模型网络来判断是否是真实语音,也就是说模型的输出为true或者false。如果是这种场景请问应该怎么在代码上进行改变? 非常感谢!

Walleclipse commented 5 years ago

你好, 该网络最后会输出512维的语音的embedding,声纹识别类任务都是可以基于该代码做的。

  1. 你首先可以通过一个人的大量语音得到该说话者语音的embedding表示。比如说,这个人假设有10段语音,通过网络得到了10个512维的向量,随后做个平均得到该说话者的embedding表示。
  2. 输入一段伪造的语音, 得到伪造语音的embedding表示。
  3. 计算伪造语音embedding与说话者embedding的相似度,比如cosine similarity。
  4. 设定阈值,比如说0.5,相似度高于该阈值就认为是true,低于就是false
ljr318 commented 5 years ago

非常感谢!