Walleclipse / Deep_Speaker-speaker_recognition_system

Keras implementation of ‘’Deep Speaker: an End-to-End Neural Speaker Embedding System‘’ (speaker recognition)
245 stars 81 forks source link

关于inference阶段的疑问 #67

Closed juanting closed 3 years ago

juanting commented 4 years ago

大佬您好, 我最近在研究speaker embedding的方向,非常幸运找到了您优秀的开源工程,我打算运用您预训练的模型直接得到某段语音的embedding进行后续任务,我在inference中运用了 clipped_audio函数,这个函数的作用是遇到很长的语音时随机截取片段,这样同一段语音产生的embedding就会每次各不相同,我想请教下可以不随机取片段而是全部片段都用并取平均值吗? 非常期待您的回复,万分感谢~

Walleclipse commented 4 years ago

你好,不好意思,没能及时回复。 我认为训练中随机截取有助于模型的泛化能力。因为同一个语音,不同片段的embedding会有些不同,如果模型在训练当中解决了这个问题,就能提高模型的泛化能力。 但是就像你说的,inference中,截取不同片段后得到embedding再取平均可能更合理一点。这样也符合实际的应用,并且可能可以起到降噪作用。

juanting commented 4 years ago

好的,了解您的建议,非常感谢回复鸭~