关于inference阶段的疑问

juanting commented 4 years ago

大佬您好，我最近在研究speaker embedding的方向，非常幸运找到了您优秀的开源工程，我打算运用您预训练的模型直接得到某段语音的embedding进行后续任务，我在inference中运用了 clipped_audio函数，这个函数的作用是遇到很长的语音时随机截取片段，这样同一段语音产生的embedding就会每次各不相同，我想请教下可以不随机取片段而是全部片段都用并取平均值吗？非常期待您的回复，万分感谢~

Walleclipse commented 4 years ago

你好，不好意思，没能及时回复。我认为训练中随机截取有助于模型的泛化能力。因为同一个语音，不同片段的embedding会有些不同，如果模型在训练当中解决了这个问题，就能提高模型的泛化能力。但是就像你说的，inference中，截取不同片段后得到embedding再取平均可能更合理一点。这样也符合实际的应用，并且可能可以起到降噪作用。

juanting commented 4 years ago

好的，了解您的建议，非常感谢回复鸭~

Walleclipse / Deep_Speaker-speaker_recognition_system

关于inference阶段的疑问 #67