关于 Speaker Interpolation 如何实现

LongMarch7 commented 2 weeks ago

请问，Speaker Interpolation 混合那几个权重参数？flow_embedding和llm_embedding吗？

aluminumbox commented 2 weeks ago

speaker interpolation是指不同speaker的embedding interpolate

ScottishFold007 commented 1 week ago

请问，Speaker Interpolation 混合那几个权重参数？flow_embedding和llm_embedding吗？

很简单，就是若干说话人embedding的加权求和：emb= aemb1 + bemb2 + c*emb3，其中a+b+c=1

LongMarch7 commented 1 week ago

请问，Speaker Interpolation 混合那几个权重参数？flow_embedding和llm_embedding吗？

很简单，就是若干说话人embedding的加权求和：emb= a_emb1 + b_emb2 + c*emb3，其中a+b+c=1

我是按这样方式混合的，我看编码数据有'text', 'text_len', 'prompt_text', 'prompt_text_len', 'llm_prompt_speech_token', 'llm_prompt_speech_token_len', 'flow_prompt_speech_token', 'flow_prompt_speech_token_len', 'prompt_speech_feat', 'prompt_speech_feat_len', 'llm_embedding', 'flow_embedding' 这几种，目前只有llm_embedding和flow_embedding的维度是一致的，其他几个都是不同的，我目前只对着两个做了混合，但是感觉情感和语速的特征不明显，是不是还有其他值需要处理

LongMarch7 commented 1 week ago

speaker interpolation是指不同speaker的embedding interpolate

你说的是对flow_embedding和llm_embedding 这两个进行混合吗？

FunAudioLLM / CosyVoice

关于 Speaker Interpolation 如何实现 #640