Open LongMarch7 opened 2 weeks ago
speaker interpolation是指不同speaker的embedding interpolate
请问,Speaker Interpolation 混合那几个权重参数?flow_embedding和llm_embedding吗?
很简单,就是若干说话人embedding的加权求和:emb= aemb1 + bemb2 + c*emb3,其中a+b+c=1
请问,Speaker Interpolation 混合那几个权重参数?flow_embedding和llm_embedding吗?
很简单,就是若干说话人embedding的加权求和:emb= a_emb1 + b_emb2 + c*emb3,其中a+b+c=1
我是按这样方式混合的,我看编码数据有'text', 'text_len', 'prompt_text', 'prompt_text_len', 'llm_prompt_speech_token', 'llm_prompt_speech_token_len', 'flow_prompt_speech_token', 'flow_prompt_speech_token_len', 'prompt_speech_feat', 'prompt_speech_feat_len', 'llm_embedding', 'flow_embedding' 这几种,目前只有llm_embedding和flow_embedding的维度是一致的,其他几个都是不同的,我目前只对着两个做了混合,但是感觉情感和语速的特征不明显,是不是还有其他值需要处理
speaker interpolation是指不同speaker的embedding interpolate
你说的是对flow_embedding和llm_embedding 这两个进行混合吗?
请问,Speaker Interpolation 混合那几个权重参数?flow_embedding和llm_embedding吗?