FunAudioLLM / CosyVoice

Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.
https://funaudiollm.github.io/
Apache License 2.0
6.51k stars 702 forks source link

关于 Speaker Interpolation 如何实现 #640

Open LongMarch7 opened 2 weeks ago

LongMarch7 commented 2 weeks ago

请问,Speaker Interpolation 混合那几个权重参数?flow_embedding和llm_embedding吗?

aluminumbox commented 2 weeks ago

speaker interpolation是指不同speaker的embedding interpolate

ScottishFold007 commented 1 week ago

请问,Speaker Interpolation 混合那几个权重参数?flow_embedding和llm_embedding吗?

很简单,就是若干说话人embedding的加权求和:emb= aemb1 + bemb2 + c*emb3,其中a+b+c=1

LongMarch7 commented 1 week ago

请问,Speaker Interpolation 混合那几个权重参数?flow_embedding和llm_embedding吗?

很简单,就是若干说话人embedding的加权求和:emb= a_emb1 + b_emb2 + c*emb3,其中a+b+c=1

我是按这样方式混合的,我看编码数据有'text', 'text_len', 'prompt_text', 'prompt_text_len', 'llm_prompt_speech_token', 'llm_prompt_speech_token_len', 'flow_prompt_speech_token', 'flow_prompt_speech_token_len', 'prompt_speech_feat', 'prompt_speech_feat_len', 'llm_embedding', 'flow_embedding' 这几种,目前只有llm_embedding和flow_embedding的维度是一致的,其他几个都是不同的,我目前只对着两个做了混合,但是感觉情感和语速的特征不明显,是不是还有其他值需要处理

LongMarch7 commented 1 week ago

speaker interpolation是指不同speaker的embedding interpolate

你说的是对flow_embedding和llm_embedding 这两个进行混合吗?