Open 0xCAFEBABE0 opened 2 days ago
+1
使用这个方案把音色保存下来: https://github.com/FunAudioLLM/CosyVoice/issues/604
关键代码:
data = load_spk_from_wav(prompt_wav_upload, cosyvoice)
torch.save(data, f'speakers/{spk_name}.pt')
在frontend.py 里 修改 这个方法 frontend_sft:
def frontend_sft(self, tts_text, spk_id):
tts_text_token, tts_text_token_len = self._extract_text_token(tts_text)
# embedding = self.spk2info[spk_id]['embedding']
# 从pt文件里加载音色
embedding = load_spk_from_pt(spk_id)['embedding']
model_input = {'text': tts_text_token, 'text_len': tts_text_token_len, 'llm_embedding': embedding, 'flow_embedding': embedding}
return model_input
注意这个方法其他模式也在用,总之你看着改吧。
使用Instruct进行推理,希望固定音色输出音频,但现状会有所偏移,有概率出现男女混合的音频。