myshell-ai / OpenVoice

Instant voice cloning by MyShell.
https://research.myshell.ai/open-voice
MIT License
27.07k stars 2.62k forks source link

各个模块或模型的作用是什么?有关V2测试 #248

Open zhjygit opened 1 month ago

zhjygit commented 1 month ago

结合论文来看,主要包括两个大的部分:基于基础语音模型的特征提取和音色克隆; 1)基础语音模型在项目中是哪个呀? 2)guillaumekln/faster-whisper-medium 对应论文中的哪个部分? 3)melotts--myshell-ai-MeloTTS-xxx会在.cache\huggface\hub目录下下载模型,这些模型作用是什么,对应论文哪一部分呀?

目前,在V2版本中,我没找到节奏、停顿等的控制方法,貌似只有speed的控制参数。 对于台湾普通话的克隆,几乎无法实现,不知道是基础语音模型的问题还是其他问题(比如,给的音频质量不行),是否需要训练台湾普通话,如何训练能否提供方法,我也想给这个项目顺便贡献一下自己的力量,让他更丰富。