KevinWang676 / Bark-Voice-Cloning

Bark Voice Cloning and Voice Cloning for Chinese Speech
MIT License
2.63k stars 373 forks source link

huggingface上的那个AI娜娜和AI小杰两个选项都不算纯的模型音色吧? #34

Open nizhuan-jjr opened 10 months ago

nizhuan-jjr commented 10 months ago

huggingface的界面能否增设一个纯模型音色按钮来生成音频?AI娜娜和AI小杰的生成的效果和之前在colab里出来的纯模型音频效果不太一样。 而且希望能加上语速调节/音调调节等附加选项。

KevinWang676 commented 10 months ago

HuggingFace上的模型是用Colab笔记本训练出来的,HuggingFace上是训练500步之后得到的模型

nizhuan-jjr commented 10 months ago

HuggingFace上的模型是用Colab笔记本训练出来的,HuggingFace上是训练500步之后得到的模型

说明一下,我是成功训练了自己的模型(用那个colab笔记本做成的),并upload了pretrain_work_dir(删了原来的),run成功之后。用AI娜娜或AI小杰生成的音色感觉和之前再colab里的推理效果不太一致,AI娜娜接近一些,但不完全相同(说同一句测试的)。

KevinWang676 commented 10 months ago

pretrain_work_dir对应的就是你自己的模型,jay文件夹下的是AI周杰伦的模型,所以用点击“AI娜娜”就是用你的模型来推理,效果不一样可能是因为HuggingFace对文件储存的问题

nizhuan-jjr commented 10 months ago

我感觉语速不一样,所以huggingface里能否加上语速调节/音调调节的辅助处理选项?感觉会方便一些

KevinWang676 commented 10 months ago

好的,之后会添加的