Closed skysbird closed 1 year ago
感觉跨语言跨性别迁移的时候,迁移过来的音色还是带着一些外文的味道。比如 input:中文男性声音 ref:女性英文声音。输出的女性声音可以说中文,但是带英文的味道。
我想问,是不是可以考虑使用whisper-large-v2作为whisper的模型?但我看不能直接用,因为模型维度不一样,medium.pt是1024,larget-v2.pt是1280。
求问作者有什么好办法解决这个问题么?
把config文件里面的ssl_dim从1024改成1280应该就可以了
但是我想使用你的预训练模型。是不是只能重新训练。
是的
感觉跨语言跨性别迁移的时候,迁移过来的音色还是带着一些外文的味道。比如 input:中文男性声音 ref:女性英文声音。输出的女性声音可以说中文,但是带英文的味道。
我想问,是不是可以考虑使用whisper-large-v2作为whisper的模型?但我看不能直接用,因为模型维度不一样,medium.pt是1024,larget-v2.pt是1280。
求问作者有什么好办法解决这个问题么?