Executedone / Chinese-FastSpeech2

基于标贝数据继续训练,同时对原本的FastSpeech2模型做了改进,引入了韵律表征以及韵律预测模块,使中文发音更生动且富有节奏
243 stars 40 forks source link

多speaker韵律预测? #8

Closed zjwang21 closed 1 year ago

zjwang21 commented 1 year ago

如题,作者有没有多speaker场景下的韵律预测方法,尝试加过speaker信息效果一般

Executedone commented 1 year ago

之前试过多speaker场景下直接加入训练好的韵律embedding训练,感觉效果还可以。用的AISHELL3的数据,比不加韵律embedding在节奏变化方面要好不少

panxin801 commented 1 year ago

您好,我现在也在思考这个问题。在multi-speaker场景下,您是用多个single speaker bert prosody model 得到每个人的prosody embedding ,还是您使用了一个多人的bert prosody 模型? 另外是否可以训练一个多人的bert prosody model呢,我用每个speaker 的embedding 当做一个额外的输入? 期待您的回复,谢谢您