多speaker韵律预测？

Executedone / Chinese-FastSpeech2

基于标贝数据继续训练，同时对原本的FastSpeech2模型做了改进，引入了韵律表征以及韵律预测模块，使中文发音更生动且富有节奏

243 stars 40 forks source link

多speaker韵律预测？ #8

Closed zjwang21 closed 1 year ago

zjwang21 commented 1 year ago

如题，作者有没有多speaker场景下的韵律预测方法，尝试加过speaker信息效果一般

Executedone commented 1 year ago

之前试过多speaker场景下直接加入训练好的韵律embedding训练，感觉效果还可以。用的AISHELL3的数据，比不加韵律embedding在节奏变化方面要好不少

panxin801 commented 1 year ago

您好，我现在也在思考这个问题。在multi-speaker场景下，您是用多个single speaker bert prosody model 得到每个人的prosody embedding ，还是您使用了一个多人的bert prosody 模型？另外是否可以训练一个多人的bert prosody model呢，我用每个speaker 的embedding 当做一个额外的输入？期待您的回复，谢谢您