Closed zjwang21 closed 1 year ago
之前试过多speaker场景下直接加入训练好的韵律embedding训练,感觉效果还可以。用的AISHELL3的数据,比不加韵律embedding在节奏变化方面要好不少
您好,我现在也在思考这个问题。在multi-speaker场景下,您是用多个single speaker bert prosody model 得到每个人的prosody embedding ,还是您使用了一个多人的bert prosody 模型? 另外是否可以训练一个多人的bert prosody model呢,我用每个speaker 的embedding 当做一个额外的输入? 期待您的回复,谢谢您
如题,作者有没有多speaker场景下的韵律预测方法,尝试加过speaker信息效果一般