Closed hoyden closed 3 years ago
不容易出现合成到最后停不下来产生不断重复的噪声的现象。
但是也带来一个问题,attention 最高点达到 encoder 侧的最后一个符号之后,需要允许其继续持续多少帧成了一个超参数,设置得太少,容易出现音频在最后一个音骤停仿佛未说完的现象。
不过值得注意的是,一般这样做需要配合 guided attention loss Jinxing 训练,否则 attention 图容易有较多的噪点,而不是能量非常集中于对角线,偶尔可能会有一些噪点就在 encoder 侧的最后一个符号,可能带来提前终止的问题。
@iclementine 感谢回复,我理解你们这样做的意图是因为觉得stop token本身分布不均衡,但是在训练中如果同一个batch里数据长度分布跨度较大,是否可以改善这个问题呢?这块我简单尝试过,如果对数据进行排序,让同一个batch里数据长度比较接近,确实会显著增多合成末尾停顿异常的问题。主要是感觉你们这种改进所增加的超参有点难以控制,我不确定会不会带来其他影响才提出这样的问题。
我注意到你们在aishell3的样例中提到将stop token prediction去除,转用 attention 的最高点到达 encoder 侧的最后一个符号为终止条件,请问你们有验证过这个改动对效果的影响么?