PaddlePaddle / Parakeet

PAddle PARAllel text-to-speech toolKIT (supporting Tacotron2, Transformer TTS, FastSpeech2/FastPitch, SpeedySpeech, WaveFlow and Parallel WaveGAN)
Other
598 stars 83 forks source link

stop token prediction去除后的影响 #134

Closed hoyden closed 3 years ago

hoyden commented 3 years ago

我注意到你们在aishell3的样例中提到将stop token prediction去除,转用 attention 的最高点到达 encoder 侧的最后一个符号为终止条件,请问你们有验证过这个改动对效果的影响么?

iclementine commented 3 years ago

不容易出现合成到最后停不下来产生不断重复的噪声的现象。

但是也带来一个问题,attention 最高点达到 encoder 侧的最后一个符号之后,需要允许其继续持续多少帧成了一个超参数,设置得太少,容易出现音频在最后一个音骤停仿佛未说完的现象。

不过值得注意的是,一般这样做需要配合 guided attention loss Jinxing 训练,否则 attention 图容易有较多的噪点,而不是能量非常集中于对角线,偶尔可能会有一些噪点就在 encoder 侧的最后一个符号,可能带来提前终止的问题。

hoyden commented 3 years ago

@iclementine 感谢回复,我理解你们这样做的意图是因为觉得stop token本身分布不均衡,但是在训练中如果同一个batch里数据长度分布跨度较大,是否可以改善这个问题呢?这块我简单尝试过,如果对数据进行排序,让同一个batch里数据长度比较接近,确实会显著增多合成末尾停顿异常的问题。主要是感觉你们这种改进所增加的超参有点难以控制,我不确定会不会带来其他影响才提出这样的问题。