stop token prediction去除后的影响

PaddlePaddle / Parakeet

PAddle PARAllel text-to-speech toolKIT (supporting Tacotron2, Transformer TTS, FastSpeech2/FastPitch, SpeedySpeech, WaveFlow and Parallel WaveGAN)

Other

598 stars 83 forks source link

stop token prediction去除后的影响 #134

Closed hoyden closed 3 years ago

hoyden commented 3 years ago

我注意到你们在aishell3的样例中提到将stop token prediction去除，转用 attention 的最高点到达 encoder 侧的最后一个符号为终止条件，请问你们有验证过这个改动对效果的影响么？

iclementine commented 3 years ago

不容易出现合成到最后停不下来产生不断重复的噪声的现象。

但是也带来一个问题，attention 最高点达到 encoder 侧的最后一个符号之后，需要允许其继续持续多少帧成了一个超参数，设置得太少，容易出现音频在最后一个音骤停仿佛未说完的现象。

不过值得注意的是，一般这样做需要配合 guided attention loss Jinxing 训练，否则 attention 图容易有较多的噪点，而不是能量非常集中于对角线，偶尔可能会有一些噪点就在 encoder 侧的最后一个符号，可能带来提前终止的问题。

hoyden commented 3 years ago

@iclementine 感谢回复，我理解你们这样做的意图是因为觉得stop token本身分布不均衡，但是在训练中如果同一个batch里数据长度分布跨度较大，是否可以改善这个问题呢？这块我简单尝试过，如果对数据进行排序，让同一个batch里数据长度比较接近，确实会显著增多合成末尾停顿异常的问题。主要是感觉你们这种改进所增加的超参有点难以控制，我不确定会不会带来其他影响才提出这样的问题。