AISHELL3某些数据生成梅尔频谱失败的问题

SoloPro-Git commented 2 years ago

在aishell3数据中,有些wav文件通过librosa生成振幅向量的时候,振幅大小会超过1 如: SSB08870032.wav 文件的最大振幅为1.0116 导致运行wav2mel.py的时候会中断报错.

具体问题如下: 文件 /mtts/utils/stft.py 第248 、249行为什么要对wav的振幅向量限制在[-1,1]呢 ?

EricFuma commented 2 years ago

在aishell3数据中,有些wav文件通过librosa生成振幅向量的时候,振幅大小会超过1 如: SSB08870032.wav 文件的最大振幅为1.0116 导致运行wav2mel.py的时候会中断报错.

具体问题如下: 文件 /mtts/utils/stft.py 第248 、249行为什么要对wav的振幅向量限制在[-1,1]呢 ?

猜测作者是否是对AIShell3数据集做了一些预处理，才使用脚本跑的，能否加个好友讨论讨论模型训练上的一些问题呢 wx：FGY_0214。有同样的疑问期待作者的回复，另外作者开源的checkpoint是否是代码库中对应 config 配置跑出来的呢，还是有做过调整。

longglecc commented 2 years ago

我也遇到了相同的问题

SoloPro-Git commented 2 years ago

我也遇到了相同的问题

我在这个项目复现不了作者的效果，mel频谱图一直是模糊的后面转投paddlespeech那个项目了T_T

bjr3ady commented 2 years ago

Try set a proper sample_rate in config.yaml[fbank][sample_rate] like 48000

ranchlai / mandarin-tts

AISHELL3某些数据生成梅尔频谱失败的问题 #31