Open SoloPro-Git opened 2 years ago
在aishell3数据中,有些wav文件通过librosa生成振幅向量的时候,振幅大小会超过1 如: SSB08870032.wav 文件的最大振幅为1.0116 导致运行wav2mel.py的时候会中断报错.
具体问题如下: 文件 /mtts/utils/stft.py 第248 、249行 为什么要对wav的振幅向量限制在[-1,1]呢 ?
猜测作者是否是对AIShell3数据集做了一些预处理,才使用脚本跑的,能否加个好友讨论讨论模型训练上的一些问题呢 wx:FGY_0214。 有同样的疑问期待作者的回复,另外作者开源的checkpoint是否是代码库中对应 config 配置跑出来的呢,还是有做过调整。
我也遇到了相同的问题
我也遇到了相同的问题
我在这个项目复现不了作者的效果,mel频谱图一直是模糊的 后面转投paddlespeech那个项目了T_T
Try set a proper sample_rate in config.yaml[fbank][sample_rate] like 48000
在aishell3数据中,有些wav文件通过librosa生成振幅向量的时候,振幅大小会超过1 如: SSB08870032.wav 文件的最大振幅为1.0116 导致运行wav2mel.py的时候会中断报错.
具体问题如下: 文件 /mtts/utils/stft.py 第248 、249行 为什么要对wav的振幅向量限制在[-1,1]呢 ?