config_pghi: "sampling_rate": 16000

BakerBunker / FreeV

[InterSpeech 24] FreeV: Free Lunch For Vocoders Through Pseudo Inversed Mel Filter

https://bakerbunker.github.io/FreeV/

MIT License

57 stars 4 forks source link

config_pghi: "sampling_rate": 16000 #1

Open Moonmore opened 2 weeks ago

Moonmore commented 2 weeks ago

hi，请问下这里的sr为什么是16000？其它配置都是22050

BakerBunker commented 2 weeks ago

抱歉，这里配置写错了，当时实验pghi的时候是和16k的apnet2做的对比，结果没有效果，后面就没改这个配置了

Moonmore commented 2 weeks ago

明白明白。还请教一个问题，这个16k和apnet2做的对比没有效果，指的是pghi在16k的数据上和apnet2相比没有提升，还是说效果在22050上表现得相当，取得了比较好的效果呢？多谢解答

BakerBunker commented 2 weeks ago

训练的效果可以在这里下载到log，里面有训练过程的loss，也有训练过程中生成的音频，希望可以帮助到你。

16k pghi的结果和16k apnet2表现差不多甚至会差一点，而且pghi是有一定计算代价的，所以后面没有用到。猜测可能是pinverse减小了幅度谱输入和预测目标之间的residual，让预测能变得简单一点；但相位谱这边由于直接预测效果比较差(这点apnet做了实验)，所以采用了预测在两个轴的分量的形式，这样也导致输入和输出没有变得更接近。

pghi预测的相位确实会比random初始化的相位在听感和客观指标上更好，只不过我这样使用不会带来收益。也期待能有后续的工作能够有效利用pghi这种信号处理方法为相位谱提供的先验信息。

Moonmore commented 2 weeks ago

明白明白

16k 和 22k效果表现差别这么大没有想到，是否22k的高频信息更多，您的pghi预测和重建效果更好？
[pghi预测的相位确实会比random初始化的相位在听感和客观指标上更好，只不过我这样使用不会带来收益。] pghi 已经证明了比初始相位预测的更好，为什么不会带来收益呢。
所以从apnet apnet2 vocos 还有您的FreeV 一系列的istft vocoder，给相位谱提供更好的先验信息是更重要的事情？

BakerBunker commented 2 weeks ago

不会，我在实验的时候发现pghi不会带来收益，不论采样率在16k或者22k
pghi在初始相位上是会更好，但对于模型来说不一定如此，输入pghi的相位谱+幅度谱也许和只输入幅度谱对于模型来说效果相近，pghi的相位谱对于模型来说可能只是噪声
提供先验信息可以借助信号处理的工作，但我认为更重要的是怎么去利用它

Moonmore commented 1 week ago

十分感谢您得回复，学习到很多。