BakerBunker / FreeV

[InterSpeech 24] FreeV: Free Lunch For Vocoders Through Pseudo Inversed Mel Filter
https://bakerbunker.github.io/FreeV/
MIT License
57 stars 4 forks source link

config_pghi: "sampling_rate": 16000 #1

Open Moonmore opened 2 weeks ago

Moonmore commented 2 weeks ago

hi,请问下这里的sr为什么是16000?其它配置都是22050

BakerBunker commented 2 weeks ago

抱歉,这里配置写错了,当时实验pghi的时候是和16k的apnet2做的对比,结果没有效果,后面就没改这个配置了

Moonmore commented 2 weeks ago

明白明白。还请教一个问题,这个16k和apnet2做的对比没有效果, 指的是pghi在16k的数据上和apnet2相比没有提升,还是说效果在22050上表现得相当,取得了比较好的效果呢? 多谢解答

BakerBunker commented 2 weeks ago

训练的效果可以在这里下载到log,里面有训练过程的loss,也有训练过程中生成的音频,希望可以帮助到你。

16k pghi的结果和16k apnet2表现差不多甚至会差一点,而且pghi是有一定计算代价的,所以后面没有用到。猜测可能是pinverse减小了幅度谱输入和预测目标之间的residual,让预测能变得简单一点;但相位谱这边由于直接预测效果比较差(这点apnet做了实验),所以采用了预测在两个轴的分量的形式,这样也导致输入和输出没有变得更接近。

pghi预测的相位确实会比random初始化的相位在听感和客观指标上更好,只不过我这样使用不会带来收益。也期待能有后续的工作能够有效利用pghi这种信号处理方法为相位谱提供的先验信息。

Moonmore commented 2 weeks ago

明白明白

BakerBunker commented 2 weeks ago
Moonmore commented 1 week ago

十分感谢您得回复,学习到很多。