RetroCirce / HTS-Audio-Transformer

The official code repo of "HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection"
https://arxiv.org/abs/2202.00874
MIT License
341 stars 62 forks source link

Question about AudioSet and finetune learning rate. #28

Closed MichaelLynn1996 closed 1 year ago

MichaelLynn1996 commented 1 year ago

陈轲 你好! 很棒的工作!我主要想问两个问题: 第一个是关于AudioSet,根据我阅读你的源码,我猜测你是用 Kong qiuqiang分享在百度云盘 的数据集,如果是,你是否遇到有解压到问题。表现在解压时报错(不管是winrar还是7zip,但winrar仍可以解压),加载数据时报错(大概是出现损坏文件)。排除掉损坏文件后,但结果无法复现另一篇工作(指标很差),所以我怀疑和我没有正确解压有关。如果你是用此分享数据集,我想问问你的解压方式是什么? 第二个是关于利用ImageNet预训练的Swin Transformer进行finetue时,你的学习率是多少?还有学习策略和train from scratch 是一样的吗?论文中似乎只说到了train from scratch的学习率和学习策略。

如果你能解答我的疑惑将不胜感激!

RetroCirce commented 1 year ago

您好, 1.我们在下载的第一次发现有几个文件有损坏,所以我们后来检测了一下md5,重新下载了几个有损坏的文件,就成功解压了。 解压方式你可以搜索一下在linux分卷压缩的命令 2.我finetune的时候学习率仍然是2e-5,5e-5,1e-4(就是把1e-3的学习率乘下面的scale),我的确有调整过step,比如把10,20,30调整成了5,15,20,但是我发现效果差不多,所以按照config.py的设置是可以得到结果的,这个结果在30个epoch内就可以得到

MichaelLynn1996 commented 1 year ago

非常感谢您的解答,祝生活愉快和科研顺利!