RetroCirce / HTS-Audio-Transformer

The official code repo of "HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection"
https://arxiv.org/abs/2202.00874
MIT License
344 stars 62 forks source link

关于精度没有达到论文中的水平的问题 #6

Closed JasYY6 closed 2 years ago

JasYY6 commented 2 years ago

image 关于您的模型,已按照您的配置执行,采用的是esc50数据集,并加载了swin_transformer的预训练模型,但最后的精度如图,只能达到0.88,测试也是如此,不知哪里出了问题,您可以给一些建议吗?十分感谢!

RetroCirce commented 2 years ago

您好,训练esc-50的时候需要将esc-50里的数据重采样为32000,因为我们训练audioset的时候是32000的采样率;同时预训练模型是先训练在audioset的,不仅仅是swin-transformer在imagenet上的预训练模型。

谢谢!

JasYY6 commented 2 years ago

您好,感谢您的指点,我已经成功复现了您的结果,祝您生活愉快!

RetroCirce commented 2 years ago

是的,在audioset上预训练,不客气!