关于精度没有达到论文中的水平的问题

RetroCirce / HTS-Audio-Transformer

The official code repo of "HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection"

https://arxiv.org/abs/2202.00874

MIT License

344 stars 62 forks source link

Closed JasYY6 closed 2 years ago

JasYY6 commented 2 years ago

关于您的模型，已按照您的配置执行，采用的是esc50数据集，并加载了swin_transformer的预训练模型，但最后的精度如图，只能达到0.88，测试也是如此，不知哪里出了问题，您可以给一些建议吗？十分感谢！

RetroCirce commented 2 years ago

您好，训练esc-50的时候需要将esc-50里的数据重采样为32000，因为我们训练audioset的时候是32000的采样率；同时预训练模型是先训练在audioset的，不仅仅是swin-transformer在imagenet上的预训练模型。

谢谢！

JasYY6 commented 2 years ago

您好，感谢您的指点，我已经成功复现了您的结果，祝您生活愉快！

RetroCirce commented 2 years ago

是的，在audioset上预训练，不客气！