RetroCirce / HTS-Audio-Transformer

The official code repo of "HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection"
https://arxiv.org/abs/2202.00874
MIT License
341 stars 62 forks source link

谱图编码 #51

Open haloolahh opened 10 months ago

haloolahh commented 10 months ago

你好,谱图的编码这一部分是如何实现的呀,一开始输入的谱图是长方形的,后面怎么来调整为模型的输入大小的呢,并且输入的谱图大小是多少,送入到模型中的大小又是什么样的呢

RetroCirce commented 9 months ago

您好,输入的谱图大小是256 x 256,其实谱图是不需要转成模型的输入大小的,在原来的谱图大小是1024 * 64 上也是可以做一样的patch,但是由于我们想利用swin-transformer的pretrained model来提高性能,所以做了一个rearrange