RetroCirce / HTS-Audio-Transformer

The official code repo of "HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection"
https://arxiv.org/abs/2202.00874
MIT License
341 stars 62 forks source link

想利用这个网络训练一个用于sed的模型,训练数据都是强帧级的标注 #12

Closed sanli0 closed 2 years ago

sanli0 commented 2 years ago

有一些帧级别的标注音频,想训练一个声音事件检测的模型,但是看你们这个只有audioset数据集的训练方法,如果换成这种帧级别的标签,该如何重新构建训练方案?

RetroCirce commented 2 years ago

Hi,

可以重点查看model文件中的输出,有一个是framewise_output, 还有一个是clipwise_output,这两个一个对应的是帧级别(或者一定resolution下的帧级别)的标签,一个是弱标签。如果你用强标注的数据集,你可以把帧级别输出的结果直接拿去算loss,这样就可以了。

很期待在这个上面做出的结果!