想利用这个网络训练一个用于sed的模型，训练数据都是强帧级的标注

RetroCirce / HTS-Audio-Transformer

The official code repo of "HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection"

https://arxiv.org/abs/2202.00874

MIT License

341 stars 62 forks source link

Closed sanli0 closed 2 years ago

sanli0 commented 2 years ago

有一些帧级别的标注音频，想训练一个声音事件检测的模型，但是看你们这个只有audioset数据集的训练方法，如果换成这种帧级别的标签，该如何重新构建训练方案？

RetroCirce commented 2 years ago

Hi,

可以重点查看model文件中的输出，有一个是framewise_output，还有一个是clipwise_output，这两个一个对应的是帧级别（或者一定resolution下的帧级别）的标签，一个是弱标签。如果你用强标注的数据集，你可以把帧级别输出的结果直接拿去算loss，这样就可以了。

很期待在这个上面做出的结果！