RetroCirce / HTS-Audio-Transformer

The official code repo of "HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection"
https://arxiv.org/abs/2202.00874
MIT License
341 stars 62 forks source link

关于音频事件检测 #19

Closed dong-0412 closed 2 years ago

dong-0412 commented 2 years ago

你好, 我想知道用于音频事件检测的部分,也就是关于定位的部分(在DESED数据上跑到模型),和那种在esc-50这种数据集上跑到分类任务相比,多了那些操作,可以大体说说吗。 论文中说是那个最后的Token Semantic Module实现了定位的功能,我是初学者只看到有卷积操作在里模块里面,可以粗略讲讲关于实现定位的细节吗。

RetroCirce commented 2 years ago

token semantic module 本质上就是一个CNN将频率轴进行了压缩,然后把channel的维度转换为了类别的维度,因为在这篇paper中它将其作为token semantic moduel称呼,我们也在我们的paper中用了这个说法;更进一步说,token semantic module还有一个attention的平均机制,你可能在我代码中的注释中有所看到,但是我们发现最后的效果比较类似,于是就没有使用。

关于定位的部分,你可以看到我们的model最后会输出一个527维的向量(对应audioset中的527)类,这个向量其实上是由上一层的(T,527)矩阵平均过来的,如果你只有弱标签,你就只能通过这个向量去做loss计算(因为你没有每一个时刻上的数据),如果你有强标签,你就不仅可以527维的向量去做loss计算,还可以加上用你强标签的数据转换成(T,527)的矩阵答案,和model的这个矩阵做loss。

如此一来,就可以用该model跑定位模型了