关于音频事件检测

token semantic module 本质上就是一个CNN将频率轴进行了压缩，然后把channel的维度转换为了类别的维度，因为在这篇paper中它将其作为token semantic moduel称呼，我们也在我们的paper中用了这个说法；更进一步说，token semantic module还有一个attention的平均机制，你可能在我代码中的注释中有所看到，但是我们发现最后的效果比较类似，于是就没有使用。

关于定位的部分，你可以看到我们的model最后会输出一个527维的向量（对应audioset中的527）类，这个向量其实上是由上一层的(T，527)矩阵平均过来的，如果你只有弱标签，你就只能通过这个向量去做loss计算（因为你没有每一个时刻上的数据），如果你有强标签，你就不仅可以527维的向量去做loss计算，还可以加上用你强标签的数据转换成（T,527）的矩阵答案，和model的这个矩阵做loss。

如此一来，就可以用该model跑定位模型了