Closed sanli0 closed 2 years ago
有一些帧级别的标注音频,想训练一个声音事件检测的模型,但是看你们这个只有audioset数据集的训练方法,如果换成这种帧级别的标签,该如何重新构建训练方案?
Hi,
可以重点查看model文件中的输出,有一个是framewise_output, 还有一个是clipwise_output,这两个一个对应的是帧级别(或者一定resolution下的帧级别)的标签,一个是弱标签。如果你用强标注的数据集,你可以把帧级别输出的结果直接拿去算loss,这样就可以了。
很期待在这个上面做出的结果!
有一些帧级别的标注音频,想训练一个声音事件检测的模型,但是看你们这个只有audioset数据集的训练方法,如果换成这种帧级别的标签,该如何重新构建训练方案?