音视频场景识别的基本要求2

chenxie95 / deeplearning_course_sjtu

14 stars 2 forks source link

Open BravoFr0st opened 2 years ago

BravoFr0st commented 2 years ago

2．分析有冲突的模态结果，i.e.在何种类别上多模态融合更有效 这里说的分析结果是分析什么结果? 在自己替换模型为前期/后期融合之前, 似乎只有一个baseline能分析, 但感觉上这个叙述是要求有一个对比的

BravoFr0st commented 2 years ago

还是说要自己写一个单模态的算法？

myw19 commented 2 years ago

这个分析主要是针对每一子类别的，模型在不同类别上的效果会不一样。比较子类别上音视频单模态以及融合后的结果差异。

BravoFr0st commented 2 years ago

也就是说自己构建一个单模态的模型，然后出结果，并且和baseline的结果进行每类别的比较？

wsntxxn commented 2 years ago

是的