yeerwen / MedCoSS

CVPR 2024 (Highlight)
Other
90 stars 2 forks source link

IMM Augmentation Strategy #6

Closed kffeng closed 2 months ago

kffeng commented 2 months ago

感谢您们的工作,我有一个关于 IMM 的疑问。文中提到,对于文本或视觉数据,通过复制一份 b 并进行打乱以得到 b'。我不太明白,这里的打乱是对一个 mini-batch 中的 N 个样本进行打乱,还是对每个样本中的 L 个 tokens 进行打乱?不过,无论采用哪种方式,得到的 bmix 其语义信息岂不会被改变吗(尤其是对于文本数据)?

yeerwen commented 2 months ago

感谢你的提问,我们是对mini-batch中N个样本进行打乱。这种方式得到的b_mix会改变文本和图像的语义信息,但也正是我们需要的。对于图像来说,这是一种很常用的增广方式。对于文本来说,虽然不常用,但仍然可以作为一种增广,特别是需要模型具有强泛化能力时。我们这么设计不会造成模型学习紊乱的保证是,我们并不是进行MIM或者MLM的代理任务,而是进行知识蒸馏的操作。