dvlab-research / ReviewKD

Distilling Knowledge via Knowledge Review, CVPR 2021
248 stars 34 forks source link

关于"distilling from teacher’s higher levels adversely affects training of the student."的思考 #21

Open littletomatodonkey opened 1 year ago

littletomatodonkey commented 1 year ago

今天重新读了一遍论文,对于下面不同stage的feature map,有一些蒸馏实验结果

image

并且有以下结论

image

个人认为这里的higher level并非是网络深度来定义的,而是由feature map分辨率来定义的(分辨率越小,level越higher),否则的话,相同stage下,teacher model的深度是大于student model的,想请教下作者关于这里的理解,也欢迎大家一起讨论~

PGCJ commented 1 year ago

我实验的时候,我的数据用单纯的HCL比ABF+HCL更好一点点。我觉得是HCL的金字塔结构(也就是你说的feature map分辨率)是他最有效的地方

akuxcw commented 1 year ago

对,这里的higher level确实应该是分辨率来定义的,在写paper的时候想的是以stage为单位来定义网络的深度的,一般来说一个stage就是同一个分辨率的网络模块,所以higher level指的是stage更多的,而不是卷积层更多的,确实存在一定歧义,感谢指出!

关于ABF和HCL的作用,按我的经验来说,确实不同数据集上面蒸馏方式的work程度是不一样的,所以有这样的结论也是合理的。