关于"distilling from teacher’s higher levels adversely affects training of the student."的思考

dvlab-research / ReviewKD

Distilling Knowledge via Knowledge Review, CVPR 2021

248 stars 34 forks source link

Open littletomatodonkey opened 1 year ago

littletomatodonkey commented 1 year ago

今天重新读了一遍论文，对于下面不同stage的feature map，有一些蒸馏实验结果

并且有以下结论

个人认为这里的higher level并非是网络深度来定义的，而是由feature map分辨率来定义的（分辨率越小，level越higher），否则的话，相同stage下，teacher model的深度是大于student model的，想请教下作者关于这里的理解，也欢迎大家一起讨论~

PGCJ commented 1 year ago

我实验的时候，我的数据用单纯的HCL比ABF+HCL更好一点点。我觉得是HCL的金字塔结构（也就是你说的feature map分辨率）是他最有效的地方

akuxcw commented 1 year ago

对，这里的higher level确实应该是分辨率来定义的，在写paper的时候想的是以stage为单位来定义网络的深度的，一般来说一个stage就是同一个分辨率的网络模块，所以higher level指的是stage更多的，而不是卷积层更多的，确实存在一定歧义，感谢指出！

关于ABF和HCL的作用，按我的经验来说，确实不同数据集上面蒸馏方式的work程度是不一样的，所以有这样的结论也是合理的。