HikariTJU / LD

Localization Distillation for Object Detection (CVPR 2022, TPAMI 2023)
Apache License 2.0
355 stars 51 forks source link

使用LD的参数变化 #34

Closed Audrey528 closed 2 years ago

Audrey528 commented 2 years ago

WeChat Image_20220509105231 您好,我在研读您的论文的时候发现使用LD的模型参数不会减低,反而会增加。我理解的知识蒸馏是一种模型压缩的方法,我有些困惑,希望您能解答。

HikariTJU commented 2 years ago

我们的方法实际上可以分为两步:

  1. 回归目标改成一般分布(General Distribution)
  2. 知识蒸馏

增加的参数是第一步造成的,所以你可以看到GFocal的参数量没有增加(因为GFocal本就是一般分布)。 另外,知识蒸馏是不能减少模型参数量的,它做的是让小模型接近大模型的性能。与量化,剪枝等模型压缩方法相比在这点上有所区别。