为什么不使用foreground_score来获取top K的初始reference_points，而是使用enc_outputs_class？

xiuqhou / Salience-DETR

[CVPR 2024] Official implementation of the paper "Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement"

Apache License 2.0

105 stars 7 forks source link

Question

感谢作者开源这个精彩工作的代码！但是根据我对论文的理解，有一个关于筛选初始reference_points（enc_outputs_coord）的疑问，烦请拨冗解答，感谢！

根据论文的描述，通过Salience-guided supervision的训练获取的foreground_score（salience_score）具有较强的分辨前后景query的能力——但是看代码在salience_transformer.py的实现，进入decoder的初始reference_points仍然是根据encoder_class_head预测出的enc_outputs_class来选择reference_points的，为什么不根据foreground_score的大小来选择top k的reference_points呢？

期待您的解答。

补充信息

No response

xiuqhou / Salience-DETR

为什么不使用foreground_score来获取top K的初始reference_points，而是使用enc_outputs_class？ #22

Question

补充信息