shenyunhang / APE

[CVPR 2024] Aligning and Prompting Everything All at Once for Universal Visual Perception
https://arxiv.org/abs/2312.02153
Apache License 2.0
478 stars 29 forks source link

nms_thresh_phrase是什么作用 #46

Open Baboom-l opened 4 months ago

Baboom-l commented 4 months ago

我看Dataset里对数据做了nms,这是出于什么考虑

shenyunhang commented 4 months ago

可能多个不同短语是描述同一个物体,所以训练时候通过NMS保留一个。

Baboom-l commented 4 months ago

那不同短语之间得计算相似性吧,这块是通过clip的文本编码器实现吗?