Open Baboom-l opened 4 months ago
我看Dataset里对数据做了nms,这是出于什么考虑
可能多个不同短语是描述同一个物体,所以训练时候通过NMS保留一个。
那不同短语之间得计算相似性吧,这块是通过clip的文本编码器实现吗?
我看Dataset里对数据做了nms,这是出于什么考虑