Open junxnone opened 7 months ago
Open Vocabulary Object Detection - OVOD
引入 VLM 和在大规模数据集上预训练增强 YOLO 的词汇检测能力
目前的开放词汇检测器存在的问题:
YOLO-world 高效易部署
下游任务
Input: Image & Text
* Image Encoder(Darknet Backbone - YOLOv8 Detector) * Text Encoder(CLIP): Frozen * n-gram 算法提取名词短语 * Text Contrastive Head * RepVL-PAN(增强文本和图像表示) * T-CSPLayer: Text-guided Cross Stage Partial Layer : Text info --> Image feature  * max-sigmoid attention * I-Pooling Attention(Image Pooling Attention)
* Total Loss = Contrastive Loss + λ \* (IoU Loss + Distributed Focal Loss) * Pseudo Labeling:  * 利用 n-gram 提取名词短语 * 利用 OVD(GLIP) 生成 Pseudo Boxes 提供初略的区域-文本对 * 采用预训练的 CLIP 来 评估 image-text /region-text 对,过滤掉低相关性的标记 * NMS 过滤冗余BBox * Traing Datasets: Object365/GQA/Flickr/CC3M * Test Datasets: LVIS/COCO
S/M/L/X
YOLO v8 S/M/L/X
I-PoolingAttention
contrastive head
L2-Norm
BatchNorm
reduce
YOLO-World
Open Vocabulary Object Detection - OVOD
现状
引入 VLM 和在大规模数据集上预训练增强 YOLO 的词汇检测能力
目前的开放词汇检测器存在的问题:
YOLO-world 高效易部署
下游任务
相关工作
Input: Image & Text
模型架构
预训练方法
测试结果
YOLO World S/M/L/X/XL and v1/v2
S/M/L/X
config 文件中使用了不同的YOLO v8 S/M/L/X
, 其他均相同I-PoolingAttention
: 该部分可以提升在 LVIS 上的 zero-shot 性能,但是会影响 ONNX/TensorRT 上的 Inference 速度contrastive head
中的L2-Norm
为BatchNorm
:L2-Norm
中包含如reduce
等耗时的操作,影响部署时的性能.Reference