shenyunhang / APE

[CVPR 2024] Aligning and Prompting Everything All at Once for Universal Visual Perception

https://arxiv.org/abs/2312.02153

Apache License 2.0

459 stars 28 forks source link

Open Zesheng666 opened 6 months ago

Zesheng666 commented 6 months ago

这个APE（D）在多少张卡上训练的啊，一共用了多少卡时？？

shenyunhang commented 5 months ago

APE的训练是16张V100-32G，大概30-40天，中间有少量中断。

Zesheng666 commented 5 months ago

有没有包括预训练那部分的时间啊，我也正在做类似的项目，1024*1024的分辨率，batchsize 就每张卡一张图，花费的时间就非常非常长，你们具体是什么一个情况呢

shenyunhang commented 5 months ago

APE是直接用基于CLIP预训练后的ViT和文本编码器。APE本身只训练一次。

我们训练也确实很慢，大概3s一个step，APE-D总共训练1080k个steps。

前期我们是用R50验证有提升，后面才用更大模型。

Zesheng666 commented 5 months ago

你们当时有没有考虑用EVA_CLIP中VIT 作为BACK BONE ,或者有没有做这样得尝试呢

shenyunhang commented 5 months ago

APE模型已经是用了EVA_CLIP的视觉和文本编码器。

DiSheng555 commented 2 months ago

作者，你好，我在用/APE/configs/COCO_Detection/deformable_deta/deformable_deta_vitl_eva02_lsj1024_cp_12ep.py这配置文件，做coco检测的训练时候，出现

错误，是什么原因引起吗？

shenyunhang commented 2 months ago

作者，你好，我在用/APE/configs/COCO_Detection/deformable_deta/deformable_deta_vitl_eva02_lsj1024_cp_12ep.py这配置文件，做coco检测的训练时候，出现

错误，是什么原因引起吗？

34