shenyunhang / APE

[CVPR 2024] Aligning and Prompting Everything All at Once for Universal Visual Perception
https://arxiv.org/abs/2312.02153
Apache License 2.0
459 stars 28 forks source link

cost #23

Open Zesheng666 opened 6 months ago

Zesheng666 commented 6 months ago

这个APE(D)在多少张卡上训练的啊,一共用了多少卡时??

shenyunhang commented 5 months ago

APE的训练是16张V100-32G,大概30-40天,中间有少量中断。

Zesheng666 commented 5 months ago

有没有包括预训练那部分的时间啊,我也正在做类似的项目,1024*1024的分辨率,batchsize 就每张卡一张图,花费的时间就非常非常长,你们具体是什么一个情况呢

shenyunhang commented 5 months ago

APE是直接用基于CLIP预训练后的ViT和文本编码器。APE本身只训练一次。

我们训练也确实很慢,大概3s一个step,APE-D总共训练1080k个steps。

前期我们是用R50验证有提升,后面才用更大模型。

Zesheng666 commented 5 months ago

你们当时有没有考虑用EVA_CLIP中VIT 作为BACK BONE ,或者有没有做这样得尝试呢

shenyunhang commented 5 months ago

APE模型已经是用了EVA_CLIP的视觉和文本编码器。

DiSheng555 commented 2 months ago

作者,你好,我在用/APE/configs/COCO_Detection/deformable_deta/deformable_deta_vitl_eva02_lsj1024_cp_12ep.py这配置文件,做coco检测的训练时候,出现 image

错误,是什么原因引起吗?

shenyunhang commented 2 months ago

作者,你好,我在用/APE/configs/COCO_Detection/deformable_deta/deformable_deta_vitl_eva02_lsj1024_cp_12ep.py这配置文件,做coco检测的训练时候,出现 image

错误,是什么原因引起吗?

34