OpenGVLab / UniFormerV2

[ICCV2023] UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer
https://arxiv.org/abs/2211.09552
Apache License 2.0
294 stars 19 forks source link

实验结果不理想,能否提供进一步指导啊? #46

Closed bxf1 closed 11 months ago

bxf1 commented 1 year ago

您好,很感谢你们精彩的工作,进一步提升了动作识别效果。我按照你们的实验配置训练了K400数据集,没有得到理想中的结果,top1精度为76%,方便的话能否提供一下训练的log文件,我想进一步检查并对齐一下,谢谢🙏

Andy1621 commented 1 year ago

能否提供你的具体训练设置以及参数,K400数据集的数量统计,以及你的训练输出?

这边需要额训练log是什么训练设置的呢?我看看还有没有备份

bxf1 commented 1 year ago

1.我的训练设置: trainer: # Required. test_start: 0 max_epoch: max_epoch test_freq: 1 save_freq: 5 only_save_latest: False optimizer:
type: AdamW kwargs: lr: 1.e-5 weight_decay: 0.05 lr_scheduler:
warmup_epochs: 5
warmup_type: linear warmup_register_type: no_scale_lr warmup_ratio: 0.1 type: CosineAnnealingLR_Iter kwargs: T_max:
max_epoch # decay rate warmup_epoch: 5
2.训练的K400数据集数量统计:训练集:240436 测试集:19796 3.数据增强:transformer: [GroupMultiresizeCrop,GroupRandomHorizontalFlip,GroupColorJitter, Stack,ToTorchFormatTensor,GroupNormalize]

Andy1621 commented 1 year ago

这个是哪个模型呢,我找一找log

bxf1 commented 1 year ago

uniformerV2_b16模型,加载CLIP预训练权重后直接训练K400,我后来在issue#21中发现你已经发了部分log,我对照着修改了参数,前期和你log的精度上升基本吻合,将近十几个epoch之后我这边的精度上升就明显慢于你log上的速度了

Andy1621 commented 1 year ago

多少卡,batch多大,学习率多少呢,CLIP ft对学习率比较敏感

bxf1 commented 1 year ago

32卡,每卡的batchsize为16,学习率设置了1e-5

Andy1621 commented 1 year ago

如果是按照这个config的话,当时我用的8卡总batch256,学习率1e-5。你的总batch512的话,学习率可以适当翻倍用2e-5 https://github.com/OpenGVLab/UniFormerV2/blob/7c18fd691d42cb2d1fda801883b0a40bb5f43ff5/exp/k400/k400_b16_f8x224/run.sh#L2-L4

bxf1 commented 1 year ago

好的好的,谢谢,我试试