实验结果不理想，能否提供进一步指导啊？

OpenGVLab / UniFormerV2

[ICCV2023] UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer

https://arxiv.org/abs/2211.09552

Apache License 2.0

294 stars 19 forks source link

实验结果不理想，能否提供进一步指导啊？ #46

Closed bxf1 closed 11 months ago

bxf1 commented 1 year ago

您好，很感谢你们精彩的工作，进一步提升了动作识别效果。我按照你们的实验配置训练了K400数据集，没有得到理想中的结果，top1精度为76%，方便的话能否提供一下训练的log文件，我想进一步检查并对齐一下，谢谢🙏

Andy1621 commented 1 year ago

能否提供你的具体训练设置以及参数，K400数据集的数量统计，以及你的训练输出？

这边需要额训练log是什么训练设置的呢？我看看还有没有备份

bxf1 commented 1 year ago

1.我的训练设置： trainer: # Required. test_start: 0 max_epoch: max_epoch test_freq: 1 save_freq: 5 only_save_latest: False optimizer:
type: AdamW kwargs: lr: 1.e-5 weight_decay: 0.05 lr_scheduler:
warmup_epochs: 5
warmup_type: linear warmup_register_type: no_scale_lr warmup_ratio: 0.1 type: CosineAnnealingLR_Iter kwargs: T_max: max_epoch # decay rate warmup_epoch: 5
2.训练的K400数据集数量统计：训练集：240436 测试集：19796 3.数据增强：transformer: [GroupMultiresizeCrop,GroupRandomHorizontalFlip,GroupColorJitter, Stack,ToTorchFormatTensor,GroupNormalize]

Andy1621 commented 1 year ago

这个是哪个模型呢，我找一找log

bxf1 commented 1 year ago

uniformerV2_b16模型，加载CLIP预训练权重后直接训练K400，我后来在issue#21中发现你已经发了部分log,我对照着修改了参数，前期和你log的精度上升基本吻合，将近十几个epoch之后我这边的精度上升就明显慢于你log上的速度了

Andy1621 commented 1 year ago

多少卡，batch多大，学习率多少呢，CLIP ft对学习率比较敏感

bxf1 commented 1 year ago

32卡，每卡的batchsize为16，学习率设置了1e-5

Andy1621 commented 1 year ago

如果是按照这个config的话，当时我用的8卡总batch256，学习率1e-5。你的总batch512的话，学习率可以适当翻倍用2e-5 https://github.com/OpenGVLab/UniFormerV2/blob/7c18fd691d42cb2d1fda801883b0a40bb5f43ff5/exp/k400/k400_b16_f8x224/run.sh#L2-L4

bxf1 commented 1 year ago

好的好的，谢谢，我试试