多卡训练效果变差

wbfor commented 4 years ago

我在训练mgn网络时发现，相同超参下如果使用多卡训练，loss的下降速度明显变慢，最终效果会差比较多，考虑到可能是bn的问题，如果把backbone和heads中的bn换为syncBN也没有改善这个问题，请问有什么好的办法或经验使用多卡训练吗，谢谢

L1aoXingyu commented 4 years ago

可以发一下你的 config.yaml 文件吗？我用64的batchsize，syncBN，效果和单卡是一致的

zhanghongruiupup commented 4 years ago

可以发一下你的 config.yaml 文件吗？我用64的batchsize，syncBN，效果和单卡是一致的

谢谢你的分享，关注你半年了，真的太强了请问backbone 和 head都设置为syncBN吗？冻结层只是在前2000 iter冻结骨干网络？谢谢

L1aoXingyu commented 4 years ago

是的，就是按照单卡的config，把bn换成syncbn，效果应该和单卡差不多

wbfor commented 4 years ago

可以发一下你的 config.yaml 文件吗？我用64的batchsize，syncBN，效果和单卡是一致的

我的config设置是： BASE: "../Base-MGN.yml"

MODEL: BACKBONE: PRETRAIN_PATH: "/home/wbfor/pretrained/ibn/r50_ibn_a.pth" WITH_IBN: True NORM: 'syncBN' HEADS: NUM_CLASSES: 751 NORM: 'syncBN'

DATASETS: NAMES: ("Market1501",) TESTS: ("Market1501",)

OUTPUT_DIR: "logs/market/mgn_R50-ibn" 然后用单卡和双卡分别训练对比如下：蓝色是双卡的loss，橙色是单卡的loss 单卡最终结果是：双卡最终结果是：之前还跑过三卡和其他多卡的结果确实是变差，不过结果没有截图，能帮忙分析下是什么原因吗，谢谢

L1aoXingyu commented 4 years ago

你的 cls_layer 用的是 linear 吗？可以放一个完整的 config.yaml，这个可以再你的 OUPUT_DIR 里面找到。

wbfor commented 4 years ago

你的 cls_layer 用的是 linear 吗？可以放一个完整的 config.yaml，这个可以再你的 OUPUT_DIR 里面找到。
cls_layer使用的是circle

CUDNN_BENCHMARK: true DATALOADER: NUM_INSTANCE: 16 NUM_WORKERS: 16 PK_SAMPLER: true DATASETS: COMBINEALL: false NAMES:

Market1501 TESTS:
Market1501 INPUT: DO_AUGMIX: false DO_AUTOAUG: true DO_CJ: false DO_FLIP: true DO_PAD: true FLIP_PROB: 0.5 PADDING: 10 PADDING_MODE: constant REA: ENABLED: true MEAN:
- 123.675
- 116.28
- 103.53 PROB: 0.5 RPT: ENABLED: false PROB: 0.5 SIZE_TEST:
384
128 SIZE_TRAIN:
384
128 MODEL: BACKBONE: DEPTH: 50 LAST_STRIDE: 1 NAME: build_resnet_backbone NORM: syncBN NORM_SPLIT: 1 PRETRAIN: true PRETRAIN_PATH: /home/wbfor/pretrained/ibn/r50_ibn_a.pth WITH_IBN: true WITH_NL: false WITH_SE: false HEADS: CLS_LAYER: circle IN_FEAT: 256 MARGIN: 0.35 NAME: BNneckHead NECK_FEAT: after NORM: syncBN NORM_SPLIT: 1 NUM_CLASSES: 751 POOL_LAYER: gempool REDUCTION_DIM: 512 SCALE: 64 LOSSES: CE: ALPHA: 0.3 EPSILON: 0.1 SCALE: 0.125 FL: ALPHA: 0.25 GAMMA: 2 SCALE: 1.0 NAME:
- CrossEntropyLoss
- TripletLoss TRI: HARD_MINING: true MARGIN: 0.0 NORM_FEAT: false SCALE: 0.2 USE_COSINE_DIST: false META_ARCHITECTURE: MGN OPEN_LAYERS:
b1_pool
b1_head
b2_pool
b2_head
b21_pool
b21_head
b22_pool
b22_head
b3_pool
b3_head
b31_pool
b31_head
b32_pool
b32_head
b33_pool
b33_head PIXEL_MEAN:
123.675
116.28
103.53 PIXEL_STD:
58.395
57.120000000000005
57.375 WEIGHTS: '' OUTPUT_DIR: logs/market/mgn_R50-ibn SOLVER: BASE_LR: 0.00035 BIAS_LR_FACTOR: 2.0 CHECKPOINT_PERIOD: 6000 DELAY_ITERS: 9000 ETA_MIN_LR: 7.7e-07 FREEZE_ITERS: 2000 GAMMA: 0.1 HEADS_LR_FACTOR: 1.0 IMS_PER_BATCH: 64 LOG_PERIOD: 200 MAX_ITER: 18000 MOMENTUM: 0.9 OPT: Adam SCHED: DelayedCosineAnnealingLR STEPS:
30
55 SWA: ENABLED: false ETA_MIN_LR: 3.5e-06 ITER: 0 LR_FACTOR: 10.0 LR_SCHED: false PERIOD: 10 WARMUP_FACTOR: 0.01 WARMUP_ITERS: 2000 WARMUP_METHOD: linear WEIGHT_DECAY: 0.0005 WEIGHT_DECAY_BIAS: 0.0 TEST: AQE: ALPHA: 3.0 ENABLED: false QE_K: 5 QE_TIME: 1 EVAL_PERIOD: 2000 IMS_PER_BATCH: 256 METRIC: cosine PRECISE_BN: DATASET: DukeMTMC ENABLED: false NUM_ITER: 300 RERANK: ENABLED: false K1: 20 K2: 6 LAMBDA: 0.3

L1aoXingyu commented 4 years ago

you help me find a bug, there is a single-GPU BN in mgn pool_reduce

https://github.com/JDAI-CV/fast-reid/blob/94d85fe11cde1d972cbd16b4c3d5cd91c54c74cb/fastreid/modeling/meta_arch/mgn.py#L108

I think this is exactly the reason why the multi-GPU training performance is lower than sinlge-GPU training.

I have fixed it.

wbfor commented 4 years ago

thank u!

finger-monkey commented 4 years ago

you help me find a bug, there is a single-GPU BN in mgn pool_reduce

https://github.com/JDAI-CV/fast-reid/blob/94d85fe11cde1d972cbd16b4c3d5cd91c54c74cb/fastreid/modeling/meta_arch/mgn.py#L108

I think this is exactly the reason why the multi-GPU training performance is lower than sinlge-GPU training.

I have fixed it.

sbs_R101-ibn.yml这个的多卡训练效果也会变差（没有改动任何配置）。精度先是升高然后不断降低。还有想问一下：您之前修正的 mgn pool_reduce bug更新到github里了吗

finger-monkey commented 4 years ago

you help me find a bug, there is a single-GPU BN in mgn pool_reduce https://github.com/JDAI-CV/fast-reid/blob/94d85fe11cde1d972cbd16b4c3d5cd91c54c74cb/fastreid/modeling/meta_arch/mgn.py#L108

I think this is exactly the reason why the multi-GPU training performance is lower than sinlge-GPU training. I have fixed it.

sbs_R101-ibn.yml这个的多卡训练效果也会变差（没有改动任何配置）。精度先是升高然后不断降低。还有想问一下：您之前修正的 mgn pool_reduce bug更新到github里了吗另外还想问一下：训练 sbs_R101-ibn （resnet101_ibn_a.pth）的模型里是否使用了随机擦除？

L1aoXingyu commented 4 years ago

@finger-monkey 如果多卡的话，你要用 syncBN 才行，不能用默认配置，默认配置都是在单卡上跑的。

BTW，那个 bug 已经 fix 了。

969191832 commented 4 years ago

拉取了最新的代码，在bagtricks设置下，Baseline，market1501数据集，分别在一块gpu，和两块gpu(使用syncBN)跑了实验，

1 gpu结果：

2 gpu结果：

两卡设置的是syncBN，性能还是明显对不上，请问还有哪里设置需要修改么，谢谢

L1aoXingyu commented 4 years ago

现在多卡使用的是 DDP 的方式，因为多卡之间的通讯机制以及跨卡梯度无法传递的问题，triplet loss 确实存在掉点，这个问题还没有很好的解决方法。我们目前采用的是 memory bank 的方式来解决大规模 DDP 训练。

zhanghongruiupup commented 4 years ago

现在多卡使用的是 DDP 的方式，因为多卡之间的通讯机制以及跨卡梯度无法传递的问题，triplet loss 确实存在掉点，这个问题还没有很好的解决方法。我们目前采用的是 memory bank 的方式来解决大规模 DDP 训练。

请问最新的多卡分布式训练解决掉点问题了吗？

L1aoXingyu commented 4 years ago

请问最新的多卡分布式训练解决掉点问题了吗？

应该几乎不掉点了，you can try it by yourself.

22wei22 commented 3 years ago

现在多卡使用的是 DDP 的方式，因为多卡之间的通讯机制以及跨卡梯度无法传递的问题，triplet loss 确实存在掉点，这个问题还没有很好的解决方法。我们目前采用的是 memory bank 的方式来解决大规模 DDP 训练。

请问最新的多卡分布式训练解决掉点问题了吗？

请问最新的多卡分布式训练解决掉点问题了吗？

应该几乎不掉点了，you can try it by yourself.

请问使用memory bank 的方式来解决大规模 DDP 训练，相关代码在哪个位置？

JDAI-CV / fast-reid

多卡训练效果变差 #82