HWNHJJ commented 3 years ago

您好，当我在spcl的mian函数中将joint=False设置为joint=True时，显示以下错误： File "/home/amax/OpenUnReID/openunreid/models/losses/memory.py", line 112, in forward sim = torch.zeros(labels.max() + 1, B).float().cuda() TypeError: zeros() received an invalid combination of arguments - got (Tensor, int), but expected one of:

(tuple of ints size, *, tuple of names names, torch.dtype dtype, torch.layout layout, torch.device device, bool pin_memory, bool requires_grad)
(tuple of ints size, *, Tensor out, torch.dtype dtype, torch.layout layout, torch.device device, bool pin_memory, bool requires_grad) 请问可否提供可能的解决方法呢？选择的两个数据集是duke和market，其中duke不带标签

yxgeee commented 3 years ago

SpCL这边不要把main里面joint改成True，这样会影响数据的index的。这边joint=False不代表不能joint train，不用担心，这边意思只是没把多个数据集的index和label合在一起。算法还是跟论文中一样的。

HWNHJJ commented 3 years ago

SpCL这边不要把main里面joint改成True，这样会影响数据的index的。这边joint=False不代表不能joint train，不用担心，这边意思只是没把多个数据集的index和label合在一起。算法还是跟论文中一样的。

非常感谢您的详细解答。此外，我还遇到了一个新问题，当我使用market和duke数据集一同训练spcl时，运行了两次测出的结果均为79+%,请问这有可能是哪些原因造成的呢？更改的参数设置如下： TRAIN:
datasets: {'market1501': 'trainval','dukemtmcreid': 'trainval'} unsup_dataset_indexes: [1,] val_dataset: 'dukemtmcreid' TEST: datasets: ['dukemtmcreid',]

打印出来的所有参数设置如下：

cfg.LOCAL_RANK: 0 cfg.DATA_ROOT: ../datasets cfg.LOGS_ROOT: ../logs

cfg.MODEL = edict() cfg.MODEL.backbone: resnet50 cfg.MODEL.pooling: gem cfg.MODEL.embed_feat: 0 cfg.MODEL.dropout: 0.0 cfg.MODEL.dsbn: True cfg.MODEL.sync_bn: True cfg.MODEL.samples_per_bn: 16 cfg.MODEL.mean_net: False cfg.MODEL.alpha: 0.999 cfg.MODEL.imagenet_pretrained: True cfg.MODEL.source_pretrained: None

cfg.DATA = edict() cfg.DATA.height: 256 cfg.DATA.width: 128 cfg.DATA.norm_mean: [0.485, 0.456, 0.406] cfg.DATA.norm_std: [0.229, 0.224, 0.225]

cfg.DATA.TRAIN = edict() cfg.DATA.TRAIN.is_autoaug: False cfg.DATA.TRAIN.is_flip: True cfg.DATA.TRAIN.flip_prob: 0.5 cfg.DATA.TRAIN.is_pad: True cfg.DATA.TRAIN.pad_size: 10 cfg.DATA.TRAIN.is_blur: False cfg.DATA.TRAIN.blur_prob: 0.5 cfg.DATA.TRAIN.is_erase: True cfg.DATA.TRAIN.erase_prob: 0.5 cfg.DATA.TRAIN.is_mutual_transform: False cfg.DATA.TRAIN.mutual_times: 2

cfg.TRAIN = edict() cfg.TRAIN.seed: 1 cfg.TRAIN.deterministic: True cfg.TRAIN.amp: False

cfg.TRAIN.datasets = edict() cfg.TRAIN.datasets.market1501: trainval cfg.TRAIN.datasets.dukemtmcreid: trainval cfg.TRAIN.unsup_dataset_indexes: [1] cfg.TRAIN.epochs: 50 cfg.TRAIN.iters: 400

cfg.TRAIN.LOSS = edict()

cfg.TRAIN.LOSS.losses = edict() cfg.TRAIN.LOSS.losses.hybrid_memory: 1.0 cfg.TRAIN.LOSS.temp: 0.05 cfg.TRAIN.LOSS.momentum: 0.2 cfg.TRAIN.val_dataset: dukemtmcreid cfg.TRAIN.val_freq: 5

cfg.TRAIN.SAMPLER = edict() cfg.TRAIN.SAMPLER.num_instances: 4 cfg.TRAIN.SAMPLER.is_shuffle: True

cfg.TRAIN.LOADER = edict() cfg.TRAIN.LOADER.samples_per_gpu: 16 cfg.TRAIN.LOADER.workers_per_gpu: 2

cfg.TRAIN.PSEUDO_LABELS = edict() cfg.TRAIN.PSEUDO_LABELS.freq: 1 cfg.TRAIN.PSEUDO_LABELS.use_outliers: True cfg.TRAIN.PSEUDO_LABELS.norm_feat: True cfg.TRAIN.PSEUDO_LABELS.norm_center: True cfg.TRAIN.PSEUDO_LABELS.cluster: dbscan cfg.TRAIN.PSEUDO_LABELS.eps: [0.58, 0.6, 0.62] cfg.TRAIN.PSEUDO_LABELS.min_samples: 4 cfg.TRAIN.PSEUDO_LABELS.dist_metric: jaccard cfg.TRAIN.PSEUDO_LABELS.k1: 30 cfg.TRAIN.PSEUDO_LABELS.k2: 6 cfg.TRAIN.PSEUDO_LABELS.search_type: 0 cfg.TRAIN.PSEUDO_LABELS.cluster_num: None

cfg.TRAIN.OPTIM = edict() cfg.TRAIN.OPTIM.optim: adam cfg.TRAIN.OPTIM.lr: 0.00035 cfg.TRAIN.OPTIM.weight_decay: 0.0005

cfg.TRAIN.SCHEDULER = edict() cfg.TRAIN.SCHEDULER.lr_scheduler: single_step cfg.TRAIN.SCHEDULER.stepsize: 20 cfg.TRAIN.SCHEDULER.gamma: 0.1

cfg.TEST = edict() cfg.TEST.datasets: ['dukemtmcreid']

cfg.TEST.LOADER = edict() cfg.TEST.LOADER.samples_per_gpu: 32 cfg.TEST.LOADER.workers_per_gpu: 2 cfg.TEST.dist_metric: euclidean cfg.TEST.norm_feat: True cfg.TEST.dist_cuda: True cfg.TEST.rerank: False cfg.TEST.search_type: 0 cfg.TEST.k1: 20 cfg.TEST.k2: 6 cfg.TEST.lambda_value: 0.3 cfg.launcher: none cfg.tcp_port: 5017 cfg.work_dir: ../logs/config cfg.total_gpus: 2 The training is in a un/semi-supervised manner with 2 dataset(s) (['market1501', 'dukemtmcreid']), where ['dukemtmcreid'] have no labels.

yxgeee commented 3 years ago

top-1 79%？跟GPU数量有关吧，你这边是2张卡？

HWNHJJ commented 3 years ago

top-1 79%？跟GPU数量有关吧，你这边是2张卡？

感谢葛博士，我用的是两张显卡。经您提醒后，我将samples_per_gpu改为默认参数的两倍后获得了 LEADERBOARD.md中给出的性能。

HWNHJJ commented 3 years ago

尊敬的葛博士：您好，我在使用spcl+时仍然有一个问题。之前我按使用的显卡数将samples_per_gpu改为默认参数的两倍后，测得的结果top1为83.0%，和LEADERBOARD.md中的结果应该在随机误差范围内，因此我当时回复达到了LEADERBOARD.md中的性能。但当我第二次测试时，得到的结果top1只有82.4%，和LEADERBOARD.md的结果有了较大的差异。请问在双卡运行时还有哪些需要注意的地方吗？

yxgeee commented 3 years ago

我一直用四卡训练的，ReID对batchsize比较敏感，如果只有两张卡的话，试一下把batchsize改成32，每张卡还是维持16

open-mmlab / OpenUnReID

spcl 无监督域自适应 #23

打印出来的所有参数设置如下：