xinyu1205 / recognize-anything

Open-source and strong foundation image recognition models.

https://recognize-anything.github.io/

Apache License 2.0

2.58k stars 245 forks source link

模型训练问题 #139

Open mobach626 opened 6 months ago

mobach626 commented 6 months ago

大佬，我用您的代码里面默认的swin-l pretrain用的coco和vg，但是训练好的模型看啥都是星空和棒球手套，所以想了解下您的训练细节，另外论文里面我看是用的swin-b训练的这里提供的权重实际上是l的对吧，下面是我的配置 train_file: [ 'datasets/train/coco_train_rmcocodev_ram.json', 'datasets/train/vg_ram.json', ] image_path_root: "/data/mobach"

size of vit model; base or large

vit: 'swin_l' vit_grad_ckpt: False vit_ckpt_layer: 0

image_size: 224 batch_size: 20

optimizer

weight_decay: 0.05 init_lr: 1e-4 min_lr: 5e-7 warmup_lr: 5e-7 lr_decay_rate: 0.9 max_epoch: 5 warmup_steps: 3000

class_num: 4585

xinyu1205 commented 6 months ago

你好，公开的config参数是针对4m和14m数据集的超参数。如果只跑coco和vg的话，可能需要修改超参数，不过哪怕是目前的参数，输出应该也不会全是星空和棒球手套，请查看训练和测试代码是否正确，一般一两个epoch之后就可以测试模型性能。

mobach626 commented 6 months ago

感谢您的回复，我再试试改下其他配置试试，我试着用这里提供的预训练的swin-l的权重去蒸馏前面backbone改成swin-t的结果也是Image Tags: baseball glove | floor | sea | sky 图像标签: 棒球手套 | 地板/地面 | 海洋 | 天空

mobach626 commented 6 months ago

你好，公开的config参数是针对4m和14m数据集的超参数。如果只跑coco和vg的话，可能需要修改超参数，不过哪怕是目前的参数，输出应该也不会全是星空和棒球手套，请查看训练和测试代码是否正确，一般一两个epoch之后就可以测试模型性能。

你好，我下载下来SBU的原始数据发现与下载的SBU的标签文件里面的图像路径的名字不一样，是要再做些其他处理吗，我看论文里面好像做了数据清洗

xinyu1205 commented 6 months ago

我们没有修改图像路径，数据清洗只是清洗了图像对应的tag和text。数据下载部分不是我负责的，因此具体如何match的细节我也不清楚

mobach626 commented 6 months ago

我们没有修改图像路径，数据清洗只是清洗了图像对应的tag和text。数据下载部分不是我负责的，因此具体如何match的细节我也不清楚

好的，多谢了

inkzk commented 5 months ago

你好，公开的config参数是针对4m和14m数据集的超参数。如果只跑coco和vg的话，可能需要修改超参数，不过哪怕是目前的参数，输出应该也不会全是星空和棒球手套，请查看训练和测试代码是否正确，一般一两个epoch之后就可以测试模型性能。

你好，我下载下来SBU的原始数据发现与下载的SBU的标签文件里面的图像路径的名字不一样，是要再做些其他处理吗，我看论文里面好像做了数据清洗

@mobach626 @xinyu1205 hi, sbu的路径映射解决了吗？求方案