xinyu1205 / recognize-anything

Open-source and strong foundation image recognition models.
https://recognize-anything.github.io/
Apache License 2.0
2.58k stars 245 forks source link

模型训练问题 #139

Open mobach626 opened 6 months ago

mobach626 commented 6 months ago

大佬,我用您的代码里面默认的swin-l pretrain用的coco和vg,但是训练好的模型看啥都是星空和棒球手套,所以想了解下您的训练细节,另外论文里面我看是用的swin-b训练的这里提供的权重实际上是l的对吧,下面是我的配置 train_file: [ 'datasets/train/coco_train_rmcocodev_ram.json', 'datasets/train/vg_ram.json', ] image_path_root: "/data/mobach"

size of vit model; base or large

vit: 'swin_l' vit_grad_ckpt: False vit_ckpt_layer: 0

image_size: 224 batch_size: 20

optimizer

weight_decay: 0.05 init_lr: 1e-4 min_lr: 5e-7 warmup_lr: 5e-7 lr_decay_rate: 0.9 max_epoch: 5 warmup_steps: 3000

class_num: 4585

xinyu1205 commented 6 months ago

你好,公开的config参数是针对4m和14m数据集的超参数。 如果只跑coco和vg的话,可能需要修改超参数,不过哪怕是目前的参数,输出应该也不会全是星空和棒球手套,请查看训练和测试代码是否正确,一般一两个epoch之后就可以测试模型性能。

mobach626 commented 6 months ago

感谢您的回复,我再试试改下其他配置试试,我试着用这里提供的预训练的swin-l的权重去蒸馏前面backbone改成swin-t的结果也是Image Tags: baseball glove | floor | sea | sky 图像标签: 棒球手套 | 地板/地面 | 海洋 | 天空

mobach626 commented 6 months ago

你好,公开的config参数是针对4m和14m数据集的超参数。 如果只跑coco和vg的话,可能需要修改超参数,不过哪怕是目前的参数,输出应该也不会全是星空和棒球手套,请查看训练和测试代码是否正确,一般一两个epoch之后就可以测试模型性能。

你好,我下载下来SBU的原始数据发现与下载的SBU的标签文件里面的图像路径的名字不一样,是要再做些其他处理吗,我看论文里面好像做了数据清洗

xinyu1205 commented 6 months ago

我们没有修改图像路径,数据清洗只是清洗了图像对应的tag和text。 数据下载部分不是我负责的,因此具体如何match的细节我也不清楚

mobach626 commented 6 months ago

我们没有修改图像路径,数据清洗只是清洗了图像对应的tag和text。 数据下载部分不是我负责的,因此具体如何match的细节我也不清楚

好的,多谢了

inkzk commented 5 months ago

你好,公开的config参数是针对4m和14m数据集的超参数。 如果只跑coco和vg的话,可能需要修改超参数,不过哪怕是目前的参数,输出应该也不会全是星空和棒球手套,请查看训练和测试代码是否正确,一般一两个epoch之后就可以测试模型性能。

你好,我下载下来SBU的原始数据发现与下载的SBU的标签文件里面的图像路径的名字不一样,是要再做些其他处理吗,我看论文里面好像做了数据清洗

@mobach626 @xinyu1205 hi, sbu的路径映射解决了吗?求方案