DocF / multispectral-object-detection

Multispectral Object Detection with Yolov5 and Transformer
GNU Affero General Public License v3.0
289 stars 56 forks source link

Training settings of FLIR #29

Open zjh21 opened 2 years ago

zjh21 commented 2 years ago

Thank you for your great work! I'd like to ask about your training settings of FLIR. I stuck to all default settings except for Batchsize. I set Batchsize to 8 due to limited GPU memory and got slightly worse performance (no better than mAP 38.2) and I wonder if Batchsize can cause this gap. Thank you very much!

非常感谢您的工作! 我很想问一问FLIR数据集上的训练配置。 我只调整了Batchsize,因为GPU显存有限,现在是8,我只能训练到38.2的mAP,但是显然您提供的权重能达到更高的分数,我很好奇是否单单是Batchsize导致了这一问题。 非常感谢!

zjh21 commented 2 years ago

@zjh21 您好,请问您有试过只用yolov5各模态单独跑吗,对于红外这个模态,无论是yolov5 5.0还是6.1版本,我都能跑出比作者给出的高得多的指标,甚至超过了融合的方法,请问你有这种情况吗

我没有试过,你也是用的FLIR数据集吗,如果的确这样,那倒是个值得研究的问题

JieZzzoo commented 2 years ago

@zjh21 您好,方便加下联系方式嘛?有几个关于多光谱yolo检测的问题想请教下,谢谢!

GXQ2020 commented 1 year ago

@zjh21 我也出现重新练不出来作者给的权重验证的数据,而且重训练的鲁棒性有点差,不知道您有没有遇到过,谢谢

medicineqian commented 1 year ago

@zjh21 您好,请问您有试过只用yolov5各模态单独跑吗,对于红外这个模态,无论是yolov5 5.0还是6.1版本,我都能跑出比作者给出的高得多的指标,甚至超过了融合的方法,请问你有这种情况吗

我也发现了这个问题,我跑的是FLIR数据集,图片大小都是320*320,预训练权重都是COCO上的yolov5l.pt 同样发现单模态表现比坐着提出的融合方法要好 同时还发现将双流网络输入全部设置为可见光比输入为可见+红外的效果要好

zjh21 commented 1 year ago

@zjh21 我也出现重新练不出来作者给的权重验证的数据,而且重训练的鲁棒性有点差,不知道您有没有遇到过,谢谢

请问什么叫鲁棒性有点差?我的结果是RGB-T的mAP到38.7左右

zjh21 commented 1 year ago

@zjh21 您好,请问您有试过只用yolov5各模态单独跑吗,对于红外这个模态,无论是yolov5 5.0还是6.1版本,我都能跑出比作者给出的高得多的指标,甚至超过了融合的方法,请问你有这种情况吗

我也发现了这个问题,我跑的是FLIR数据集,图片大小都是320*320,预训练权重都是COCO上的yolov5l.pt 同样发现单模态表现比坐着提出的融合方法要好 同时还发现将双流网络输入全部设置为可见光比输入为可见+红外的效果要好

请问您指标会达到多少?FLIR是一个比较困难的数据集,里面有大量的并排车辆,而且有标注错误(我尝试重标过1000张左右,后面放弃了),很多目标人都很难以分辨,CFT的40.0mAP已经是不容易取得的了。单纯使用yolov5,单模态达到高很多的得分有点让人吃惊,ECCV 2022的一篇ProbEn能达到80+的mAP50,注意是mAP50,不是mAP。 全部设置为可见光是重新训练了还是仅作测试?这是个值得研究的问题。一方面,FLIR数据集的可见光图像也能提供不少信息,我自己标注的时候经常会参考它。但是,另一方面,原始标注是按IR图像给的,也就是:有些在RGB图像中很明显的目标,因为它在IR图像中不明显,所以没有被标注。这在训练过程中会误导模型,测试时则会拉低mAP。

medicineqian commented 1 year ago

@zjh21 您好,请问您有试过只用yolov5各模态单独跑吗,对于红外这个模态,无论是yolov5 5.0还是6.1版本,我都能跑出比作者给出的高得多的指标,甚至超过了融合的方法,请问你有这种情况吗

我也发现了这个问题,我跑的是FLIR数据集,图片大小都是320*320,预训练权重都是COCO上的yolov5l.pt 同样发现单模态表现比坐着提出的融合方法要好 同时还发现将双流网络输入全部设置为可见光比输入为可见+红外的效果要好

请问您指标会达到多少?FLIR是一个比较困难的数据集,里面有大量的并排车辆,而且有标注错误(我尝试重标过1000张左右,后面放弃了),很多目标人都很难以分辨,CFT的40.0mAP已经是不容易取得的了。单纯使用yolov5,单模态达到高很多的得分有点让人吃惊,ECCV 2022的一篇ProbEn能达到80+的mAP50,注意是mAP50,不是mAP。 全部设置为可见光是重新训练了还是仅作测试?这是个值得研究的问题。一方面,FLIR数据集的可见光图像也能提供不少信息,我自己标注的时候经常会参考它。但是,另一方面,原始标注是按IR图像给的,也就是:有些在RGB图像中很明显的目标,因为它在IR图像中不明显,所以没有被标注。这在训练过程中会误导模型,测试时则会拉低mAP。

我是重新训练过的,图片大小都是320*320,预训练权重都是COCO上的yolov5l.pt ,且都是训练100个epoch并用做好的模型测试,全部设置为可见光map@.5是42.1,红外+可见是41.8,单可见光的map@.5可以达到48.1!!!

medicineqian commented 1 year ago

Thank you for your great work! I'd like to ask about your training settings of FLIR. I stuck to all default settings except for Batchsize. I set Batchsize to 8 due to limited GPU memory and got slightly worse performance (no better than mAP 38.2) and I wonder if Batchsize can cause this gap. Thank you very much!

非常感谢您的工作! 我很想问一问FLIR数据集上的训练配置。 我只调整了Batchsize,因为GPU显存有限,现在是8,我只能训练到38.2的mAP,但是显然您提供的权重能达到更高的分数,我很好奇是否单单是Batchsize导致了这一问题。 非常感谢!

我可不可以问一下您的实验设置

Hiram1026 commented 1 year ago

@zjh21 您好,请问您有试过只用yolov5各模态单独跑吗,对于红外这个模态,无论是yolov5 5.0还是6.1版本,我都能跑出比作者给出的高得多的指标,甚至超过了融合的方法,请问你有这种情况吗

我也发现了这个问题,我跑的是FLIR数据集,图片大小都是320*320,预训练权重都是COCO上的yolov5l.pt 同样发现单模态表现比坐着提出的融合方法要好 同时还发现将双流网络输入全部设置为可见光比输入为可见+红外的效果要好

请问您指标会达到多少?FLIR是一个比较困难的数据集,里面有大量的并排车辆,而且有标注错误(我尝试重标过1000张左右,后面放弃了),很多目标人都很难以分辨,CFT的40.0mAP已经是不容易取得的了。单纯使用yolov5,单模态达到高很多的得分有点让人吃惊,ECCV 2022的一篇ProbEn能达到80+的mAP50,注意是mAP50,不是mAP。 全部设置为可见光是重新训练了还是仅作测试?这是个值得研究的问题。一方面,FLIR数据集的可见光图像也能提供不少信息,我自己标注的时候经常会参考它。但是,另一方面,原始标注是按IR图像给的,也就是:有些在RGB图像中很明显的目标,因为它在IR图像中不明显,所以没有被标注。这在训练过程中会误导模型,测试时则会拉低mAP。

ECCV那篇Proben用的FLIR数据集版本不同

Hiram1026 commented 1 year ago

@zjh21 您好,请问您有试过只用yolov5各模态单独跑吗,对于红外这个模态,无论是yolov5 5.0还是6.1版本,我都能跑出比作者给出的高得多的指标,甚至超过了融合的方法,请问你有这种情况吗

我也发现了这个问题,我跑的是FLIR数据集,图片大小都是320*320,预训练权重都是COCO上的yolov5l.pt 同样发现单模态表现比坐着提出的融合方法要好 同时还发现将双流网络输入全部设置为可见光比输入为可见+红外的效果要好

请问您指标会达到多少?FLIR是一个比较困难的数据集,里面有大量的并排车辆,而且有标注错误(我尝试重标过1000张左右,后面放弃了),很多目标人都很难以分辨,CFT的40.0mAP已经是不容易取得的了。单纯使用yolov5,单模态达到高很多的得分有点让人吃惊,ECCV 2022的一篇ProbEn能达到80+的mAP50,注意是mAP50,不是mAP。 全部设置为可见光是重新训练了还是仅作测试?这是个值得研究的问题。一方面,FLIR数据集的可见光图像也能提供不少信息,我自己标注的时候经常会参考它。但是,另一方面,原始标注是按IR图像给的,也就是:有些在RGB图像中很明显的目标,因为它在IR图像中不明显,所以没有被标注。这在训练过程中会误导模型,测试时则会拉低mAP。

我是重新训练过的,图片大小都是320*320,预训练权重都是COCO上的yolov5l.pt ,且都是训练100个epoch并用做好的模型测试,全部设置为可见光map@.5是42.1,红外+可见是41.8,单可见光的map@.5可以达到48.1!!!

请注意是map@.5还是map@.5-.95,可见光跟label是有一定不对齐的,不应该比红外结果更高

zjh21 commented 1 year ago

@zjh21 您好,请问您有试过只用yolov5各模态单独跑吗,对于红外这个模态,无论是yolov5 5.0还是6.1版本,我都能跑出比作者给出的高得多的指标,甚至超过了融合的方法,请问你有这种情况吗

我也发现了这个问题,我跑的是FLIR数据集,图片大小都是320*320,预训练权重都是COCO上的yolov5l.pt 同样发现单模态表现比坐着提出的融合方法要好 同时还发现将双流网络输入全部设置为可见光比输入为可见+红外的效果要好

请问您指标会达到多少?FLIR是一个比较困难的数据集,里面有大量的并排车辆,而且有标注错误(我尝试重标过1000张左右,后面放弃了),很多目标人都很难以分辨,CFT的40.0mAP已经是不容易取得的了。单纯使用yolov5,单模态达到高很多的得分有点让人吃惊,ECCV 2022的一篇ProbEn能达到80+的mAP50,注意是mAP50,不是mAP。 全部设置为可见光是重新训练了还是仅作测试?这是个值得研究的问题。一方面,FLIR数据集的可见光图像也能提供不少信息,我自己标注的时候经常会参考它。但是,另一方面,原始标注是按IR图像给的,也就是:有些在RGB图像中很明显的目标,因为它在IR图像中不明显,所以没有被标注。这在训练过程中会误导模型,测试时则会拉低mAP。

我是重新训练过的,图片大小都是320*320,预训练权重都是COCO上的yolov5l.pt ,且都是训练100个epoch并用做好的模型测试,全部设置为可见光map@.5是42.1,红外+可见是41.8,单可见光的map@.5可以达到48.1!!!

我的实验设置就是用这个Repository的CFT,yolov5l_fusion_transformerx3_FLIR_aligned.yaml,输入图像大小应该是640640?把分辨率降到320320的话,两个模态都会有很多信息损失。 另外,请问什么是可见光map@.5是42.1,单可见光的map@.5可以达到48.1?可见光的map@.5是哪个?

medicineqian commented 1 year ago

@zjh21 您好,请问您有试过只用yolov5各模态单独跑吗,对于红外这个模态,无论是yolov5 5.0还是6.1版本,我都能跑出比作者给出的高得多的指标,甚至超过了融合的方法,请问你有这种情况吗

我也发现了这个问题,我跑的是FLIR数据集,图片大小都是320*320,预训练权重都是COCO上的yolov5l.pt 同样发现单模态表现比坐着提出的融合方法要好 同时还发现将双流网络输入全部设置为可见光比输入为可见+红外的效果要好

请问您指标会达到多少?FLIR是一个比较困难的数据集,里面有大量的并排车辆,而且有标注错误(我尝试重标过1000张左右,后面放弃了),很多目标人都很难以分辨,CFT的40.0mAP已经是不容易取得的了。单纯使用yolov5,单模态达到高很多的得分有点让人吃惊,ECCV 2022的一篇ProbEn能达到80+的mAP50,注意是mAP50,不是mAP。 全部设置为可见光是重新训练了还是仅作测试?这是个值得研究的问题。一方面,FLIR数据集的可见光图像也能提供不少信息,我自己标注的时候经常会参考它。但是,另一方面,原始标注是按IR图像给的,也就是:有些在RGB图像中很明显的目标,因为它在IR图像中不明显,所以没有被标注。这在训练过程中会误导模型,测试时则会拉低mAP。

我是重新训练过的,图片大小都是320*320,预训练权重都是COCO上的yolov5l.pt ,且都是训练100个epoch并用做好的模型测试,全部设置为可见光map@.5是42.1,红外+可见是41.8,单可见光的map@.5可以达到48.1!!!

我的实验设置就是用这个Repository的CFT,yolov5l_fusion_transformerx3_FLIR_aligned.yaml,输入图像大小应该是640_640?把分辨率降到320_320的话,两个模态都会有很多信息损失。 另外,请问什么是可见光map@.5是42.1,单可见光的map@.5可以达到48.1?可见光的map@.5是哪个?

就是CFT的两个输入全部为可见光的时候map@.5是42.1,而仅用yolov5l训练可见光图像时map@.5是48.1

zjh21 commented 1 year ago

@zjh21 您好,请问您有试过只用yolov5各模态单独跑吗,对于红外这个模态,无论是yolov5 5.0还是6.1版本,我都能跑出比作者给出的高得多的指标,甚至超过了融合的方法,请问你有这种情况吗

我也发现了这个问题,我跑的是FLIR数据集,图片大小都是320*320,预训练权重都是COCO上的yolov5l.pt 同样发现单模态表现比坐着提出的融合方法要好 同时还发现将双流网络输入全部设置为可见光比输入为可见+红外的效果要好

请问您指标会达到多少?FLIR是一个比较困难的数据集,里面有大量的并排车辆,而且有标注错误(我尝试重标过1000张左右,后面放弃了),很多目标人都很难以分辨,CFT的40.0mAP已经是不容易取得的了。单纯使用yolov5,单模态达到高很多的得分有点让人吃惊,ECCV 2022的一篇ProbEn能达到80+的mAP50,注意是mAP50,不是mAP。 全部设置为可见光是重新训练了还是仅作测试?这是个值得研究的问题。一方面,FLIR数据集的可见光图像也能提供不少信息,我自己标注的时候经常会参考它。但是,另一方面,原始标注是按IR图像给的,也就是:有些在RGB图像中很明显的目标,因为它在IR图像中不明显,所以没有被标注。这在训练过程中会误导模型,测试时则会拉低mAP。

我是重新训练过的,图片大小都是320*320,预训练权重都是COCO上的yolov5l.pt ,且都是训练100个epoch并用做好的模型测试,全部设置为可见光map@.5是42.1,红外+可见是41.8,单可见光的map@.5可以达到48.1!!!

我的实验设置就是用这个Repository的CFT,yolov5l_fusion_transformerx3_FLIR_aligned.yaml,输入图像大小应该是640_640?把分辨率降到320_320的话,两个模态都会有很多信息损失。 另外,请问什么是可见光map@.5是42.1,单可见光的map@.5可以达到48.1?可见光的map@.5是哪个?

就是CFT的两个输入全部为可见光的时候map@.5是42.1,而仅用yolov5l训练可见光图像时map@.5是48.1

理解了,但我没有试过这方面实验