Closed 847001315 closed 1 year ago
你好,感谢你的反馈 请问你这个数据集里的图像分辨率的分布范围很大吗,比如最大的图像可能有6000x4000,最小的只有500x500这样?
你好,感谢你的反馈 请问你这个数据集里的图像分辨率的分布范围很大吗,比如最大的图像可能有6000x4000,最小的只有500x500这样?
是的,存在1024x768,也存在4288x2848,也有6000x4000,是否存在更小的分辨率没有去仔细筛查。说到这里,我之前跑的那三个固定尺寸的数据集,图片尺寸分别为 112x112、574x500、384x288,似乎分辨率都比较低。
你好,感谢你的反馈 请问你这个数据集里的图像分辨率的分布范围很大吗,比如最大的图像可能有6000x4000,最小的只有500x500这样?
是的,存在1024x768,也存在4288x2848,也有6000x4000,是否存在更小的分辨率没有去仔细筛查。说到这里,我之前跑的那三个固定尺寸的数据集,图片尺寸分别为 112x112、574x500、384x288,似乎分辨率都比较低。
这种数据集训练时需要专门处理一下,比如做多尺度时不是按固定短边缩放(因为img_scale = (6748, 6748)的话,最小的图片也会被放大到这个分辨率级别),而是给原图按0.5-1.5的比例缩放,然后训练时从中crop 256x256的图片。测试时保持原图分辨率不变,从中划窗取256x256的patch进行测试。如果patch的大小不满256x256,需要pad到256x256。
https://github.com/open-mmlab/mmsegmentation/blob/master/mmseg/datasets/pipelines/transforms.py 可以参考mmseg里的Resize函数进行修改
https://github.com/open-mmlab/mmsegmentation/blob/master/mmseg/datasets/pipelines/transforms.py 可以参考mmseg里的Resize函数进行修改
好的,谢谢你的回复~ 这边我突然又有一个新的问题,关于beit_adapter他用的transformer分支是beit,我看源码部分,他的transformer的注意力是swin的WMSA,这个WMSA仅对固定窗口内进行attention,并没有进行窗口与窗口间的交互(swin中先用WMSA进行窗口内交互,再用SW-MSA进行移窗交互),不知道是不是我代码看的不够清洗,目前没看到偏全局的交互的样子。但就算如此,beit_adapter效果在很多数据集上效果都非常好!!只是对beit这里有点困惑,是否加入一些全局注意力会提升该分支的效果?
最近跑了好几个数据集,其中包括了三个图片尺寸固定的数据集和两个非固定尺寸的图片的数据集。其中在固定尺寸数据集上,均能到达SOTA或者接近SOTA的级别,但是在非固定尺寸的数据集上,会比当前SOTA低接近10-20个点。我怀疑是我配置文件弄错了,但我不太清楚哪里弄得不对。 以下是我的思考:
其余的情况我暂时没有考虑到。 以下是我的config: