InternLM-XComposer2 is a groundbreaking vision-language large model (VLLM) excelling in free-form text-image composition and comprehension.
1.91k
stars
120
forks
source link
关于internlm-xcomposer2-vl模型预处理时build_mlp.py中使用torch.nn.functional.interpolate的bicubic模式的问题 #338
Open
lzcchl opened 5 days ago
机缘巧合下发现的,即使是比较新版本的torch(我是2.1.2)也是存在这个问题的,就是resize后的图像像素会有较大的不平滑,这样会不会影响VIT模型的效果,进而导致影响整个对话效果? 这个我在torch的issues找到的 https://github.com/pytorch/vision/issues/2950,虽然这里是torchvision.transforms.Resize,但实质上还是调用torch.nn.functional.interpolate。 我测试下来的效果:可以看到下面torch.nn.functional.interpolate在右上的白色小车部分(可能还有其他不明显的位置)有黑色点,这明显是不平滑的。 原图:
pil resize 到宽高一半大小:
torch.nn.functional.interpolate 到宽高一半大小:
torch.nn.functional.interpolate 参数antialias=True 到宽高一半大小:
![th1](https://github.com/InternLM/InternLM-XComposer/assets/34515022/25d27bf3-b03e-43f5-b740-081769f5d221)
我的测试代码在下方,修改img_dir就可以跑,你可以快速验证我说的这个问题。 pil_torch_rsz.py.txt