InternLM / InternLM-XComposer

InternLM-XComposer2 is a groundbreaking vision-language large model (VLLM) excelling in free-form text-image composition and comprehension.
1.91k stars 120 forks source link

关于internlm-xcomposer2-vl模型预处理时build_mlp.py中使用torch.nn.functional.interpolate的bicubic模式的问题 #338

Open lzcchl opened 5 days ago

lzcchl commented 5 days ago

机缘巧合下发现的,即使是比较新版本的torch(我是2.1.2)也是存在这个问题的,就是resize后的图像像素会有较大的不平滑,这样会不会影响VIT模型的效果,进而导致影响整个对话效果? 这个我在torch的issues找到的 https://github.com/pytorch/vision/issues/2950,虽然这里是torchvision.transforms.Resize,但实质上还是调用torch.nn.functional.interpolate。 我测试下来的效果:可以看到下面torch.nn.functional.interpolate在右上的白色小车部分(可能还有其他不明显的位置)有黑色点,这明显是不平滑的。 原图: dog pil resize 到宽高一半大小: pil torch.nn.functional.interpolate 到宽高一半大小: th2 torch.nn.functional.interpolate 参数antialias=True 到宽高一半大小: th1

我的测试代码在下方,修改img_dir就可以跑,你可以快速验证我说的这个问题。 pil_torch_rsz.py.txt