视觉标签数据集制作ann_visual.py中的‘crop_and_zoom_in’函数未返回‘img’信息

如标题所述，视觉标签数据集制作ann_visual.py中的‘crop_and_zoom_in’函数未将img’信息添加入qa['steps_returns']，从而导致通过‘crop_and_zoom_in’的数据再经过OCR后的入参还是原图本身，导致识别结果出错（基于原图进行OCR识别很难识别准确），无法生成视觉标签，请问大佬这个问题是否在未来的提交中解决呢？ @erjanmx @Sleepychord @cenyk1230 @Btlmd

THUDM / CogCoM

视觉标签数据集制作ann_visual.py中的‘crop_and_zoom_in’函数未返回‘img’信息 #15