zhangfaen / finetune-Qwen2-VL

MIT License
208 stars 20 forks source link

如何进行图片中特定内容描述? #5

Open Guangming92 opened 2 months ago

Guangming92 commented 2 months ago

例如提供的traindata中的图片,如何微调训练,只对图片中狗进行描述?训练数据如何准备? 复现您给到的案例,有个问题,就是已经添加了torch_dtype=torch.bfloat16, attn_implementation='flash_attention_2',我用的是4090,24G显存,迭代第一步以后,显存就不够用了~还有什么办法可以降低一下吗?

zhangfaen commented 2 months ago

还可以:

  1. batch_size改为1
  2. 把这句中的processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct", min_pixels=2562828, max_pixels=5122828, padding_side="right") 中的 min_pixes 和 max_pixels 都改的更小,比如 128 28 28