THUDM / VisualGLM-6B

Chinese and English multimodal conversational language model | 多模态中英双语对话语言模型
Apache License 2.0
4.07k stars 414 forks source link

finetune 128的图片跟224的图片,显存的占用和每个迭代都没有减少! #302

Closed chenjingcheng closed 10 months ago

chenjingcheng commented 10 months ago

finetune 128的图片跟224的图片,显存的占用和每个迭代都没有减少! 我是4090,单卡 我把finetune的图片尺寸修改成128后,发现同样的batchsize数据和其他的一样的参数: 1、显存占用没有改变,无法增加batchsize,只能跟224一样的,batchsize为6 2、迭代的时间也没有减少,每个迭代几乎是一样的。

根据以前的经验,显存使用应该减少,时间更是加快。 不知道是那里没有修改对?

1049451037 commented 10 months ago

因为finetune的显存占用主要在参数和梯度,和在特定条件下与序列长度关系不大。

chenjingcheng commented 10 months ago

ok,谢谢您的回复!