您好，请问是否可以训练BLIP部分，微调代码似乎只可以微调chatglm的指定层的参数

THUDM / VisualGLM-6B

Chinese and English multimodal conversational language model | 多模态中英双语对话语言模型

Apache License 2.0

4.08k stars 416 forks source link

您好，请问是否可以训练BLIP部分，微调代码似乎只可以微调chatglm的指定层的参数 #325

Open chaijunmaomao opened 10 months ago

chaijunmaomao commented 10 months ago

您好，请问是否可以训练BLIP部分，微调代码似乎只可以微调chatglm的指定层的参数？如果可以，我应该修改哪些部分的代码？

1049451037 commented 10 months ago

这里可以定义你想微调的参数名称：

https://github.com/THUDM/VisualGLM-6B/blob/f4429a009ee533b76e8757dce6917fbf0b0408f9/finetune_visualglm.py#L34-L49

chaijunmaomao commented 10 months ago

这里可以定义您想要的参数的参数名称：

https://github.com/THUDM/VisualGLM-6B/blob/f4429a009ee533b76e8757dce6917fbf0b0408f9/finetune_visualglm.py#L34-L49

非常感谢您的耐心回复，由于我不清楚n的具体值（从代码看至少有ptuning，matrix_A和matrix_B），我试图打印出所有的n,并从中寻找BLIP部分的参数名称，部分输出如下：我应该将enable.extend(['matrix_A', 'matrix_B']) 改为enable.extend(['vit.transformer']) ，这样就可以训练Vit部分的参数了，是这样的吗？感谢您的解答！

1049451037 commented 10 months ago

是的

chaijunmaomao commented 10 months ago

是的

感谢您的解答。一些信息需要确认，mixins.eva.model.vit.transformer.layers是视觉模型，mixins.eva.model.qformer.transformer.layers是BLIP-2的轻量级查询 Transformer，transformer.layers是ChatGLM的参数，是吗？

corkiyao commented 3 weeks ago

是的

感谢您的解答。一些信息需要确认，mixins.eva.model.vit.transformer.layers是视觉模型，mixins.eva.model.qformer.transformer.layers是BLIP-2的轻量级查询 Transformer，transformer.layers是ChatGLM的参数，是吗？

请问在加载的模型的时候，您试过将不同权重迁移到不同的模型中，从而实现多GPU训练吗？