请问可以实现用qlora+model parallel 吗

THUDM / VisualGLM-6B

Chinese and English multimodal conversational language model | 多模态中英双语对话语言模型

Apache License 2.0

4.05k stars 414 forks source link

          因为`bitsandbytes`实现模型量化的时候是通过重载`.cuda()`函数实现的，也就是说模型在放到显卡的时候会发生量化（改变tensor维度）。在微调的时候，加载的预训练权重是fp16的，所以需要设置`args.device='cpu'`，把权重加载进来再调用`.cuda()`。因为这个是`bitsandbytes`的实现，我们也没办法控制，只能适配。

所以维度不一致是显卡配置的问题，.cuda()调用失败了。

Originally posted by @1049451037 in https://github.com/THUDM/VisualGLM-6B/issues/125#issuecomment-1592488628

THUDM / VisualGLM-6B

请问可以实现用qlora+model parallel 吗 #349