THUDM / ChatGLM2-6B

ChatGLM2-6B: An Open Bilingual Chat LLM | 开源双语对话语言模型
Other
15.68k stars 1.85k forks source link

[BUG/Help] <title>ChatGLM可以在一个服务中同时加载多个lora微调模型,根据输入切换使用哪个模型吗? #595

Open lrx1213 opened 10 months ago

lrx1213 commented 10 months ago

Is there an existing issue for this?

Current Behavior

能否 在一个服务中加载一个公有的开源的ChatGLM预训练模型与多个微调后的LoRA模型,然后在应对不同任务时切换不同的p-tuning模型?这样可以节省很多显存。

Expected Behavior

在一个服务中加载一个公有的开源的ChatGLM预训练模型与多个微调后的LoRA模型,然后在应对不同任务时切换不同的p-tuning模型?这样可以节省很多显存。

Steps To Reproduce

在一个服务中加载一个公有的开源的ChatGLM预训练模型与多个微调后的LoRA模型,然后在应对不同任务时切换不同的p-tuning模型?这样可以节省很多显存。

Environment

- OS: Linux
- Python: 3.10
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

Anything else?

No response