[BUG/Help] <title>ChatGLM可以在一个服务中同时加载多个lora微调模型，根据输入切换使用哪个模型吗？

能否在一个服务中加载一个公有的开源的ChatGLM预训练模型与多个微调后的LoRA模型，然后在应对不同任务时切换不同的p-tuning模型？这样可以节省很多显存。

在一个服务中加载一个公有的开源的ChatGLM预训练模型与多个微调后的LoRA模型，然后在应对不同任务时切换不同的p-tuning模型？这样可以节省很多显存。

在一个服务中加载一个公有的开源的ChatGLM预训练模型与多个微调后的LoRA模型，然后在应对不同任务时切换不同的p-tuning模型？这样可以节省很多显存。

- OS: Linux
- Python: 3.10
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

No response

THUDM / ChatGLM2-6B