Open lrx1213 opened 1 year ago
能否 在一个服务中加载一个公有的开源的ChatGLM预训练模型与多个微调后的LoRA模型,然后在应对不同任务时切换不同的p-tuning模型?这样可以节省很多显存。
在一个服务中加载一个公有的开源的ChatGLM预训练模型与多个微调后的LoRA模型,然后在应对不同任务时切换不同的p-tuning模型?这样可以节省很多显存。
- OS: Linux - Python: 3.10 - Transformers: - PyTorch: - CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :
No response
Is there an existing issue for this?
Current Behavior
能否 在一个服务中加载一个公有的开源的ChatGLM预训练模型与多个微调后的LoRA模型,然后在应对不同任务时切换不同的p-tuning模型?这样可以节省很多显存。
Expected Behavior
在一个服务中加载一个公有的开源的ChatGLM预训练模型与多个微调后的LoRA模型,然后在应对不同任务时切换不同的p-tuning模型?这样可以节省很多显存。
Steps To Reproduce
在一个服务中加载一个公有的开源的ChatGLM预训练模型与多个微调后的LoRA模型,然后在应对不同任务时切换不同的p-tuning模型?这样可以节省很多显存。
Environment
Anything else?
No response