deepspeed和lora - Githubissues

liangwq / Chatglm_lora_multi-gpu

chatglm多gpu用deepspeed和

404 stars 61 forks source link

deepspeed和lora #38

Open kevinuserdd opened 1 year ago

kevinuserdd commented 1 year ago

使用lora微调的显存，和deepspeed+lora结合的显存，发现是一致的。。。所以deepspeed的作用是？

liangwq commented 1 year ago

使用lora微调的显存，和deepspeed+lora结合的显存，发现是一致的。。。所以deepspeed的作用是？

分布式运行，现在deepspeed用的是zerostage2

kevinuserdd commented 1 year ago

使用lora微调的显存，和deepspeed+lora结合的显存，发现是一致的。。。所以deepspeed的作用是？

分布式运行，现在deepspeed用的是zerostage2

我同时使用deepspeed + lora会报错，RuntimeError: expected scalar type Float but found Half。是不支持吗

liangwq commented 1 year ago

使用lora微调的显存，和deepspeed+lora结合的显存，发现是一致的。。。所以deepspeed的作用是？

分布式运行，现在deepspeed用的是zerostage2

我同时使用deepspeed + lora会报错，RuntimeError: expected scalar type Float but found Half。是不支持吗

如果你用的是我训练的lora，是fp16格式的，你可以把模型参数增加half（也就是fp16格式）

kevinuserdd commented 1 year ago

使用lora微调的显存，和deepspeed+lora结合的显存，发现是一致的。。。所以deepspeed的作用是？

分布式运行，现在deepspeed用的是zerostage2

我同时使用deepspeed + lora会报错，RuntimeError: expected scalar type Float but found Half。是不支持吗

如果你用的是我训练的lora，是fp16格式的，你可以把模型参数增加half（也就是fp16格式）

怎么写？ model = model.half()吗？不行的。