liangwq / Chatglm_lora_multi-gpu

chatglm多gpu用deepspeed和
404 stars 61 forks source link

deepspeed和lora #38

Open kevinuserdd opened 1 year ago

kevinuserdd commented 1 year ago

使用lora微调的显存,和deepspeed+lora结合的显存,发现是一致的。。。所以deepspeed的作用是?

liangwq commented 1 year ago

使用lora微调的显存,和deepspeed+lora结合的显存,发现是一致的。。。所以deepspeed的作用是?

分布式运行,现在deepspeed用的是zerostage2

kevinuserdd commented 1 year ago

使用lora微调的显存,和deepspeed+lora结合的显存,发现是一致的。。。所以deepspeed的作用是?

分布式运行,现在deepspeed用的是zerostage2

我同时使用deepspeed + lora会报错,RuntimeError: expected scalar type Float but found Half。 是不支持吗

liangwq commented 1 year ago

使用lora微调的显存,和deepspeed+lora结合的显存,发现是一致的。。。所以deepspeed的作用是?

分布式运行,现在deepspeed用的是zerostage2

我同时使用deepspeed + lora会报错,RuntimeError: expected scalar type Float but found Half。 是不支持吗

如果你用的是我训练的lora,是fp16格式的,你可以把模型 参数增加half(也就是fp16格式)

kevinuserdd commented 1 year ago

使用lora微调的显存,和deepspeed+lora结合的显存,发现是一致的。。。所以deepspeed的作用是?

分布式运行,现在deepspeed用的是zerostage2

我同时使用deepspeed + lora会报错,RuntimeError: expected scalar type Float but found Half。 是不支持吗

如果你用的是我训练的lora,是fp16格式的,你可以把模型 参数增加half(也就是fp16格式)

怎么写? model = model.half()吗? 不行的。