Open kevinuserdd opened 1 year ago
使用lora微调的显存,和deepspeed+lora结合的显存,发现是一致的。。。所以deepspeed的作用是?
分布式运行,现在deepspeed用的是zerostage2
使用lora微调的显存,和deepspeed+lora结合的显存,发现是一致的。。。所以deepspeed的作用是?
分布式运行,现在deepspeed用的是zerostage2
我同时使用deepspeed + lora会报错,RuntimeError: expected scalar type Float but found Half。 是不支持吗
使用lora微调的显存,和deepspeed+lora结合的显存,发现是一致的。。。所以deepspeed的作用是?
分布式运行,现在deepspeed用的是zerostage2
我同时使用deepspeed + lora会报错,RuntimeError: expected scalar type Float but found Half。 是不支持吗
如果你用的是我训练的lora,是fp16格式的,你可以把模型 参数增加half(也就是fp16格式)
使用lora微调的显存,和deepspeed+lora结合的显存,发现是一致的。。。所以deepspeed的作用是?
分布式运行,现在deepspeed用的是zerostage2
我同时使用deepspeed + lora会报错,RuntimeError: expected scalar type Float but found Half。 是不支持吗
如果你用的是我训练的lora,是fp16格式的,你可以把模型 参数增加half(也就是fp16格式)
怎么写? model = model.half()吗? 不行的。
使用lora微调的显存,和deepspeed+lora结合的显存,发现是一致的。。。所以deepspeed的作用是?