mymusise / ChatGLM-Tuning

基于ChatGLM-6B + LoRA的Fintune方案
MIT License
3.71k stars 444 forks source link

16G*2的显存,训练时候没有报OOM,model.save_pretrained(training_args.output_dir)保存模型的时候报了,是什么原因呢? #191

Closed cheney369 closed 1 year ago

cheney369 commented 1 year ago

第一次多卡训练,请指教。model.save_pretrained(training_args.output_dir) 1、peft保存的参数是保存哪一部分?怎么会爆显存呢。

twosnowman commented 1 year ago

遇到同样问题

cheney369 commented 1 year ago

遇到同样问题

我已经解决了,我用的两张显卡训练,第一张满了,第二张没满,所以保存的时候指定一下位置,从cpu或者没跑满的gpu里就可以了。 修改成: model.to("cpu").save_pretrained(training_args.output_dir)或者model.to("cuda:1").save_pretrained(training_args.output_dir)

tjulh commented 1 year ago

第一次多卡训练,请指教。model.save_pretrained(training_args.output_dir) 1、peft保存的参数是保存哪一部分?怎么会爆显存呢。

楼主怎么跑多卡的,要改哪里呢