16G*2的显存，训练时候没有报OOM，model.save_pretrained(training_args.output_dir)保存模型的时候报了，是什么原因呢？

mymusise / ChatGLM-Tuning

基于ChatGLM-6B + LoRA的Fintune方案

MIT License

3.71k stars 444 forks source link

16G*2的显存，训练时候没有报OOM，model.save_pretrained(training_args.output_dir)保存模型的时候报了，是什么原因呢？ #191

Closed cheney369 closed 1 year ago

cheney369 commented 1 year ago

第一次多卡训练，请指教。model.save_pretrained(training_args.output_dir) 1、peft保存的参数是保存哪一部分？怎么会爆显存呢。

twosnowman commented 1 year ago

遇到同样问题

cheney369 commented 1 year ago

遇到同样问题

我已经解决了，我用的两张显卡训练，第一张满了，第二张没满，所以保存的时候指定一下位置，从cpu或者没跑满的gpu里就可以了。修改成： model.to("cpu").save_pretrained(training_args.output_dir)或者model.to("cuda:1").save_pretrained(training_args.output_dir)

tjulh commented 1 year ago

第一次多卡训练，请指教。model.save_pretrained(training_args.output_dir) 1、peft保存的参数是保存哪一部分？怎么会爆显存呢。

楼主怎么跑多卡的，要改哪里呢