Open alisyzhu opened 1 year ago
hi, 麻烦提供一下run.sh和更完整的错误log~
hi, 麻烦提供一下run.sh和更完整的错误log~
run.sh脚本:
【错误log】
run.sh脚本:
现在只用了一张GPU,应该设置--include localhost:0,1,2,3,4,5,6,7来使用所有的GPU
run.sh脚本:
现在只用了一张GPU,应该设置--include localhost:0,1,2,3,4,5,6,7来使用所有的GPU
大意了,只看error部分的信息了; 请问,如果我想用多机多卡,这个localhost这里该怎么配置呢?
可以参考https://www.deepspeed.ai/getting-started/#resource-configuration-multi-node
可以参考https://www.deepspeed.ai/getting-started/#resource-configuration-multi-node
好的,感谢。
可以参考https://www.deepspeed.ai/getting-started/#resource-configuration-multi-node
3张3090训练13B报OOM👇
参数配置如下: args_lomo.yaml:
ds_config.json:
run.sh:
跑得是baichuan-13b。 对源码的修改我就添加了loss在0.46以下时保存在一个特殊的output directory:
这咋弄呀
环境:8 * V100 (32G) 执行run.sh 【错误log】
【LOMO模式】 args_lomo.yaml配置:
ds_config.json配置:
【LOMO+LORA模式】 args_lomo_lora.yaml配置:
ds_config_lora.json