Open whysirier opened 8 months ago
device_map = None 和 device_map = 'balanced' 均不管用,device_map = 'cuda:0'报显存错误
python -c 'import torch; print(torch.cuda.device_count())'
看有几张卡,只有一张卡请用带single_gpu的脚本。
python -c 'import torch; print(torch.cuda.device_count())'
看有几张卡,只有一张卡请用带single_gpu的脚本。
两张V100,device_map = none 必须加上deepspeed才能正常训练,不清楚啥原因
python -c 'import torch; print(torch.cuda.device_count())'
看有几张卡,只有一张卡请用带single_gpu的脚本。
在Qwen-VL中的脚本默认是device_map = none, 但运行报错:
而Qwen-7B却能正常训练,都是bash finetune/finetune_lora_ds.sh这个脚本
而Qwen-7B却能正常训练,都是bash finetune/finetune_lora_ds.sh这个脚本
Qwen-7B正常的话,应该是VL的问题了,转到VL了。
而Qwen-7B却能正常训练,都是bash finetune/finetune_lora_ds.sh这个脚本
Qwen-7B正常的话,应该是VL的问题了,转到VL了。
谢谢,在Qwen-VL下我也提问了
@whysirier 请问有解决吗?我也遇到了在V100上用Qwen-14B-Chat
@whysirier 请问有解决吗?我也遇到了在V100上用Qwen-14B-Chat sh配置问题,默认填了8张卡就报错了,得自己改下, 现在好像官方文档自己改了
是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?
该问题是否在FAQ中有解答? | Is there an existing answer for this in FAQ?
当前行为 | Current Behavior
按照官方的方法,将device_map = 'auto' 改成 device_map = None 和 device_map = 'baanced' 均不管用。
以下是sh文件配置
以下是报错信息:
期望行为 | Expected Behavior
No response
复现方法 | Steps To Reproduce
No response
运行环境 | Environment
备注 | Anything else?
No response