Open zeroleavebaoyang opened 3 weeks ago
可能和 #1750 遇到的是同一类问题。 尝试下下面的方法,看看能不能解决问题
export NCCL_P2P_DISABLE=1
如果不能解决的话,麻烦在启动命令中加入 --log-level INFO,把日志贴上来吧。
@
可能和 #1750 遇到的是同一类问题。 尝试下下面的方法,看看能不能解决问题
export NCCL_P2P_DISABLE=1
如果不能解决的话,麻烦在启动命令中加入 --log-level INFO,把日志贴上来吧。
如图所示, 加入了 export NCCL_P2P_DISABLE=1 之后 也是一样 ,一直卡死, 并且 最后一张卡 100%
I haven't reproduced this issue. My device is A100-80G(x8) Could you try the docker image openmmlab/lmdeploy:v0.4.2?
我感觉得用 gdb 来debug问题所在。 在 hang 住之后,开另一个窗口,执行下面的命令
gdb attach <pid> # pid 是服务进程 id,可以通过 nvidia-smi 查看
set logging on
thread apply all bt
# 按 c,会显示所有的堆栈信息,这些信息会写到日志 gdb.txt 中
set logging off
q
执行完上述操作后,会在当前工作目录产生一个 gdb.txt 文件,麻烦把这个文件传到issue中来吧。
我感觉得用 gdb 来debug问题所在。 在 hang 住之后,开另一个窗口,执行下面的命令
gdb attach <pid> # pid 是服务进程 id,可以通过 nvidia-smi 查看 set logging on thread apply all bt # 按 c,会显示所有的堆栈信息,这些信息会写到日志 gdb.txt 中 set logging off q
执行完上述操作后,会在当前工作目录产生一个 gdb.txt 文件,麻烦把这个文件传到issue中来吧。
Checklist
Describe the bug
发现一个问题, 在rtx4090 * 8 环境, 针对qwen1.5-110b-awq设置--tp 8 或者 qwen2-72b-awq 设置--tp 4 都会卡死 一直无响应,张量并行 设置大了 好像基本都会有这样的卡死情况。
Reproduction
CUDA_VISIBLE_DEVICES=0,1,2,3 lmdeploy serve api_server /home/nlp/pretrain_models/Qwen2-72B-Instruct-AWQ \ --model-name qwen \ --server-name 0.0.0.0 \ --server-port 23334 \ --tp 4 \ --cache-max-entry-count 0.1 \ --quant-policy 4 \ --model-format awq
Environment
Error traceback
No response