Open zeroleavebaoyang opened 5 months ago
可能和 #1750 遇到的是同一类问题。 尝试下下面的方法,看看能不能解决问题
export NCCL_P2P_DISABLE=1
如果不能解决的话,麻烦在启动命令中加入 --log-level INFO,把日志贴上来吧。
@
可能和 #1750 遇到的是同一类问题。 尝试下下面的方法,看看能不能解决问题
export NCCL_P2P_DISABLE=1
如果不能解决的话,麻烦在启动命令中加入 --log-level INFO,把日志贴上来吧。
如图所示, 加入了 export NCCL_P2P_DISABLE=1 之后 也是一样 ,一直卡死, 并且 最后一张卡 100%
I haven't reproduced this issue. My device is A100-80G(x8) Could you try the docker image openmmlab/lmdeploy:v0.4.2?
我感觉得用 gdb 来debug问题所在。 在 hang 住之后,开另一个窗口,执行下面的命令
gdb attach <pid> # pid 是服务进程 id,可以通过 nvidia-smi 查看
set logging on
thread apply all bt
# 按 c,会显示所有的堆栈信息,这些信息会写到日志 gdb.txt 中
set logging off
q
执行完上述操作后,会在当前工作目录产生一个 gdb.txt 文件,麻烦把这个文件传到issue中来吧。
我感觉得用 gdb 来debug问题所在。 在 hang 住之后,开另一个窗口,执行下面的命令
gdb attach <pid> # pid 是服务进程 id,可以通过 nvidia-smi 查看 set logging on thread apply all bt # 按 c,会显示所有的堆栈信息,这些信息会写到日志 gdb.txt 中 set logging off q
执行完上述操作后,会在当前工作目录产生一个 gdb.txt 文件,麻烦把这个文件传到issue中来吧。
我也遇到了这个问题,在A8004使用lmdeploy serve api_server models/Qwen2-72B-Instruct/ --tp 4 --log-level INFO推理Qwen2-72B没有response,nvitop显示有两个卡的利用率为0。 使用A8002推理Qwen2-72B-Instruct出现乱码的情况,但同样参数下Qwen2-7B-Instruct可以正常推理,结果如下:
#############################
将--backend
设为pytorch后,tp=4 or tp=2都可以正常推理且输出正常
H800*8, same error. use llama3.1-70B-instruct. The system hangs after about 900 calls.
Maybe related to #2706 @LUXUS1 and @yixuantt, could you try to build the source code of PR #2706 and verify if it still an issue?
cc @lzhangzz
@lvhan028 Hi, I tried that branch last night. But still does not work.
Checklist
Describe the bug
发现一个问题, 在rtx4090 * 8 环境, 针对qwen1.5-110b-awq设置--tp 8 或者 qwen2-72b-awq 设置--tp 4 都会卡死 一直无响应,张量并行 设置大了 好像基本都会有这样的卡死情况。
Reproduction
CUDA_VISIBLE_DEVICES=0,1,2,3 lmdeploy serve api_server /home/nlp/pretrain_models/Qwen2-72B-Instruct-AWQ \ --model-name qwen \ --server-name 0.0.0.0 \ --server-port 23334 \ --tp 4 \ --cache-max-entry-count 0.1 \ --quant-policy 4 \ --model-format awq
Environment
Error traceback
No response