Closed linjianz closed 2 years ago
我用开源的 docker 镜像 gyxthu17/cpm-2:1.2,在8卡 a100 环境下 finetune 时,报了以下错误
RuntimeError: cublas runtime error : unknown error at /tmp/pip-req-build-vgfrgt8k/aten/src/THC/THCBlas.cu:225
load 的初始模型 cpm2.0,物理机cuda版本11.2,docker内看cuda 版本是 10.2,torch: 1.7.0a0+57bffc3。 看报错是 torch 的版本不对?我尝试升级过 torch 的版本,但是依旧报错,请问有什么解决方法吗
您可以再 check 一下 docker 内的 cuda 版本,如果cuda 10.2和 torch 1.7.0 匹配上的话应该不会有这个问题的
我用开源的 docker 镜像 gyxthu17/cpm-2:1.2,在8卡 a100 环境下 finetune 时,报了以下错误
load 的初始模型 cpm2.0,物理机cuda版本11.2,docker内看cuda 版本是 10.2,torch: 1.7.0a0+57bffc3。 看报错是 torch 的版本不对?我尝试升级过 torch 的版本,但是依旧报错,请问有什么解决方法吗