TsinghuaAI / CPM-2-Finetune

Finetune CPM-2
MIT License
83 stars 21 forks source link

A100-8卡环境cublas报错 #27

Closed linjianz closed 2 years ago

linjianz commented 2 years ago

我用开源的 docker 镜像 gyxthu17/cpm-2:1.2,在8卡 a100 环境下 finetune 时,报了以下错误 POPO20211207-181128

RuntimeError: cublas runtime error : unknown error at /tmp/pip-req-build-vgfrgt8k/aten/src/THC/THCBlas.cu:225

load 的初始模型 cpm2.0,物理机cuda版本11.2,docker内看cuda 版本是 10.2,torch: 1.7.0a0+57bffc3。 看报错是 torch 的版本不对?我尝试升级过 torch 的版本,但是依旧报错,请问有什么解决方法吗

t1101675 commented 2 years ago

您可以再 check 一下 docker 内的 cuda 版本,如果cuda 10.2和 torch 1.7.0 匹配上的话应该不会有这个问题的