TsinghuaAI / CPM-2-Pretrain

Code for CPM-2 Pre-Train
MIT License
159 stars 26 forks source link

环境问题 #29

Closed 520jefferson closed 2 years ago

520jefferson commented 2 years ago

@t1101675 @zzy14 请教下 ,训练环境只有一个镜像吗?我看版本是python3.8了,有低版本的吗,比如3.6/7根据requirement是否能安装成功?

t1101675 commented 2 years ago

我们没有试过在3.6/3.7版本下安装训练环境。但是根据经验,我们并没有使用3.8特有的一些特性,所以应该可以尝试一下。

520jefferson commented 2 years ago

请教下具体的安装文档在哪,我只看到一个docker pull gyxthu17/cpm-2:1.2 另外请问,代码是否支持标准的transformer的训练?

t1101675 commented 2 years ago

环境安装您可以参考这个仓库 3.1 节,两个项目的环境应该是可以复用的。另外现在代码不支持标准 transformer 的训练。

520jefferson commented 2 years ago
RuntimeError: Cuda extensions are being compiled with a version of Cuda that does not match the version used to compile Pytorch binaries.  Pytorch binaries were compiled with Cuda 10.2.

image

您好,我安装apex出现这个问题,必须要10.2的版本吗?我目前是11.1的版本

t1101675 commented 2 years ago

就是您安装的 pytorch 对应的 cuda 版本要和当前环境中的 cuda 编译器的版本一致

520jefferson commented 2 years ago

我这一块试过了torch安装后是正常的 image

t1101675 commented 2 years ago

您看下在 python 环境下 torch.version.cuda 和 命令行下 nvcc --version 是否一致?

520jefferson commented 2 years ago

奇怪的是本机cuad11.1 image docker的cuda,torch.version.cuda是10.2,nvcc 是11.1,这样看来是torch还没支持11.1 image

我重新下载相应的pytorch版本后就okay了(https://download.pytorch.org/whl/cu111/torch-1.10.0%2Bcu111-cp36-cp36m-linux_x86_64.whl

python3.6安装的,需要注意报container_abcs时,修改下对应的地方即可(/usr/local/lib/python3.6/dist-packages/apex/amp/_amp_state.py) image

520jefferson commented 2 years ago

在python37下运行出现了以下问题 ! image

执行命令用bash xxx.sh不用sh xxx.sh就好了!