Closed pengfan7758258 closed 1 year ago
当前目录下的log/workerlog.0
文件里有其他报错信息吗?
没有的话,可以跑下下边命令看看paddle是否安装成功。
import paddle
paddle.utils.run_check()
或者把paddlenlp升级到最新版本pip install paddlenlp==2.3.4
。
@LemonNoel ,显示如下
@LemonNoel 补充一下就是我前面在微调的时候,被指定训练的gpu现存已经占用了
@LemonNoel ,显示如下
看起来NCCL安装有问题,可以试下用conda来安装paddlepaddle-gpu,然后再测下看看是否在多卡上安装成功了。
@LemonNoel 这个NCCL是否需要单独安装,我重新创建了conda的虚拟环境也重新安装了paddlepaddle-gpu也是同样的错误
是的,NCCL需要重新安装。可以参考下Nvidia的官方文档 https://docs.nvidia.com/deeplearning/nccl/install-guide/index.html ,或者试试用conda安装 https://libraries.io/conda/nccl
This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。
This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。
版本、环境信息 1)PaddleNLP和PaddlePaddle版本:paddlenlp 2.3.3,paddlepaddle-gpu 2.3.0 2)系统环境:Linux-ubuntu,python 3.8.13
是在uie上做的finetune 运行的命令是复制的官网给的例子
运行的log