paddle gpu版本加载paddlenlp模型报错,cpu版本无问题 - Githubissues

PaddlePaddle / Paddle

PArallel Distributed Deep LEarning: Machine Learning Framework from Industrial Practice （『飞桨』核心框架，深度学习&机器学习高性能单机、分布式训练和跨平台部署）

http://www.paddlepaddle.org/

Apache License 2.0

22.16k stars 5.57k forks source link

paddle gpu版本加载paddlenlp模型报错,cpu版本无问题 #34958

Closed fangxiang00 closed 3 years ago

fangxiang00 commented 3 years ago

1）PaddlePaddle版本：2.1.1 2）GPU：CUDA10.2 CUDNN7.6.5 3）系统环境：linux18.04，Python3.8 4) paddlenlp版本: 2.0.7

代码： import paddle import paddlenlp model = paddlenlp.transformers.EernieGramModel.from_pretrained("ernie-gram-zh")

paddle cpu运行没有问题

报错：

W0817 13:38:57.406621 39757 device_context.cc:404] Please NOTE: device: 0, GPU Compute Capability:5.2, Driver API Version:10.2, Runtime API Version: 10.2

C++ Traceback (most recent call last):

0 paddle::framework::SignalHandle(char const*, int) 1 paddle::platform::GetCurrentTraceBackString[abi:cxx11]()

Error Message Summary:

FatalError: 'Segmentation fault' is detected by the operating system. [TimeInfo: Aborted at 1629178737 (unix time) try "data -d @1629178737" if you are using GNU date ] [SignalInfo: SIGSEGV (@0x0) received by PID 39757 (TID 0x7f94ba663740) from PID 0 ] 段错误（吐核）

JZ-LIANG commented 3 years ago

是单机单卡还是单机多卡？

JZ-LIANG commented 3 years ago

请使用环境变量： export GLOG_v=5 提供更多信息的log

fangxiang00 commented 3 years ago

是单机单卡还是单机多卡？

单机单卡

fangxiang00 commented 3 years ago

请使用环境变量： export GLOG_v=5 提供更多信息的log

完整报错信息如下

JZ-LIANG commented 3 years ago

从报错栈无法找到明显错误原因，只能看到运行到模型参数初始化阶段（uniform_random）. 并且本地使用你提供的代码能够正常跑通，无法复现你指出的问题（除了你提供的代码里有一个拼写错误外： EernieGramModel --> ErnieGramModel）

程序正常运行到结束

JZ-LIANG commented 3 years ago

建议尝试核对环境问题： gpu 显存是否OOM，模型下载路径等

jerry90 commented 3 years ago

一样出现这个问题

fangxiang00 commented 3 years ago

建议尝试核对环境问题： gpu 显存是否OOM，模型下载路径等

问题已解决，是服务器与paddle环境cudnn版本冲突导致，感谢回复