PaddlePaddle / Paddle

PArallel Distributed Deep LEarning: Machine Learning Framework from Industrial Practice (『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署)
http://www.paddlepaddle.org/
Apache License 2.0
22.16k stars 5.57k forks source link

paddle gpu版本加载paddlenlp模型报错,cpu版本无问题 #34958

Closed fangxiang00 closed 3 years ago

fangxiang00 commented 3 years ago

 1)PaddlePaddle版本:2.1.1 2)GPU:CUDA10.2 CUDNN7.6.5  3)系统环境:linux18.04,Python3.8 4) paddlenlp版本: 2.0.7


paddle cpu运行没有问题

W0817 13:38:57.406621 39757 device_context.cc:404] Please NOTE: device: 0, GPU Compute Capability:5.2, Driver API Version:10.2, Runtime API Version: 10.2


C++ Traceback (most recent call last):

0 paddle::framework::SignalHandle(char const*, int) 1 paddle::platform::GetCurrentTraceBackString[abi:cxx11]()


Error Message Summary:

FatalError: 'Segmentation fault' is detected by the operating system. [TimeInfo: Aborted at 1629178737 (unix time) try "data -d @1629178737" if you are using GNU date ] [SignalInfo: SIGSEGV (@0x0) received by PID 39757 (TID 0x7f94ba663740) from PID 0 ] 段错误(吐核)

image

JZ-LIANG commented 3 years ago

是单机单卡还是单机多卡?

JZ-LIANG commented 3 years ago

请使用环境变量: export GLOG_v=5 提供更多信息的log

fangxiang00 commented 3 years ago

是单机单卡还是单机多卡?

单机单卡

fangxiang00 commented 3 years ago

请使用环境变量: export GLOG_v=5 提供更多信息的log

完整报错信息如下 image

JZ-LIANG commented 3 years ago

从报错栈无法找到明显错误原因, 只能看到运行到模型参数初始化阶段(uniform_random). 并且本地使用你提供的代码能够正常跑通,无法复现你指出的问题 (除了你提供的代码里有一个拼写错误外: EernieGramModel --> ErnieGramModel) image

image

image

程序正常运行到结束

JZ-LIANG commented 3 years ago

建议尝试核对环境问题: gpu 显存是否OOM, 模型下载路径等

jerry90 commented 3 years ago

一样出现这个问题

fangxiang00 commented 3 years ago

建议尝试核对环境问题: gpu 显存是否OOM, 模型下载路径等

问题已解决,是服务器与paddle环境cudnn版本冲突导致,感谢回复