PaddlePaddle / PaddleHub

Awesome pre-trained models toolkit based on PaddlePaddle. (400+ models including Image, Text, Audio, Video and Cross-Modal with Easy Inference & Serving)【安全加固,暂停交互,请耐心等待】
https://www.paddlepaddle.org.cn/hub
Apache License 2.0
12.74k stars 2.07k forks source link

Hub 服务运行一段时间后,无故退出 #2289

Open huye opened 1 year ago

huye commented 1 year ago

本人在 Deepin 20.9 系统中的 Anaconda3-2023.03 虚拟环境 Python 3.9.17 中安装的本 OCR 服务。 其它各种依赖环境/软件等版本如下: ch_ppocr_mobile_v2.0 ch_PP-OCRv2

paddlepaddle-gpu 2.4.2.post117 paddlehub 2.3.1

Nvidia Driver 535.54.03 CUDA Version 11.7.1

找到一条退出时的日志信息如下: kernel: traps: hub[197635] general protection fault ip:7ff2a1b149c8 sp:7fff9800e670 error:0 in _multiarray_umath.cpython-39-x86_64-linux-gnu.so[7ff2a1ae8000+36c000]

发生了多次进程退出的情况,其中有一次进程退出后,占用的端口 8866 还在,无法释放,最后只能重启服务器解决。

另外第二种情况:偶尔还会出现 watchdog 错误,报 hard lookup 某个 CPU 内核,然后还有 soft lookup。有时能恢复正常,有时 load average 会越来越高,最后死机。watchdog_thresh 改到最大也没有。

还有第三种情况:有时服务一段时间后进程还在,系统也正常,但是对接口请求没有任何影响。只能停止服务再重新启动。

还有一个问题就是:hubserving 的多进程不能用,只要在配置文件 config.json 中 把 use_multiprocess 改为 true,就不能正常服务器,所有请求都出错。网上说应该是多进程和cuda框架的加载顺序问题,不过对本系统不熟,不清楚如何改。

736048546 commented 1 year ago

你好,请问解决了吗?我的也是运行了大概1周多的时间后,也会停止服务,请求一直超时,但是端口还在,也无法重启服务,只能重启服务器后再启动服务才能正常使用

huye commented 1 year ago

没有解决,随机出现。公司配了几台 GPU 服务器都有一样的问题,还有个其它的深度学习项目,还会引起死机,不管是 windows 还是 linux 系统都试过。但是用烤机软件又屁事没有。感觉这些个使用 GPU 的项目都有奇怪的问题。

huye commented 1 year ago

另外关于 hubserving 的多进程的问题后来发现文档里有写不支持 GPU 版本,那就不纠结这个多进程的问题了。但是其实问题难道就没几个人遇到的吗?

w5688414 commented 8 months ago

ocr项目直接使用paddleocr哈,paddlehub已经停止更新了。 https://github.com/PaddlePaddle/PaddleOCR