PaddlePaddle / Paddle

PArallel Distributed Deep LEarning: Machine Learning Framework from Industrial Practice (『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署)
http://www.paddlepaddle.org/
Apache License 2.0
22.08k stars 5.55k forks source link

Paddle多线程场景下stream、event等资源是什么时候释放的? #67904

Open continue-coding opened 2 weeks ago

continue-coding commented 2 weeks ago

请提出你的问题 Please ask your question

我用paddle2.6跑模型时遇到过最后一个epoch评估阶段访问了nullptr的raw_stream和raw_event(不是封装的那个stream和event)而导致段错误的bug,怀疑是多线程中主线程已经销毁了这些资源,但子线程中还在调用。所以想请教下paddle多线程场景资源释放的流程是什么样的,希望飞桨的老师能帮忙解答,谢谢!

LokeZhou commented 2 weeks ago

不一定是多线程的问题。请问是跑哪个模型,或者是基于paddle的哪个套件(如paddlenlp、paddledetection等)?提供后可以让不同方向的同事帮忙查看

continue-coding commented 2 weeks ago

不一定是多线程的问题。请问是跑哪个模型,或者是基于paddle的哪个套件(如paddlenlp、paddledetection等)?提供后可以让不同方向的同事帮忙查看

是用的custom device跑的yolov3,这个问题感觉是框架的问题,应该与套件无关。而且只有在特定场景下才能触发