OpenPPL / ppl.nn

A primitive library for neural network
Apache License 2.0
1.29k stars 215 forks source link

pplnn cpu 推理 异常crash #963

Open zjzjwang opened 2 months ago

zjzjwang commented 2 months ago

我们使用ppl.nn在centos7机器上使用cpu推理一个mlp模型,程序在正常运行一段时间后崩溃: image

该问题两个月前还发生过一次,挂在了BatchNorm处:

#0  0x00007f8b22c60438 in ppl::nn::onnx::ReshapeBatchNormalization(ppl::nn::InputOutputInfo*, ppl::nn::ir::Attr const*) ()
   from /home/wyngts/running/strategylib/bts_algo/5.9.12/[libbts_algo.so](http://libbts_algo.so/)
#1  0x00007f8b227c6c73 in std::_Function_handler<unsigned int (ppl::nn::InputOutputInfo*), ppl::nn::x86::BatchNormalizationKernel* ppl::nn::x86::X86OptKernel::CreaImplWithParam<ppl::nn::x86::BatchNormalizationKernel, ppl::nn::onnx::BatchNormalizationParam>(ppl::nn::onnx::BatchNormalizationParam const*) const::{lambda(ppl::nnutputInfo*)#1}>::_M_invoke(std::_Any_data const&, ppl::nn::InputOutputInfo*&&) () from /home/wyngts/running/strategylib/bts_algo/5.9.12/[libbts_algo.so](http://libbts_algo.so/)
#2  0x00007f8b22823a77 in ppl::nn::x86::X86Kernel::BeforeExecute(ppl::nn::KernelExecContext*) () from /home/wyngts/running/strategylib/bts_algo/5.9.12/libbts_algo.
#3  0x00007f8b22824e49 in ppl::nn::x86::X86Kernel::Execute(ppl::nn::KernelExecContext*) () from /home/wyngts/running/strategylib/bts_algo/5.9.12/[libbts_algo.so](http://libbts_algo.so/)
#4  0x00007f8b22c8c9d8 in ppl::nn::SequentialScheduler::Run(std::function<unsigned int (ppl::nn::KernelImpl*, ppl::nn::KernelExecContext*)> const&, ppl::nn::Profil
   from /home/wyngts/running/strategylib/bts_algo/5.9.12/[libbts_algo.so](http://libbts_algo.so/)
#5  0x00007f8b22c8583a in ppl::nn::RuntimeImpl::Run() () from /home/wyngts/running/strategylib/bts_algo/5.9.12/[libbts_algo.so](http://libbts_algo.so/)

这两次我们都拿到了崩溃时的输入,再次推理,发现一切正常,无法复现当时的问题。

可以给一些建议以进一步分析该问题吗?感谢!

模型结构: image