Segmentation fault (core dumped) #423

/home/exp/anaconda3/envs/universal_picking_torch/lib/python3.7/importlib/ RuntimeWarning: numpy.ufunc size changed, may indicate binary incompatibility. Expected 192 from C header, got 216 from PyObject
  return f(*args, **kwds)
/home/exp/envs/robosuite/robosuite/models/tasks/ DeprecationWarning: Using or importing the ABCs from 'collections' instead of from '' is deprecated since Python 3.3,and in 3.9 it will stop working
  elif isinstance(self.z_rotation, collections.Iterable):
Found 1 GPUs for rendering. Using device 0.
pybullet build time: Jun  2 2020 06:48:23
/home/exp/anaconda3/envs/universal_picking_torch/lib/python3.7/site-packages/gym/ UserWarning: WARN: Box bound precision lowered by casting to float32
  warnings.warn(colorize('%s: %s'%('WARN', msg % args), 'yellow'))
[10-08 11:11:18 MainThread] nvidia-smi -L found gpu count: 1
[10-08 11:11:18 MainThread] nvidia-smi -L found gpu count: 1
[10-08 11:11:18 MainThread] Remote actors log url:
[10-08 11:11:18 MainThread] Waiting for 3 remote actors to connect.
[10-08 11:11:18 MainThread] Remote actor count: 1
[10-08 11:11:18 MainThread] Remote actor count: 2
[10-08 11:11:18 MainThread] Remote actor count: 3
[10-08 11:11:18 MainThread] All remote actors are ready, begin to learn.
[10-08 11:13:52 MainThread] Epoch 0, Evaluate reward: -200.0, success: 0.0
[10-08 11:13:52 MainThread] WRN [VisualDL] logdir is None, will save VisualDL files to train_log/train
View the data using: visualdl --logdir=./train_log/train --host=
[10-08 11:13:52 MainThread] {'epoch': 0, 'stats_g_mean': 0.47275138, 'stats_g_std': 0.038607508, 'stats_o_mean': 0.08620722, 'stats_o_std': 0.24926318, 'tests_mean_ep_rew': -200.0, 'tests_success_rate': 0.0, 'train_mean_ep_rew': -199.98533529142853, 'train_success_rate': 0.0}
Segmentation fault (core dumped)



Package              Version         Location                                                   
-------------------- --------------- -----------------------------------------------------------
absl-py              0.9.0           
appdirs              1.4.4           
astor                0.8.1           
atari-py             0.2.6           
Babel                2.8.0                                       
certifi              2020.4.5.1      
cffi                 1.14.0          
cfgv                 3.1.0           
chardet              3.0.4           
click                7.1.2           
cloudpickle          1.2.1           
cycler               0.10.0          
Cython               0.29.16         
distlib              0.3.1           
fasteners            0.15            
filelock             3.0.12          
flake8               3.8.3           
Flask                1.1.2           
Flask-Babel          1.0.0           
Flask-Cors           3.0.8           
future               0.18.2          
gast                 0.3.3           
glfw                 1.11.0          
google-pasta         0.2.0           
grpcio               1.29.0          
gym                  0.15.7          
h5py                 2.10.0          
identify             1.4.25          
idna                 2.10            
imageio              2.8.0           
importlib-metadata   1.6.1           
importlib-resources  3.0.0           
itsdangerous         1.1.0           
Jinja2               2.11.2          
joblib               0.15.1          
Keras-Applications   1.0.8           
Keras-Preprocessing  1.1.2           
kiwisolver           1.2.0           
lockfile             0.12.2          
Markdown             3.2.2           
MarkupSafe           1.1.1           
matplotlib           3.2.2           
mccabe               0.6.1           
monotonic            1.5             
mpi4py               3.0.3           
nodeenv              1.4.0           
numpy                1.18.5          
pandas               1.0.5           
parl                 1.3.2           /home/exp/Codes/PARL                                       
Pillow               7.1.2           
pip                  20.0.2          
pre-commit           2.6.0           
protobuf             3.12.2          
psutil               5.7.2           
pyarrow              0.13.0          
pybullet             2.8.1           
pycodestyle          2.6.0           
pycparser            2.20            
pyflakes             2.2.0           
pyglet               1.5.0           
pyparsing            2.4.7           
python-dateutil      2.8.1           
pytz                 2020.1          
PyYAML               5.3.1           
pyzmq                18.0.1          
requests             2.24.0                                    
scipy                1.4.1           
setuptools           47.1.1          
six                  1.15.0          
tb-nightly           1.15.0a20190801 
tensorboard          1.14.0          
tensorboardX         1.8             
tensorflow-estimator 1.14.0          
tensorflow-gpu       1.14.0          
termcolor            1.1.0           
toml                 0.10.1          
torch                1.6.0           
torchvision          0.7.0           
tqdm                 4.46.1          
urllib3              1.25.10         
virtualenv           20.0.28         
visualdl             2.0.0b8         
Werkzeug             1.0.1           
wheel                0.29.0          
wrapt                1.12.1          
zipp                 3.1.0   


No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 16.04.6 LTS Release: 16.04 Codename: xenial

我们在Ubuntu机器的python3.7.7环境中运行了 PARL/benchmark/torch/a2c下的示例代码,可以正常运行,你可以参考下我们的A2C示例来编写多线程训练程序,或者如果方便的话也可以整理一下你的代码给我们,方便我们复现并定位问题。

Gaoee commented 3 years ago

抱歉,这两天忙着赶项目忘记关注邮箱了。 这个看着像是序列化导致的,xparl 并行过程中会把函数的输入以及输出通过网络传输分发到不同节点上。 这就需要用到序列化,但是有些类型是没办法序列化的,比如protobuf的message,没办法通过pyarrow进行二次序列化。 还请检查下你的函数输入输出是否都是常见类型。

另外这个情况不代表没法通过xparl并行了,举个例子,torch里面的gpu tensor数据都放在gpu显存中,没办法直接序列化分发的,但是我们可以先通过tensor.cpu().numpy()的方式把它转换成常见的数据类型,再分发出去。

感谢反馈。 pyarrow确实是个大问题,它虽然是归Apache这个开源机构管理,但是为了跨平台兼容性,在 python这块经常有些莫名其妙的问题。 后续版本我们会替换掉它。


感谢反馈。 pyarrow确实是个大问题,它虽然是归Apache这个开源机构管理,但是为了跨平台兼容性,在 python这块经常有些莫名其妙的问题。 后续版本我们会替换掉它。

我们在年底会统一修复兼容性,鲁棒性的问题,感谢使用与反馈。 您的使用反馈对我们帮助很大:)祝好

这个问题好像是一些库的版本导致的,更新到1.4后还是存在Segmentation fault (core dumped)的问题。 我使用下面的环境就没有出现这样的问题了

Package              Version         Location                               
-------------------- --------------- ---------------------------------------
absl-py              0.9.0           
appdirs              1.4.4           
astor                0.8.1           
atari-py             0.2.6           
Babel                2.8.0                  
certifi              2020.6.20       
cffi                 1.14.0          
cfgv                 3.1.0           
chardet              3.0.4           
click                7.1.2           
cloudpickle          1.6.0           
cycler               0.10.0          
Cython               0.29.19         
distlib              0.3.1           
fasteners            0.15            
filelock             3.0.12          
flake8               3.8.3           
Flask                1.1.2           
Flask-Babel          1.0.0           
Flask-Cors           3.0.8           
future               0.18.2          
gast                 0.3.3           
glfw                 1.11.2          
google-pasta         0.2.0           
grpcio               1.29.0          
gym                  0.15.7          
h5py                 2.10.0          
identify             1.4.25          
idna                 2.10            
imageio              2.8.0           
importlib-metadata   1.6.1           
importlib-resources  3.0.0           
itsdangerous         1.1.0           
Jinja2               2.11.2          
joblib               0.15.1          
Keras-Applications   1.0.8           
Keras-Preprocessing  1.1.2           
kiwisolver           1.2.0           
lockfile             0.12.2          
Markdown             3.2.2           
MarkupSafe           1.1.1           
matplotlib           3.2.2           
mccabe               0.6.1           
monotonic            1.5             
mpi4py               3.0.3           
nodeenv              1.4.0           
numpy                1.18.5          
pandas               1.0.5           
parl                 1.4             /home/exp/Codes/PARL1.4                
Pillow               7.1.2           
pip                  20.2.3          
pre-commit           2.6.0           
protobuf             3.14.0          
psutil               5.7.2           
pyarrow              0.17.1          
pybullet             2.8.1           
pycodestyle          2.6.0           
pycparser            2.20            
pyflakes             2.2.0           
pyglet               1.5.0           
pyparsing            2.4.7           
python-dateutil      2.8.1           
pytz                 2020.1          
PyYAML               5.3.1           
pyzmq                18.1.1          
requests             2.24.0                     
scipy                1.4.1           
setuptools           47.1.1          
six                  1.15.0          
tb-nightly           1.15.0a20190801 
tensorboard          1.14.0          
tensorboardX         1.8             
tensorflow-estimator 1.14.0          
tensorflow-gpu       1.14.0          
termcolor            1.1.0           
toml                 0.10.1          
torch                1.6.0           
torchvision          0.7.0           
tqdm                 4.46.1          
urllib3              1.25.10         
virtualenv           20.0.28         
visualdl             2.0.0b8         
Werkzeug             1.0.1           
wheel                0.29.0          
wrapt                1.12.1          
zipp                 3.1.0