yjxiong / caffe

A fork of Caffe with OpenMPI-based Multi-GPU (mainly data parallel) support for action recognition and more. More documentation please see the original readme.
http://caffe.berkeleyvision.org/
Other
551 stars 153 forks source link

如何使用多个GPU并行? #195

Closed leeeeeeo closed 6 years ago

leeeeeeo commented 6 years ago

您好! 我在solver.prototxt里写了device_id=[0,1] 但是仍然只使用一个GPU运行! 所以如何使用多个GPU并行训练? 希望收到您的回复! 谢谢! 如下图,我在solver里写了device_id=[0,1],但是他只用一个GPU: selection_001 selection_002

zzy123abc commented 6 years ago

编译nvcc可以双卡,编译openmpi可以跨节点

leeeeeeo commented 6 years ago

@zzy123abc 你想说的是nvcc还是nccl?而且这两个在Makefile里都没有找到呢.

zzy123abc commented 6 years ago

我说错了,是nccl,建议使用mpi,因为这个版本的caffe比较老,可能不支持nccl,我编译过,好像也没有用,不过可以使用openmpi,多节点多gpu都行,具体安装可以看一下最下面一个问题和README.md

leeeeeeo commented 6 years ago

@zzy123abc emmm好吧。不是很了解mpi… mpi是指用多个服务器的多个GPU吗? 还是希望作者大大早日更新吧!嘻嘻 @yjxiong

zzy123abc commented 6 years ago

是的啊,其实也不要了解很多,我也是学着安装配置一下,能用就行。

leeeeeeo commented 6 years ago

@zzy123abc ok谢谢啦~~~

yjxiong commented 6 years ago

@leeeeeeo 你没有正确编译。需要按照指示编译才可以使用multi GPU

https://github.com/yjxiong/caffe/blob/action_recog/README.md