Closed mizar closed 3 years ago
複数GPU環境、TensorRT版ふかうら王において、1番目のGPUしか使われていなかった件の修正案です。
dlshogiの場合、 UctSearch.cpp 内で cudaSetDevice() が呼び出されていましたが、ふかうら王ではこの cudaSetDevice() を呼び出している箇所が無さそうでした。 https://github.com/TadaoYamaoka/DeepLearningShogi/blob/master/usi/UctSearch.cpp#L302-L339
UctSearch.cpp
cudaSetDevice()
手元の環境で UCT_Threads1 3 , UCT_Threads2 3 , DNN_Batch_Size1 256 として複数GPUを使う設定を行うと、序盤の局面では複数GPUを使って dlshogi とほぼ同等の 100kNPS 程度の探索が出来そうです。
UCT_Threads1 3 , UCT_Threads2 3 , DNN_Batch_Size1 256
(ponder無しでのテスト対局)
dlshogiから移植してくるときに、要らんのかと勘違いしてました😂 ありがとうございます。
複数GPU環境、TensorRT版ふかうら王において、1番目のGPUしか使われていなかった件の修正案です。
dlshogiの場合、
UctSearch.cpp
内でcudaSetDevice()
が呼び出されていましたが、ふかうら王ではこのcudaSetDevice()
を呼び出している箇所が無さそうでした。 https://github.com/TadaoYamaoka/DeepLearningShogi/blob/master/usi/UctSearch.cpp#L302-L339手元の環境で
UCT_Threads1 3 , UCT_Threads2 3 , DNN_Batch_Size1 256
として複数GPUを使う設定を行うと、序盤の局面では複数GPUを使って dlshogi とほぼ同等の 100kNPS 程度の探索が出来そうです。(ponder無しでのテスト対局)