bubbliiiing / yolov8-pytorch

这是一个yolov8-pytorch的仓库,可以用于训练自己的数据集。
GNU General Public License v3.0
592 stars 72 forks source link

DDP #31

Open TryHard-LL opened 1 year ago

TryHard-LL commented 1 year ago

您好,在使用DDP训练时,程序会卡住不动,且GPU占用率100%,请问这个是数据的问题嘛【此处是使用自己的数据】?

bubbliiiing commented 1 year ago

看看具体的情况

bubbliiiing commented 1 year ago

怎么卡主

TryHard-LL commented 1 year ago

怎么卡主

当时用多卡时,会出现在跑一些batch后,显存占用率直接到100%,同时程序不再处理/训练新的batch。

jiaduob commented 8 months ago

您好,我也发生了一样的情况,DP可以正常训练,但是换成DDP会在中间卡主,请问您是怎么解决这个问题的?我使用的也是自建的数据集

answerman1 commented 5 months ago

你好,我也遇到这个问题了,请问DDP训练时卡住,这个问题怎么解决的呢