mrwu-mac / DIFNet

This repository is for the paper ``DIFNet: Boosting Visual Information Flow for Image Captioning'' (CVPR 2022).
BSD 3-Clause "New" or "Revised" License
20 stars 7 forks source link

关于训练时间的咨询 #8

Closed Markkk111 closed 1 year ago

Markkk111 commented 1 year ago

您好,在训练过程中大概1-2days(20~30epoch)会报“RuntimeError: Too many open files. Communication with the workers is no longer possible. Please increase the limit using ulimit -n in the shell or change the sharing strategy by calling torch.multiprocessing.set_sharing_strategy('file_system') at the beginning of your code”的错误,寻找方法再验证的等待时间过长,请问您训练时间是多久啊?是否有尝试分布式训练?

mrwu-mac commented 1 year ago

很抱歉之前通过邮箱回复,不知道你是否有看到。我在这里重新回复你,训练总时间在3天左右,目前暂不支持分布式训练,并且目前训练只需在单张1080Ti上就能完成,分布式训练是不必要的。如果你希望执行分布式训练,你可以尝试基于https://github.com/ruotianluo/ImageCaptioning.pytorch 这套框架执行,或者修改我们代码中的多进程和解码器中的某些操作来实现(目前我们暂无执行分布式训练计划,请自行尝试)。