Fried-Rice-Lab / FriedRiceLab

Official repository of the Fried Rice Lab, including code resources of the following our works: ESWT [arXiv], etc. This repository also implements many useful features and out-of-the-box image restoration models.
MIT License
205 stars 31 forks source link

模型 #24

Closed Qqsoe closed 5 months ago

Qqsoe commented 5 months ago

请问这个模型您在什么GPU上进行的,花费了多长时间

jnpngshiii commented 5 months ago

我记得应该是两块 3090,一天多的样子。

Qqsoe commented 5 months ago

请问我让它在有两块gpu的主机上训练需要修改命令吗?如果需要怎么修改

jnpngshiii commented 4 months ago

不好意思, 毕业季有点忙, 来不及回复.

你可以查看一下复现指南: https://github.com/Fried-Rice-Lab/FriedRiceLab/blob/master/docs/ESWT.md#312-distributed-training-command-for-multiple-eg-4-gpus

Qqsoe commented 4 months ago

CUDA_VISIBLE_DEVICES=0,1 python -u -m torch.distributed.run --nproc_per_node=2 --master_port=4000 train.py -expe_opt options/expe/ESWT/ESWT_LSR.yml -task_opt options/task/LSR_x4.yml --launcher pytorch --force_yml train:batch_size_per_gpu=32 请问两张gpu我用的这个命令,单个gpu时把batch-size设置为32,这两种训练需要时间都是两天多,正常吗

jnpngshiii commented 4 months ago

比较正常吧。我们当时两块 3090 训练可能也是两天左右。

由于网络不大而训练数据量较大,限制训练速度的另外一个重要因素可能是数据的吞吐速度。可以试试使用 LMDB 加载数据。

Qqsoe commented 4 months ago

好的,感谢。