Closed Qqsoe closed 5 months ago
我记得应该是两块 3090,一天多的样子。
请问我让它在有两块gpu的主机上训练需要修改命令吗?如果需要怎么修改
不好意思, 毕业季有点忙, 来不及回复.
CUDA_VISIBLE_DEVICES=0,1 python -u -m torch.distributed.run --nproc_per_node=2 --master_port=4000 train.py -expe_opt options/expe/ESWT/ESWT_LSR.yml -task_opt options/task/LSR_x4.yml --launcher pytorch --force_yml train:batch_size_per_gpu=32 请问两张gpu我用的这个命令,单个gpu时把batch-size设置为32,这两种训练需要时间都是两天多,正常吗
比较正常吧。我们当时两块 3090 训练可能也是两天左右。
由于网络不大而训练数据量较大,限制训练速度的另外一个重要因素可能是数据的吞吐速度。可以试试使用 LMDB 加载数据。
好的,感谢。
请问这个模型您在什么GPU上进行的,花费了多长时间