Closed chen1234520 closed 1 week ago
之前相同的数据集使用pytorch训练fastreid resnet50的时候耗时一两天就训练好了,这个训练时间差别好大。
30天确实不合理。训练的时候显卡利用率正常吗?建议使用cuda 11.8,11.3的话可能会导致无法使用gpu。
30天确实不合理。训练的时候显卡利用率正常吗?建议使用cuda 11.8,11.3的话可能会导致无法使用gpu。
显卡内存使用了大概15G,train的batch_size使用的默认值256。有一个问题请教,安装paddlepaddle的时候cuda的小版本必须与上面那个官网截图一致吗?因为更换cuda版本会对原来其他conda虚拟环境有影响,所以想尽量不变动。
安装低于系统cuda版本的paddle解决该问题.
ppcls INFO: [Train][Epoch 2/100][Iter: 500/1606]lr(LinearWarmup): 0.01574346, CELoss: 8.69497, TripletAngularMarginLoss: 0.64910, loss: 9.34407, batch_cost: 20.16547s, reader_cost: 19.83207, ips: 12.69497 samples/s, eta: 36 days, 23:48:26 微调特征提取模型,数据集:17000类,41万个样本。使用单卡3090训练提示需要30天。 请问这个时间是正常的吗?另外在安装paddlepaddle-gpu2.6.1时,我的cuda版本是11.3,跟paddle官方网站列出的cuda版本不一致,这个会导致训练时间增加吗?