Open lai-pf opened 2 years ago
单块可能比较慢,也许要40-60分钟一个epoch。4张3090是15分钟一个epoch。 不过如果使用关键点预训练模型的话,实际hybrik训练之需要30-40epoch左右。
@Jeff-sjtu 您好,我想求教下,为什么我在单块A6000上训练 一个epoch要4个半小时 速度3s/it 基本没有更改任何东西, 我注意到标注加载需要很长时间 然后在运行中GPU使用率频繁的降低为0 您知道有可能是什么原因造成的吗? 我尝试将numworkers从0调整为4之后 epoch耗时才跟您说的持平了 但是CPU内存占用也扩大了很多 我不确定这样子是不是还是哪里不对.
@Jeff-sjtu 您好,我想求教下,为什么我在单块A6000上训练 一个epoch要4个半小时 速度3s/it 基本没有更改任何东西, 我注意到标注加载需要很长时间 然后在运行中GPU使用率频繁的降低为0 您知道有可能是什么原因造成的吗? 我尝试将numworkers从0调整为4之后 epoch耗时才跟您说的持平了 但是CPU内存占用也扩大了很多 我不确定这样子是不是还是哪里不对.
你好,我想问一下怎样才能使用单卡进行训练,每次我都出现 torch.multiprocessing.spawn.ProcessExitedException: process 0 terminated with signal SIGKILL 这个错误
@Jeff-sjtu 您好,我想求教下,为什么我在单块A6000上训练 一个epoch要4个半小时 速度3s/it 基本没有更改任何东西, 我注意到标注加载需要很长时间 然后在运行中GPU使用率频繁的降低为0 您知道有可能是什么原因造成的吗? 我尝试将numworkers从0调整为4之后 epoch耗时才跟您说的持平了 但是CPU内存占用也扩大了很多 我不确定这样子是不是还是哪里不对.
你好,我想问一下怎样才能使用单卡进行训练,每次我都出现 torch.multiprocessing.spawn.ProcessExitedException: process 0 terminated with signal SIGKILL 这个错误
Hello, I have the same problem as you. Have you solved it? Thank you.
我想了解当前版本在我的设备是否可以进行训练,或者说训练时间是否能接受,以决定是否进行下一步的工作。期待回复,万分感谢