Open magiczixiao opened 3 years ago
作者您好! 我使用CASIA数据集自行混合生成了训练和验证数据集, 可以进行训练, 但在每个epoch后的验证阶段会不定期卡死. 验证时调用的的函数为trainer\trainer.py: validation(self, epoch), 请问您是否有解决方案? 谢谢!
您好你有什么报错信息么,给我参考一下
您好, 谢谢您的回复! 没有报错信息, 现象就是CPU利用率直接降低至0. 切掉进程后也没有返回异常信息. 我进行了一些实验, 发现将num_worker降低至16以下可以降低该问题出现的概率. 环境为Intel(R) Xeon(R) Gold 5218R CPU, 可能是加载数据时的调度问题?
有可能是因为设置的num_workers超过cpu的线程数目,造成了进程堵塞
作者您好! 我使用CASIA数据集自行混合生成了训练和验证数据集, 可以进行训练, 但在每个epoch后的验证阶段会不定期卡死. 验证时调用的的函数为trainer\trainer.py: validation(self, epoch), 请问您是否有解决方案? 谢谢!