lijiang2014 / thht

Tian He Throughput Computing
0 stars 0 forks source link

SLURM 挂起作业对系统的影响。 #21

Open lijiang2014 opened 7 years ago

lijiang2014 commented 7 years ago

测试发现, SLURM 挂起作业会将所有用户进程切换到 “T” 状态 (如同 kill STOP , 用 SIGCONT 恢复) 。

短时间的 挂起不会对 CELERY 造成太多影响,(会有 "missed heartbeat" )

但不知道太长的话会不会有其他影响。

lijiang2014 commented 7 years ago

长时间的挂起会导致作业失败/重新提交 。 还需要进一步测试以了解情况。

lijiang2014 commented 7 years ago

首先构造一个可以测试出error 的情景 。 来测试挂起多长时间会对算例的影响。

lijiang2014 commented 7 years ago

目前测试的现象表明,如果挂起超过1个小时 (可能更短), celery 会认为 worker 失连,从而重启worker 。

解决办法 : 在重启 worker 前等待一段时间,再尝试一次连接 , 而不是只是根据 失连时间去判断。 不过这需要去寻找处理worker 失连的函数 。