lijiang2014 / thht

Tian He Throughput Computing
0 stars 0 forks source link

THHT fail list error #19

Open lijiang2014 opened 7 years ago

lijiang2014 commented 7 years ago

在 2017/1/20 的用户测试过程中,分别跑了四个 THHT (100,100,100,33), 中间遇到两次系统故障(一次IO故障,一次系统例行维护),第二个任务出错了(暂未分析,从时间上看和第一次IO故障有关),其他几个任务正常跑完了,但没有正确的退出。调试发现是由于 Fail_list 的计数出了问题,导致 s + f ==a 的条件没有达成 。 建议这里进行两个处理 : 1 。 修订 Fail_list 2 . 当 s + f >= a 时 进行进一步的处理 , 判断是否应该退出。