issues
search
lijiang2014
/
thht
Tian He Throughput Computing
0
stars
0
forks
source link
1.0 版本,遗留 TO-DOs
#15
Open
lijiang2014
opened
7 years ago
lijiang2014
commented
7 years ago
[ ] 完善 control tool 的功能 (需要修改 tools.py 和 run.py) :
[ ] -v revoke a job 取消作业 (在线功能)
[ ] -a append jobs 添加作业 (在线功能)
[x] -R 运行作业的结果显示的处理 (在线功能)
[ ] 运行中的存储文件 .log.thht.F .log.thht.E 的记录和处理 , 参考 .log.thht.S
[ ] -s get summary info , -n [name] get such job info 在线功能已实现,还需实现离线功能
[ ] 完善 monitor 和 run 的功能 ( 需修改 monitor.py 和 run.py)
[ ] 目前重算时会重新提交计算 没有 S 和 F 的作业 ,其中新提交的作业的 旧的 task_id 被我主动删除,可能会导致一些有依赖的信息无法访问,更好的变法是另见新表来存储 task_id 和 task_name 的额外对应关系。 task_id 和 task_name 可能存在两种的 多-对-一 映射关系 :
不规范的输入文件导致一个task_name 多次出现 .
上面这种情况, 一个 task_name 由于重算被分配了多个 task_name . 如何更好的处理这两种情况?
[ ] 增加开关, 选择可以重算 失败了的任务 ?
[ ] 是否记录作业 retry 的次数 ? 并在重算时进行累加 控制retry ?
[ ] 目前 smartRun 可以处理 第一次计算 和 数据库完整的重算 , 还需要添加 数据库信息不完整 需要从 .log.thht.* 中获取信息的重算 。