分布式模式下train_and_evaluate

Qihoo360 / hbox

AI on Hadoop

Apache License 2.0

1.73k stars 385 forks source link

Closed Continue7777 closed 6 years ago

Continue7777 commented 6 years ago

请教，分布式模式下train_and_evaluate无法触发evaluate，tf中提到需要启动evaluate节点，且该节点不属于训练集群，请问xlearning下如何处理。

train_and_evaluate的stop condition只有max_step，有没有比较好的方式，通过验证集提前结束，防止过拟合的方案。

jiarunying commented 6 years ago

xlearning 在下个版本中在分布式情况下，会通过设置将最后一个worker视为evaluator角色；train_and_evaluate的stop condition 以TensorFlow官方提供的依据为准。