Qihoo360 / hbox

AI on Hadoop
Apache License 2.0
1.73k stars 384 forks source link

分布式模式下train_and_evaluate #44

Closed Continue7777 closed 5 years ago

Continue7777 commented 5 years ago

请教,分布式模式下train_and_evaluate无法触发evaluate,tf中提到需要启动evaluate节点,且该节点不属于训练集群,请问xlearning下如何处理。

train_and_evaluate的stop condition只有max_step,有没有比较好的方式,通过验证集提前结束,防止过拟合的方案。

jiarunying commented 5 years ago

xlearning 在下个版本中在分布式情况下,会通过设置将最后一个worker视为evaluator角色;train_and_evaluate的stop condition 以TensorFlow官方提供的依据为准。