Qihoo360 / hbox

AI on Hadoop
Apache License 2.0
1.73k stars 385 forks source link

Tensorflow版本兼容和模型保存 #52

Closed bleachzk closed 5 months ago

bleachzk commented 5 years ago

目前使用XLearning测试Tensorflow分布式模型训练的场景,遇到一些问题:

  1. XLearning现在兼容支持的最高的Tensorflow的版本是哪个?目前example里面里提供的测试脚本在1.10的版本是测试不通过的,1.3版本可以兼容。

2.能否给出保存pb模型文件的方式,现在测试在本机可以保存pb文件的python代码,使用xlearning保存的时候就会报错。

jiarunying commented 5 years ago

1、TensorFlow example的示例脚本是基于1.1版本写的,xlearning仅为调度平台,原则上支持的TensorFlow版本不受限制(内部使用1.12版本没有问题) 2、pb保存模型出错需要根据作业的报错情况具体分析

bleachzk commented 5 years ago

@jiarunying 谢谢回复。

  1. 我在本地测试分布式训练模型保存的时候,如果PS和Worker不是共享存储路径的话,保存模型的时候会报错误:NotFoundError (see above for traceback): xxxx_model/1 variables/variables_temp_ae346506332a4adc801e21a63e1c3314;
  2. 如果PS和Worker的输出路径是用NFS共享存储的话是可以正确保存;
  3. Tensorflow Serving好像不支持加载分布式训练得到的模型。
jiarunying commented 5 years ago

这种情况建议直接使用hdfs进行存储,TensorFlow支持对hdfs文件的读取