Closed KRCheung closed 2 months ago
看起来像部分分区为空
This issue has been marked as stale because it has been open for 365 days with no activity. If this issue is still relevant or if there is new information, please feel free to update or reopen it.
This issue was closed because it has been inactive for 1 days since being marked as stale. If this issue is still relevant or if there is new information, please feel free to update or reopen it.
bug描述 将eggroll替换成spark之后,执行heteroLR训练,hetero_lr_0组件运行错误,报TypeError
复现过程 可稳定复现。 整个流程使用fateflow提供的rest api。 1,guest方和host方分别上传数据到fate flow主机(这里的数据是python容器内提供的样例数据,在用eggroll作为底层引擎时正常运行)。这个阶段能够正常上传。 2,guest方发起训练任务(训练任务使用的conf和dsl也都是python容器内提供的默认配置,在用eggroll作为底层引擎时正常运行。在使用spark时,我们将conf文件中的backend字段改成1,其余字段不变)。这个阶段在hetero_lr_0组件运行阶段报错退出。
正常情况 能够像使用eggroll那样正常结束训练阶段。
屏幕截图
部署架构
训练conf配置
训练dsl配置
备注 我们是在使用eggroll替换了spark后出现的这个问题。我们heteroLR算法调用fate-flow rest api的流程有固定脚本,以及我们使用的训练数据、训练阶段配置的conf和dsl都是从python容器中拿出来的,唯一变的地方就是backend字段从0变成1(文档说0代表eggroll,1代表spark+rabbitmq)。在原本使用eggroll时整个流程都是正常的,包括训练和预测。但是使用spark的时候在训练阶段就过不去。