Open ChrisHuo-04 opened 1 year ago
是在/data/projects/fate/model_local_cache/ 这个目录。你们有定时清理逻辑吗? 是不是被清理了?, 这个可以查下。 此外如果是生产上应用,这个目录最好做下高可用。
是在/data/projects/fate/model_local_cache/ 这个目录。你们有定时清理逻辑吗? 是不是被清理了?, 这个可以查下。 此外如果是生产上应用,这个目录最好做下高可用。
@dylan-fan 没有做定时清理逻辑。部署kubefate各节点下的python容器一直运行未重启,各节点下面的/data/projects/fate/fateflow/model_local_cache目录以及/data/projects/fate/fateflow/jobs在同一个时间点内容均全部被清除。 /data/projects/fate/fateflow/logs中的文件均未丢失。
FATE中可能有某些指令会触发model_local_cahe及jobs文件夹清空么?
kubefate 这块fangchi看下?
请问是用的是kubefate的docker-compose模式还是K8s模式?
@wfangchi k8s模式 Client Version: version.Info{Major:"1", Minor:"21", GitVersion:"v1.21.7", GitCommit:"1f86634ff08f37e54e8bfcd86bc90b61c98f84d4", GitTreeState:"clean", BuildDate:"2021-11-17T14:41:19Z", GoVersion:"go1.16.10", Compiler:"gc", Platform:"linux/amd64"}
谢谢,1.7.2版本的fateflow容器的volume mount路径可能不太对,在1.9和以后的版本应该已经修复了:https://github.com/FederatedAI/KubeFATE/pull/639 ,请 @owlet42 帮忙确认下。
@ChrisHuo-04
cluster.yaml
中persistence
是true
/data/projects/fate/fateflow/model_local_cache
还是/data/projects/fate/model_local_cache
这个路径会被清理。
情况描述: 部署版本为Kubefate 1.7.2,可正常训练预测,运行一段时间后python容器下的/data/projects/fate/model_local_cache/目录清空。
问题: 1.模型是否最终存于python容器下的/data/projects/fate/model_local_cache/中?(如果是存储在Eggroll里,容器名称和目录是什么) 2.什么情况可能会导致kubefate的model_local_cache文件夹清空?
多谢