Open zengjunjie525 opened 6 days ago
0.log 这个kuscia 的pods 日志
可以根据任务id,提供下双方的引擎日志信息 /home/kuscia/var/stdout/pods/alice_xxxx/xxx/*.log 日志获取参考:https://www.secretflow.org.cn/zh-CN/docs/kuscia/v0.12.0b0/deployment/logdescription#id3
我有上传日志,您帮忙看看呢
上面提供的不是sf的日志,sf的日志获取方式可以参考:
可以根据任务id,提供下双方的引擎日志信息 /home/kuscia/var/stdout/pods/alice_xxxx/xxx/*.log 日志获取参考:https://www.secretflow.org.cn/zh-CN/docs/kuscia/v0.12.0b0/deployment/logdescription#id3
/home/kuscia/var/stdout/pods/alice_xxxx/xxx/*.log 按这个而路径提供的log
上面提供的 0.log 是dataproxy的日志,需要根据任务id获取对应路径下的sf日志;
/home/kuscia/var/stdout/pods 下面只有一个文件,再下面只有dataproxy 然后下面有3个log 文件,我按页面上这个ID 没有这个文件
重新跑下任务,看是否能获取到对应的日志
执行也没新的文件出来,/home/kuscia/var/stdout/pods 下面还是只有一个,然后下面只有dataproxy 我执行的这个任务,一直跑不完,半个小时了都没出结果,之前5分钟就会失败,现在一直不结束,我用来测试的,数据量和数据字段很少
通讯是通的,重跑还是找不到你说那个任务的log的,还是只有dataproxy 文件
执行一下kubectl get appimage看一下
另一方的kubectl get appimage也可以提供一下,同时看一下另一方是否存在日志和pod,有的话补充上来看看。
这个是另外一个节点
看了一下他那边也是 /home/kuscia/var/stdout/pods 下面还是只有一个,然后下面只有dataproxy,然后下面有3个log 文件, 你需要这个log 文件么 dataproxy 的log 文件不是你要的是不
贴一下双方的任务详情,容器内kubectl get kj ddnc -oyaml -n cross-domain
apiVersion: kuscia.secretflow/v1alpha1 kind: KusciaJob metadata: annotations: kuscia.secretflow/initiator: gausscode kuscia.secretflow/interconn-kuscia-parties: alice kuscia.secretflow/interconn-self-parties: gausscode kuscia.secretflow/self-cluster-as-initiator: "true" creationTimestamp: "2024-11-20T07:37:31Z" generation: 1 name: ddnc namespace: cross-domain resourceVersion: "2077965" uid: 109d5f11-3f09-4719-9641-9616f869889c spec: initiator: gausscode maxParallelism: 1 scheduleMode: BestEffort tasks:
1.双方网络拓扑是什么样子的?有网关或者代理吗?可以参考这里检查下网络是否有问题 2.docker stats或者容器内top看下,可以删除一些failed,running,pending,AwaitingApproval的任务和对应的pod,kubectl delete kj 任务名 -n cross-domain,kubectl delete pod pod名(注意不要删除dataproxy的pod)
另一方 cross domain 里面没有ddnc 这个东西
双方kubectl get kj -A看下,给下截图
另一方的
1.双方网络是直连的吗? 2.在没有ddnc这一方,top看下
1、两个服务器在同一个局域网 2、
双方kuscia容器docker update --memory 12g --memory-swap 12g,然后docker restart 双方容器
这俩容器都要升级么
俩容器都升级了,重跑了任务,还是不行
目前任务状态是什么样子的?
Issue Type
Running
Have you searched for existing documents and issues?
Yes
OS Platform and Distribution
Linux ubantu
All_in_one Version
kuscia:0.12.0b0
Module type
secretpad
Module version
1.10.0b1
What happend and What you expected to happen.
Log output.