secretflow / secretpad

SecretPad is a privacy-preserving computing web platform based on the Kuscia framework, designed to provide easy access to privacy-preserving data intelligence and machine learning functions.
https://www.secretflow.org.cn
Apache License 2.0
42 stars 23 forks source link

P2P模式下 隐私求交报错 #163

Open zengjunjie525 opened 6 days ago

zengjunjie525 commented 6 days ago

Issue Type

Running

Have you searched for existing documents and issues?

Yes

OS Platform and Distribution

Linux ubantu

All_in_one Version

kuscia:0.12.0b0

Module type

secretpad

Module version

1.10.0b1

What happend and What you expected to happen.

在P2P模式下,双方在联合项目下,进行隐私求交的时候,报错,页面无报错信息,问题定位需要协助

Log output.

页面无报错反馈
zengjunjie525 commented 6 days ago

0.log 这个kuscia 的pods 日志 image

zengjunjie525 commented 6 days ago

image

lanyy9527 commented 6 days ago

可以根据任务id,提供下双方的引擎日志信息 /home/kuscia/var/stdout/pods/alice_xxxx/xxx/*.log 日志获取参考:https://www.secretflow.org.cn/zh-CN/docs/kuscia/v0.12.0b0/deployment/logdescription#id3

zengjunjie525 commented 6 days ago

我有上传日志,您帮忙看看呢

lanyy9527 commented 6 days ago

上面提供的不是sf的日志,sf的日志获取方式可以参考:

可以根据任务id,提供下双方的引擎日志信息 /home/kuscia/var/stdout/pods/alice_xxxx/xxx/*.log 日志获取参考:https://www.secretflow.org.cn/zh-CN/docs/kuscia/v0.12.0b0/deployment/logdescription#id3

zengjunjie525 commented 6 days ago

/home/kuscia/var/stdout/pods/alice_xxxx/xxx/*.log 按这个而路径提供的log

lanyy9527 commented 6 days ago

上面提供的 0.log 是dataproxy的日志,需要根据任务id获取对应路径下的sf日志;

zengjunjie525 commented 6 days ago

/home/kuscia/var/stdout/pods 下面只有一个文件,再下面只有dataproxy 然后下面有3个log 文件,我按页面上这个ID 没有这个文件 image

lanyy9527 commented 6 days ago

重新跑下任务,看是否能获取到对应的日志

zengjunjie525 commented 5 days ago

执行也没新的文件出来,/home/kuscia/var/stdout/pods 下面还是只有一个,然后下面只有dataproxy 我执行的这个任务,一直跑不完,半个小时了都没出结果,之前5分钟就会失败,现在一直不结束,我用来测试的,数据量和数据字段很少 image

lanyy9527 commented 5 days ago
  1. 在我的机构中,检查两个节点的状态是否可用;
  2. 在合作节点中,检查两个合作节点的通讯状态是否可用;
zengjunjie525 commented 5 days ago

通讯是通的,重跑还是找不到你说那个任务的log的,还是只有dataproxy 文件 image

wangzul commented 5 days ago

执行一下kubectl get appimage看一下

zengjunjie525 commented 5 days ago

image

wangzul commented 5 days ago

image

另一方的kubectl get appimage也可以提供一下,同时看一下另一方是否存在日志和pod,有的话补充上来看看。

zengjunjie525 commented 5 days ago

这个是另外一个节点 8434e835ea937074eedd583e2fdcde97

zengjunjie525 commented 5 days ago

看了一下他那边也是 /home/kuscia/var/stdout/pods 下面还是只有一个,然后下面只有dataproxy,然后下面有3个log 文件, 你需要这个log 文件么 dataproxy 的log 文件不是你要的是不

zimu-yuxi commented 5 days ago

贴一下双方的任务详情,容器内kubectl get kj ddnc -oyaml -n cross-domain

zengjunjie525 commented 5 days ago

apiVersion: kuscia.secretflow/v1alpha1 kind: KusciaJob metadata: annotations: kuscia.secretflow/initiator: gausscode kuscia.secretflow/interconn-kuscia-parties: alice kuscia.secretflow/interconn-self-parties: gausscode kuscia.secretflow/self-cluster-as-initiator: "true" creationTimestamp: "2024-11-20T07:37:31Z" generation: 1 name: ddnc namespace: cross-domain resourceVersion: "2077965" uid: 109d5f11-3f09-4719-9641-9616f869889c spec: initiator: gausscode maxParallelism: 1 scheduleMode: BestEffort tasks:

zimu-yuxi commented 5 days ago

1.双方网络拓扑是什么样子的?有网关或者代理吗?可以参考这里检查下网络是否有问题 2.docker stats或者容器内top看下,可以删除一些failed,running,pending,AwaitingApproval的任务和对应的pod,kubectl delete kj 任务名 -n cross-domain,kubectl delete pod pod名(注意不要删除dataproxy的pod)

zengjunjie525 commented 5 days ago

另一方 cross domain 里面没有ddnc 这个东西

zimu-yuxi commented 5 days ago

双方kubectl get kj -A看下,给下截图

zengjunjie525 commented 5 days ago

image

zengjunjie525 commented 5 days ago

另一方的 01b4e7c91a0de2a609293200065a2bc4

zimu-yuxi commented 5 days ago

1.双方网络是直连的吗? 2.在没有ddnc这一方,top看下

zengjunjie525 commented 5 days ago

1、两个服务器在同一个局域网 2、2f901432ed41659c89ae0cbf09cae201

zimu-yuxi commented 5 days ago

双方kuscia容器docker update --memory 12g --memory-swap 12g,然后docker restart 双方容器

zengjunjie525 commented 4 days ago

这俩容器都要升级么 image

zengjunjie525 commented 4 days ago

俩容器都升级了,重跑了任务,还是不行

zimu-yuxi commented 3 days ago

目前任务状态是什么样子的?