Tencent / caelus

Set of Kubernetes solutions for reusing idle resources of nodes by running extra batch jobs
Other
344 stars 83 forks source link

运行二进制 ./caelus --v="2" --kubeconfig=config 找不到k8s 节点?? #51

Open bretagne-peiqi opened 2 years ago

bretagne-peiqi commented 2 years ago
3fc2d864161b57e9e10a7050fdf688f9b660a4ed8554f3b38b6920232185f366QzpcVXNlcnNccGVpcWkuc2hpXEFwcERhdGFcUm9hbWluZ1xEaW5nVGFsa1wxNDk4NDc4OTg3X3YyXEltYWdlRmlsZXNcMTY0NjM4MTM0NTE3M182MTgwNzVFQy1COUYyLTRkNzktQThFRC0wMjU2NUZGNTNFNTMucG5n
bretagne-peiqi commented 2 years ago
19d3df3ba0f0540eb56d8465ff455ef159387f0f671ab8416bcf70bf089d3367QzpcVXNlcnNccGVpcWkuc2hpXEFwcERhdGFcUm9hbWluZ1xEaW5nVGFsa1wxNDk4NDc4OTg3X3YyXEltYWdlRmlsZXNcMTY0NjM4NTcxMjUxMF8wM0JBREFBNC1DNDJDLTQ3NzgtODI1Qi1GMThDOEFFRDdBQ0QucG5n
bretagne-peiqi commented 2 years ago

--kubeconfig=./config 没有报找不到config的错 会是什么原因导致k8s_resource.go 找不到k8s nodes。。。。

ddongchen commented 2 years ago

传递的node名称是否对? 确认下kubectl get node 获取的node名称和caelus要寻找的node名称是否一致

bretagne-peiqi commented 2 years ago

image image image

我对了下 node名称应该是一致的,但还是报node level err。 另外能够获取本地的一个catalog下面的pod 还有一个crashing的pod名称。这个是从/var/lib 还是apiserver获取的? 因为好像除了这两个container id. 其他的容器找不到?

ddongchen commented 2 years ago

日志报错not found,并打印node的内容,里面没有发现node的名称。

image

这个是node名称?

bretagne-peiqi commented 2 years ago

开始的时候 hostname 是这个名称, 后来改成了和kubectl get node 一样的, 之后加了日志打印好像是找到了。 不过rule_check_node.go 那边还是报错 resource not found: Node. 还有predict_local.go addSample 也是找不到 no node state。

bretagne-peiqi commented 2 years ago

有具体的原理说明文档 或者design doc之类吗,

ddongchen commented 2 years ago

可查看Readme。特别详细的原理说明文档,还在完善中,目前可通过分析代码,了解整个流程

ddongchen commented 2 years ago

程序刚启动的时候,报resource not found: Node是正常现象,因数据还收集完全