Report

Setting up KEDA on GKE, scaledObject for VictoriaMetrics was not able to scale up the target deployment.

Expected Behavior

To scale up the target deployment depending upon the unacknowledged messages.

Actual Behavior

HPA can't scale to deployment.

Steps to Reproduce the Problem

Setting up KEDA on GKE
Create a scaledObject

Logs from KEDA operator

Logs from keda-operator:

2024-02-23T03:00:04Z    DEBUG   scale_handler   Getting metrics and activity from scaler    {"scaledObject.Namespace": "default", "scaledObject.Name": "ct-logic-uni-ad-listing-consumer", "scaler": "prometheusScaler", "metricName": "s0-prometheus", "metrics": [{"metricName":"s0-prometheus","metricLabels":null,"timestamp":"2024-02-23T03:00:04Z","value":"0"}], "activity": false, "scalerError": null}
2024-02-23T03:00:04Z    DEBUG   scaleexecutor   ScaleTarget no change   {"scaledobject.Name": "ct-logic-uni-ad-listing-consumer", "scaledObject.Namespace": "default", "scaleTarget.Name": "ct-logic-uni-ad-listing-consumer"}
2024-02-23T03:01:44Z    DEBUG   scale_handler   Getting metrics and activity from scaler    {"scaledObject.Namespace": "default", "scaledObject.Name": "ct-logic-uni-ad-listing-consumer", "scaler": "prometheusScaler", "metricName": "s0-prometheus", "metrics": [{"metricName":"s0-prometheus","metricLabels":null,"timestamp":"2024-02-23T03:01:44Z","value":"0"}], "activity": false, "scalerError": null}
2024-02-23T03:01:44Z    DEBUG   scaleexecutor   ScaleTarget no change   {"scaledobject.Name": "ct-logic-uni-ad-listing-consumer", "scaledObject.Namespace": "default", "scaleTarget.Name": "ct-logic-uni-ad-listing-consumer"}
2024-02-23T03:03:24Z    DEBUG   scale_handler   Getting metrics and activity from scaler    {"scaledObject.Namespace": "default", "scaledObject.Name": "ct-logic-uni-ad-listing-consumer", "scaler": "prometheusScaler", "metricName": "s0-prometheus", "metrics": [{"metricName":"s0-prometheus","metricLabels":null,"timestamp":"2024-02-23T03:03:24Z","value":"0"}], "activity": false, "scalerError": null}
2024-02-23T03:03:24Z    DEBUG   scaleexecutor   ScaleTarget no change   {"scaledobject.Name": "ct-logic-uni-ad-listing-consumer", "scaledObject.Namespace": "default", "scaleTarget.Name": "ct-logic-uni-ad-listing-consumer"}
2024-02-23T03:05:04Z    DEBUG   scale_handler   Getting metrics and activity from scaler    {"scaledObject.Namespace": "default", "scaledObject.Name": "ct-logic-uni-ad-listing-consumer", "scaler": "prometheusScaler", "metricName": "s0-prometheus", "metrics": [{"metricName":"s0-prometheus","metricLabels":null,"timestamp":"2024-02-23T03:05:04Z","value":"0"}], "activity": false, "scalerError": null}
2024-02-23T03:05:04Z    DEBUG   scaleexecutor   ScaleTarget no change   {"scaledobject.Name": "ct-logic-uni-ad-listing-consumer", "scaledObject.Namespace": "default", "scaleTarget.Name": "ct-logic-uni-ad-listing-consumer"}

Logs from keda-operator-metrics-apiserver:

W0223 03:06:00.004156       1 logging.go:59] [core] [Channel #1 SubChannel #3] grpc: addrConn.createTransport failed to connect to {Addr: "keda-operator.keda-system.svc.cluster.local:9666", ServerName: "keda-operator.keda-system.svc.cluster.local:9666", }. Err: connection error: desc = "transport: Error while dialing: dial tcp: lookup keda-operator.keda-system.svc.cluster.local on 169.254.169.254:53: no such host"
I0223 03:06:00.206504       1 httplog.go:132] "HTTP" verb="GET" URI="/apis/external.metrics.k8s.io/v1beta1" latency="3.78937ms" userAgent="kube-controller-manager/v1.26.10 (linux/amd64) kubernetes/375ed21/controller-discovery" audit-ID="9f11bb90-7e8c-4501-9176-dfdb02017693" srcIP="10.99.208.4:33920" resp=200
I0223 03:06:02.628076       1 httplog.go:132] "HTTP" verb="GET" URI="/readyz" latency="202.49µs" userAgent="kube-probe/1.26" audit-ID="e64e1ff0-a066-489d-84fc-5c389a99316c" srcIP="10.9.24.159:39280" resp=200
I0223 03:06:04.627570       1 httplog.go:132] "HTTP" verb="GET" URI="/healthz" latency="212.31µs" userAgent="kube-probe/1.26" audit-ID="c0ea1de5-6935-4ac3-9440-186dfb8ced50" srcIP="10.9.24.159:39296" resp=200
I0223 03:06:05.043207       1 httplog.go:132] "HTTP" verb="GET" URI="/apis/external.metrics.k8s.io/v1beta1" latency="3.24352ms" userAgent="kube-controller-manager/v1.26.10 (linux/amd64) kubernetes/375ed21/system:serviceaccount:kube-system:resourcequota-controller" audit-ID="da72d594-e583-4e62-869b-ea4d259eff39" srcIP="10.99.208.4:33920" resp=200
I0223 03:06:05.628466       1 httplog.go:132] "HTTP" verb="GET" URI="/readyz" latency="249.7µs" userAgent="kube-probe/1.26" audit-ID="b20ea52e-6d70-4e11-bdf7-0c50bc912ad3" srcIP="10.9.24.159:39304" resp=200
I0223 03:06:08.628166       1 httplog.go:132] "HTTP" verb="GET" URI="/readyz" latency="210.71µs" userAgent="kube-probe/1.26" audit-ID="ab7ced6b-94d3-489f-9840-2bd413889c91" srcIP="10.9.24.159:43420" resp=200
I0223 03:06:11.627889       1 httplog.go:132] "HTTP" verb="GET" URI="/readyz" latency="226.5µs" userAgent="kube-probe/1.26" audit-ID="babb5476-3aec-44d1-8d74-612269cbecac" srcIP="10.9.24.159:43436" resp=200
I0223 03:06:14.629243       1 httplog.go:132] "HTTP" verb="GET" URI="/healthz" latency="240.72µs" userAgent="kube-probe/1.26" audit-ID="e8db9aea-8277-4494-b7bc-8ab01a1db52a" srcIP="10.9.24.159:43462" resp=200
I0223 03:06:14.629839       1 httplog.go:132] "HTTP" verb="GET" URI="/readyz" latency="137.11µs" userAgent="kube-probe/1.26" audit-ID="69b2b4c6-2868-4fe4-a3fc-90a0c4ded38c" srcIP="10.9.24.159:43450" resp=200
I0223 03:06:14.778306       1 httplog.go:132] "HTTP" verb="GET" URI="/apis/external.metrics.k8s.io/v1beta1" latency="1.06021ms" userAgent="Go-http-client/2.0" audit-ID="b42816a8-5b4d-418f-845e-e4992d20cd96" srcIP="10.99.208.4:33910" resp=200
I0223 03:06:14.779609       1 httplog.go:132] "HTTP" verb="GET" URI="/apis/external.metrics.k8s.io/v1beta1" latency="1.13304ms" userAgent="Go-http-client/2.0" audit-ID="45d55eeb-2c95-4c38-bf52-979284a08b5a" srcIP="10.99.208.4:33910" resp=200
I0223 03:06:14.780878       1 httplog.go:132] "HTTP" verb="GET" URI="/apis/external.metrics.k8s.io/v1beta1" latency="1.16637ms" userAgent="Go-http-client/2.0" audit-ID="a848e69c-dfa6-4f9e-b01c-5e9ced94c775" srcIP="10.99.208.4:33910" resp=200
I0223 03:06:14.782045       1 httplog.go:132] "HTTP" verb="GET" URI="/apis/external.metrics.k8s.io/v1beta1" latency="1.06239ms" userAgent="Go-http-client/2.0" audit-ID="e70a2c6b-fdf4-4948-9f35-4628bcbdb8f8" srcIP="10.99.208.4:33910" resp=200
I0223 03:06:14.783111       1 httplog.go:132] "HTTP" verb="GET" URI="/apis/external.metrics.k8s.io/v1beta1" latency="832.75µs" userAgent="Go-http-client/2.0" audit-ID="fafc24d5-e92d-4b36-848d-7f3f3a794ae2" srcIP="10.99.208.4:33910" resp=200
I0223 03:06:17.628712       1 httplog.go:132] "HTTP" verb="GET" URI="/readyz" latency="259.979µs" userAgent="kube-probe/1.26" audit-ID="83711701-a2db-4957-83e6-e7ea039de2a1" srcIP="10.9.24.159:43904" resp=200
I0223 03:06:18.365481       1 httplog.go:132] "HTTP" verb="LIST" URI="/apis/external.metrics.k8s.io/v1beta1/namespaces/default/s0-prometheus?labelSelector=scaledobject.keda.sh%2Fname%3Dct-logic-uni-ad-listing-consumer" latency="59.999879973s" userAgent="vpa-recommender/v0.0.0 (linux/amd64) kubernetes/$Format/metrics-horizontal-pod-autoscaler" audit-ID="b2c7d670-9498-49b0-be66-317c8b26f573" srcIP="10.99.208.4:33920" resp=504
E0223 03:06:18.419769       1 provider.go:91] keda_metrics_adapter/provider "msg"="timeout" "error"="timeout while waiting to establish gRPC connection to KEDA Metrics Service server" "server"="keda-operator.keda-system.svc.cluster.local:9666"
I0223 03:06:18.419829       1 trace.go:236] Trace[59501009]: "List" accept:application/vnd.kubernetes.protobuf, */*,audit-id:b2c7d670-9498-49b0-be66-317c8b26f573,client:10.99.208.4,protocol:HTTP/2.0,resource:s0-prometheus,scope:namespace,url:/apis/external.metrics.k8s.io/v1beta1/namespaces/default/s0-prometheus,user-agent:vpa-recommender/v0.0.0 (linux/amd64) kubernetes/$Format/metrics-horizontal-pod-autoscaler,verb:LIST (23-Feb-2024 03:05:18.369) (total time: 60050ms):
Trace[59501009]: ---"About to List from storage" 0ms (03:05:18.369)
Trace[59501009]: [1m0.050029739s] [1m0.050029739s] END
E0223 03:06:18.420011       1 timeout.go:142] post-timeout activity - time-elapsed: 54.443095ms, GET "/apis/external.metrics.k8s.io/v1beta1/namespaces/default/s0-prometheus" result: runtime error: invalid memory address or nil pointer dereference
goroutine 429060 [running]:
k8s.io/apiserver/pkg/server/filters.(*timeoutHandler).ServeHTTP.func1.1()
/workspace/vendor/k8s.io/apiserver/pkg/server/filters/timeout.go:110 +0x9c
panic({0x283ddc0, 0x4a28400})
/usr/local/go/src/runtime/panic.go:884 +0x213
sigs.k8s.io/custom-metrics-apiserver/pkg/registry/external_metrics.(*REST).List(0xc000662bd0, {0x31e5698, 0xc001447aa0}, 0x0?)
/workspace/vendor/sigs.k8s.io/custom-metrics-apiserver/pkg/registry/external_metrics/reststorage.go:92 +0x120
k8s.io/apiserver/pkg/endpoints/handlers.ListResource.func1({0x31e48f0, 0xc000fb9b60}, 0xc000d83b00)
/workspace/vendor/k8s.io/apiserver/pkg/endpoints/handlers/get.go:278 +0xf3b
sigs.k8s.io/custom-metrics-apiserver/pkg/apiserver/installer.restfulListResource.func1(0xc000fb9b40, 0xc00050c770)
/workspace/vendor/sigs.k8s.io/custom-metrics-apiserver/pkg/apiserver/installer/installer.go:274 +0x6b
k8s.io/apiserver/pkg/endpoints/metrics.InstrumentRouteFunc.func1(0xc000fb9b40, 0xc00050c770)
/workspace/vendor/k8s.io/apiserver/pkg/endpoints/metrics/metrics.go:571 +0x22c
github.com/emicklei/go-restful/v3.(*Container).dispatch(0xc001592000, {0x31e48f0, 0xc000fb9900}, 0xc000d83b00)
/workspace/vendor/github.com/emicklei/go-restful/v3/container.go:299 +0x5db
github.com/emicklei/go-restful/v3.(*Container).Dispatch(...)
/workspace/vendor/github.com/emicklei/go-restful/v3/container.go:204
k8s.io/apiserver/pkg/server.director.ServeHTTP({{0x2cd3a62?, 0x2b60de0?}, 0xc001592000?, 0xc0002accb0?}, {0x31e48f0, 0xc000fb9900}, 0xc000d83b00)
/workspace/vendor/k8s.io/apiserver/pkg/server/handler.go:146 +0x4e7
k8s.io/apiserver/pkg/endpoints/filterlatency.trackCompleted.func1({0x31e48f0, 0xc000fb9900}, 0xc000d83b00)
/workspace/vendor/k8s.io/apiserver/pkg/endpoints/filterlatency/filterlatency.go:110 +0x1ca
net/http.HandlerFunc.ServeHTTP(0x31e5698?, {0x31e48f0?, 0xc000fb9900?}, 0x4?)
/usr/local/go/src/net/http/server.go:2122 +0x2f
k8s.io/apiserver/pkg/endpoints/filters.withAuthorization.func1({0x31e48f0, 0xc000fb9900}, 0xc000d83b00)
/workspace/vendor/k8s.io/apiserver/pkg/endpoints/filters/authorization.go:78 +0x654
net/http.HandlerFunc.ServeHTTP(0xc16e20bb95df515b?, {0x31e48f0?, 0xc000fb9900?}, 0xc00012f838?)
/usr/local/go/src/net/http/server.go:2122 +0x2f
k8s.io/apiserver/pkg/endpoints/filterlatency.trackStarted.func1({0x31e48f0, 0xc000fb9900}, 0xc000d83b00)
/workspace/vendor/k8s.io/apiserver/pkg/endpoints/filterlatency/filterlatency.go:84 +0x190
net/http.HandlerFunc.ServeHTTP(0x4a3cc00?, {0x31e48f0?, 0xc000fb9900?}, 0x4?)
/usr/local/go/src/net/http/server.go:2122 +0x2f
k8s.io/apiserver/pkg/server/filters.WithMaxInFlightLimit.func1({0x31e48f0, 0xc000fb9900}, 0xc000d83b00)
/workspace/vendor/k8s.io/apiserver/pkg/server/filters/maxinflight.go:196 +0x268
net/http.HandlerFunc.ServeHTTP(0xc0014470e0?, {0x31e48f0?, 0xc000fb9900?}, 0xd3014a?)
/usr/local/go/src/net/http/server.go:2122 +0x2f
k8s.io/apiserver/pkg/endpoints/filterlatency.trackCompleted.func1({0x31e48f0, 0xc000fb9900}, 0xc000d83b00)
/workspace/vendor/k8s.io/apiserver/pkg/endpoints/filterlatency/filterlatency.go:110 +0x1ca
net/http.HandlerFunc.ServeHTTP(0xc0009e5610?, {0x31e48f0?, 0xc000fb9900?}, 0x20?)
/usr/local/go/src/net/http/server.go:2122 +0x2f
k8s.io/apiserver/pkg/endpoints/filters.WithImpersonation.func1({0x31e48f0, 0xc000fb9900}, 0xc000d83b00)
/workspace/vendor/k8s.io/apiserver/pkg/endpoints/filters/impersonation.go:50 +0x21c
net/http.HandlerFunc.ServeHTTP(0x10?, {0x31e48f0?, 0xc000fb9900?}, 0xc0000925b0?)
/usr/local/go/src/net/http/server.go:2122 +0x2f
k8s.io/apiserver/pkg/endpoints/filterlatency.trackStarted.func1({0x31e48f0, 0xc000fb9900}, 0xc000d83b00)
/workspace/vendor/k8s.io/apiserver/pkg/endpoints/filterlatency/filterlatency.go:84 +0x190
net/http.HandlerFunc.ServeHTTP(0xc0014470e0?, {0x31e48f0?, 0xc000fb9900?}, 0xd3014a?)
/usr/local/go/src/net/http/server.go:2122 +0x2f
k8s.io/apiserver/pkg/endpoints/filterlatency.trackCompleted.func1({0x31e48f0, 0xc000fb9900}, 0xc000d83b00)
/workspace/vendor/k8s.io/apiserver/pkg/endpoints/filterlatency/filterlatency.go:110 +0x1ca
net/http.HandlerFunc.ServeHTTP(0x10?, {0x31e48f0?, 0xc000fb9900?}, 0xc0000925b0?)
/usr/local/go/src/net/http/server.go:2122 +0x2f
k8s.io/apiserver/pkg/endpoints/filterlatency.trackStarted.func1({0x31e48f0, 0xc000fb9900}, 0xc000d83b00)
/workspace/vendor/k8s.io/apiserver/pkg/endpoints/filterlatency/filterlatency.go:84 +0x190
net/http.HandlerFunc.ServeHTTP(0xc0014470e0?, {0x31e48f0?, 0xc000fb9900?}, 0xd3014a?)
/usr/local/go/src/net/http/server.go:2122 +0x2f
k8s.io/apiserver/pkg/endpoints/filterlatency.trackCompleted.func1({0x31e48f0, 0xc000fb9900}, 0xc000d83b00)
/workspace/vendor/k8s.io/apiserver/pkg/endpoints/filterlatency/filterlatency.go:110 +0x1ca
net/http.HandlerFunc.ServeHTTP(0x31e5698?, {0x31e48f0?, 0xc000fb9900?}, 0x31a6ae0?)
/usr/local/go/src/net/http/server.go:2122 +0x2f
k8s.io/apiserver/pkg/endpoints/filters.withAuthentication.func1({0x31e48f0, 0xc000fb9900}, 0xc000d83b00)
/workspace/vendor/k8s.io/apiserver/pkg/endpoints/filters/authentication.go:105 +0x6af
net/http.HandlerFunc.ServeHTTP(0x31e5698?, {0x31e48f0?, 0xc000fb9900?}, 0x31ad788?)
/usr/local/go/src/net/http/server.go:2122 +0x2f
k8s.io/apiserver/pkg/endpoints/filterlatency.trackStarted.func1({0x31e48f0, 0xc000fb9900}, 0xc000d83900)
/workspace/vendor/k8s.io/apiserver/pkg/endpoints/filterlatency/filterlatency.go:94 +0x383
net/http.HandlerFunc.ServeHTTP(0xc0017bff68?, {0x31e48f0?, 0xc000fb9900?}, 0xa17292?)
/usr/local/go/src/net/http/server.go:2122 +0x2f
k8s.io/apiserver/pkg/server/filters.(*timeoutHandler).ServeHTTP.func1()
/workspace/vendor/k8s.io/apiserver/pkg/server/filters/timeout.go:115 +0x70
created by k8s.io/apiserver/pkg/server/filters.(*timeoutHandler).ServeHTTP
/workspace/vendor/k8s.io/apiserver/pkg/server/filters/timeout.go:101 +0x1d8
I0223 03:06:19.453541       1 provider.go:81] keda_metrics_adapter/provider "msg"="KEDA Metrics Server received request for external metrics" "metric name"="s0-prometheus" "metricSelector"="scaledobject.keda.sh/name=ct-logic-uni-ad-listing-consumer" "namespace"="default"
I0223 03:06:19.453576       1 client.go:88] keda_metrics_adapter/provider "msg"="Waiting for establishing a gRPC connection to KEDA Metrics Server"
I0223 03:06:20.231004       1 httplog.go:132] "HTTP" verb="GET" URI="/apis/external.metrics.k8s.io/v1beta1" latency="5.75627ms" userAgent="vpa-recommender/v0.0.0 (linux/amd64) kubernetes/$Format/controller-discovery" audit-ID="f7b62fe1-fa72-41f4-a24c-2b6e1b610f5b" srcIP="10.99.208.4:33920" resp=200
I0223 03:06:20.627660       1 httplog.go:132] "HTTP" verb="GET" URI="/readyz" latency="204.17µs" userAgent="kube-probe/1.26" audit-ID="012204d4-88ad-4871-896f-7a1649bee051" srcIP="10.9.24.159:43912" resp=200
I0223 03:06:22.193053       1 httplog.go:132] "HTTP" verb="GET" URI="/apis/external.metrics.k8s.io/v1beta1" latency="3.1341ms" userAgent="kube-controller-manager/v1.26.10 (linux/amd64) kubernetes/375ed21/system:serviceaccount:kube-system:generic-garbage-collector" audit-ID="dc0d267a-f359-4516-aa00-cf5b4fbca23e" srcIP="10.99.208.4:33920" resp=200
I0223 03:06:22.538830       1 httplog.go:132] "HTTP" verb="GET" URI="/apis/external.metrics.k8s.io/v1beta1?timeout=32s" latency="3.56876ms" userAgent="kubectl/v1.26.14 (linux/amd64) kubernetes/6db7980" audit-ID="008862ea-7a82-466e-82b2-f99bb83424fd" srcIP="10.99.208.4:33920" resp=200
I0223 03:06:23.628708       1 httplog.go:132] "HTTP" verb="GET" URI="/readyz" latency="241.6µs" userAgent="kube-probe/1.26" audit-ID="e0beca68-13d5-40e8-9d5c-836fc3a3775f" srcIP="10.9.24.159:43924" resp=200
I0223 03:06:24.628626       1 httplog.go:132] "HTTP" verb="GET" URI="/healthz" latency="474.909µs" userAgent="kube-probe/1.26" audit-ID="6aa449b1-4ae4-4c83-90d1-fa2465618020" srcIP="10.9.24.159:43940" resp=200
I0223 03:06:26.628472       1 httplog.go:132] "HTTP" verb="GET" URI="/readyz" latency="271.77µs" userAgent="kube-probe/1.26" audit-ID="f5cbb818-a3a2-40fa-8cd3-df5e4111723c" srcIP="10.9.24.159:39162" resp=200
I0223 03:06:28.223595       1 httplog.go:132] "HTTP" verb="GET" URI="/apis/external.metrics.k8s.io/v1beta1" latency="11.814049ms" userAgent="kube-controller-manager/v1.26.10 (linux/amd64) kubernetes/375ed21/controller-discovery" audit-ID="161c59d6-12f5-4692-a21e-dbd2cb1346cd" srcIP="10.99.208.4:33920" resp=200

Events from created HPA:

Name:                                      keda-hpa-ct-logic-uni-ad-listing-consumer
Namespace:                                 default
Labels:                                    app=ct-logic-uni-ad-listing-consumer
                                       app.kubernetes.io/managed-by=Helm
                                       app.kubernetes.io/name=keda-hpa-ct-logic-uni-ad-listing-consumer
                                       app.kubernetes.io/part-of=ct-logic-uni-ad-listing-consumer
                                       app.kubernetes.io/version=2.12.1
                                       release=ct-logic-uni-ad-listing-consumer
                                       scaledobject.keda.sh/name=ct-logic-uni-ad-listing-consumer
                                       system=none
Annotations:                               meta.helm.sh/release-name: ct-logic-uni-ad-listing-consumer
                                       meta.helm.sh/release-namespace: default
CreationTimestamp:                         Thu, 22 Feb 2024 16:28:29 +0700
Reference:                                 Deployment/ct-logic-uni-ad-listing-consumer
Metrics:                                   ( current / target )
"s0-prometheus" (target average value):  <unknown> / 1
Min replicas:                              1
Max replicas:                              9
Deployment pods:                           3 current / 3 desired
Conditions:
Type            Status  Reason                   Message
----            ------  ------                   -------
AbleToScale     True    ReadyForNewScale         recommended size matches current size
ScalingActive   False   FailedGetExternalMetric  the HPA was unable to compute the replica count: unable to get external metric default/s0-prometheus/&LabelSelector{MatchLabels:map[string]string{scaledobject.keda.sh/name: ct-logic-uni-ad-listing-consumer,},MatchExpressions:[]LabelSelectorRequirement{},}: unable to fetch metrics from external metrics API: the server was unable to return a response in the time allotted, but may still be processing the request (get s0-prometheus.external.metrics.k8s.io)
ScalingLimited  False   DesiredWithinRange       the desired count is within the acceptable range
Events:
Type     Reason                   Age                     From                       Message
----     ------                   ----                    ----                       -------
Warning  FailedGetExternalMetric  2m37s (x1033 over 17h)  horizontal-pod-autoscaler  unable to get external metric default/s0-prometheus/&LabelSelector{MatchLabels:map[string]string{scaledobject.keda.sh/name: ct-logic-uni-ad-listing-consumer,},MatchExpressions:[]LabelSelectorRequirement{},}: unable to fetch metrics from external metrics API: the server was unable to return a response in the time allotted, but may still be processing the request (get s0-prometheus.external.metrics.k8s.io)

KEDA Version

2.12.1

Kubernetes Version

1.26

Platform

Google Cloud

Scaler Details

VictoriaMetrics

Anything else?

No response

It seems that KEDA metrics server can't reach the operator pod. Are you using network policies or something so to manage the networking within the cluster?

Hi @JorTurFer KEDA has deployed under helm and GKE, and I have allowed the firewall.

k get apiservices
NAME                                                  SERVICE                                                                         AVAILABLE         AGE
...
v1beta1.external.metrics.k8s.io        keda-system/keda-operator-metrics-apiserver        True                     40d
v1beta1.metrics.k8s.io                       kube-system/metrics-server                                       True                     2y30d
...

And I describe these apiservices

k describe  apiservices v1beta1.external.metrics.k8s.io
Name:         v1beta1.external.metrics.k8s.io
Namespace:
Labels:       app.kubernetes.io/component=operator
              app.kubernetes.io/managed-by=Helm
              app.kubernetes.io/name=v1beta1.external.metrics.k8s.io
              app.kubernetes.io/part-of=keda-operator
              app.kubernetes.io/version=2.12.1
              helm.sh/chart=keda-2.12.1
Annotations:  meta.helm.sh/release-namespace: keda-system
API Version:  apiregistration.k8s.io/v1
Kind:         APIService
Metadata:
  Creation Timestamp:  2024-01-16T10:47:44Z
  Resource Version:    819888502
  UID:                 77d55c9b-3a06-430f-972d-3aeacb7b70dc
Spec:
  Ca Bundle:               LS0tLSxxxxxxxxxxxxxxxxxxx
  Group:                   external.metrics.k8s.io
  Group Priority Minimum:  100
  Service:
    Name:            keda-operator-metrics-apiserver
    Namespace:       keda-system
    Port:            443
  Version:           v1beta1
  Version Priority:  100
Status:
  Conditions:
    Last Transition Time:  2024-02-22T03:12:07Z
    Message:               all checks passed
    Reason:                Passed
    Status:                True
    Type:                  Available
Events:                    <none>

Can you give me a direction to troubleshoot it. I looked up the troubleshooting on the homepage and it didn't really apply to my case.

This issue is because KEDA pods can't communicate between them. Do you have any network policy in the cluster blocking internal traffic? KEDA's metrics server pod can reach KEDA's operator.

If you deploy a random pod in keda-system namespace and execute a curl from there to keda-operator.keda-system.svc.cluster.local:9666, does it work?

Hi @JorTurFer So I tested 2 cases in the helm chart:

Case 1: I using config default like

# -- Kubernetes cluster domain
clusterDomain: cluster.local

and execute to pods in the same namespace keda-system to curl got like


/workspace # nslookup keda-operator.keda-system.svc.cluster.local
Server:     169.254.169.254
Address:    169.254.169.254#53

** server can't find keda-operator.keda-system.svc.cluster.local: NXDOMAIN

/workspace # curl keda-operator.keda-system.svc.cluster.local:9666 curl: (6) Could not resolve host: keda-operator.keda-system.svc.cluster.local

- Case 2: I change `clusterDomain:` to new value

-- Kubernetes cluster domain

clusterDomain: ct.dev

Because. My GKE using CloudDNS of GCP. and `curl` got like

/workspace # curl keda-operator.keda-system.svc.ct.dev:9666 curl: (6) Could not resolve host: keda-operator.keda-system.svc.ct.dev

so I check logs of `keda-operator-metrics-apiserver`

W0226 09:42:36.952229 1 logging.go:59] [core] [Channel #1 SubChannel #2] grpc: addrConn.createTransport failed to connect to {Addr: "keda-operator.keda-system.svc.ct.dev:9666", ServerName: "keda-operator.keda-system.svc.ct.dev:9666", }. Err: connection error: desc = "transport: Error while dialing: dial tcp: lookup keda-operator.keda-system.svc.ct.dev on 169.254.169.254:53: no such host"


Thank you bro

So, is the service not available? what do you see as output from kubectl get svc -o wide -n keda-system?

Hi @JorTurFer J Output

kubectl get svc -o wide -n keda-system
NAME                              TYPE        CLUSTER-IP      EXTERNAL-IP   PORT(S)            AGE   SELECTOR
keda-admission-webhooks           ClusterIP   10.99.193.232   <none>        443/TCP            40d   app=keda-admission-webhooks
keda-operator                     ClusterIP   10.99.194.245   <none>        9666/TCP           40d   app=keda-operator
keda-operator-metrics-apiserver   ClusterIP   10.99.202.86    <none>        443/TCP,8080/TCP   40d   app=keda-operator-metrics-apiserver

I can see the service there, so IDK why the host can't be resolved 🤔 Maybe it's something related with the DNS resolution in GKE? Could you try this curl curl keda-operator.keda-system:9666?

The self generated certificate has these configurations: https://github.com/kedacore/keda/blob/b3f554899d610cc9d7c5f6a8f94b404ce829876d/pkg/certificates/certificate_manager.go#L100-L108

Why do I say it? Because if curl works using just service.namespace, you can override the value to use it thanks to the arg metrics-service-address, you can just set --metrics-service-address=keda-operator.keda-system:9666 in the metrics server and it will use the new host without the cluster DNS

Hi @JorTurFer So I miss config clusterDomain. I update it again like this:

# -- Kubernetes cluster domain
clusterDomain: gke1.ct.dev

Now. I checked again with curl, telnet, and nslookup

nettools:/workspace#
nettools:/workspace#
nettools:/workspace# curl keda-operator.keda-system.svc.gke1.ct.dev:9666
curl: (52) Empty reply from server
nettools:/workspace# nslookup keda-operator.keda-system.svc.gke1.ct.dev
Server:     169.254.169.254
Address:    169.254.169.254#53

Non-authoritative answer:
Name:   keda-operator.keda-system.svc.gke1.ct.dev
Address: 10.99.194.245

nettools:/workspace# telnet keda-operator.keda-system.svc.gke1.ct.dev 9666
Connected to keda-operator.keda-system.svc.gke1.ct.dev

I think DNS works. But I don't know when to curl it became empty Any idea bro?

The gke1 is missing in your previous message https://github.com/kedacore/keda/issues/5527#issuecomment-1963699347 and I bet that it's the root cause xD

Could you try updating KEDA to set the cluster domain as gke1.ct.dev? You could have to delete the secret kedaorg-certs within keda's namespace (and restart KEDA components)

Hi @JorTurFer Nice bro. I deleted the secret kedaorg-certs and restarted deploy to check logs it okay bro

kubectl delete secret kedaorg-certs -n keda-system
secret "kedaorg-certs" deleted

I check logs of keda-operator-metrics-apiserver. It's Okay

I0226 15:26:59.757886 1 provider.go:81] keda_metrics_adapter/provider "msg"="KEDA Metrics Server received request for external metrics" "metric name"="s0-prometheus" "metricSelector"="scaledobject.keda.sh /name=ct-logic-uni-ad-listing-consumer" "namespace"="default"

But. I checked ScaledObject again and I don't see it scale. I checked the HPA again and there were no error logs. But I'm still not sure why it won't scale my deployment. I described ScaledObject:

π ~> kubectl describe  ScaledObject ct-logic-uni-ad-listing-consumer
Name:         ct-logic-uni-ad-listing-consumer
Namespace:    default
Labels:       app=ct-logic-uni-ad-listing-consumer
          app.kubernetes.io/managed-by=Helm
Annotations:  meta.helm.sh/release-name: ct-logic-uni-ad-listing-consumer
          meta.helm.sh/release-namespace: default
API Version:  keda.sh/v1alpha1
Kind:         ScaledObject
Metadata:
Creation Timestamp:  2024-02-26T15:29:23Z
Finalizers:
finalizer.keda.sh
Generation:        1
Resource Version:  827148808
UID:               f80f6f14-3015-4e74-b0e3-69a83db30c61
Spec:
Cooldown Period:    100
Max Replica Count:  9
Min Replica Count:  1
Polling Interval:   100
Scale Target Ref:
API Version:  apps/v1
Kind:         Deployment
Name:         ct-logic-uni-ad-listing-consumer
Triggers:
Metadata:
  Ignore Null Values:  true
  Query:               sum(ad_listing_system_logic_priority_queue_tasks_counter{deployment="ct-logic-uni-ad-listing-metrics"}[2m])
  Server Address:      https://vmselect.domain/select/0/prometheus
  Threshold:           2
Type:                  prometheus
Status:
Conditions:
Message:  ScaledObject is defined correctly and is ready for scaling
Reason:   ScaledObjectReady
Status:   True
Type:     Ready
Message:  Scaling is not performed because triggers are not active
Reason:   ScalerNotActive
Status:   False
Type:     Active
Message:  No fallbacks are active on this scaled object
Reason:   NoFallbackFound
Status:   False
Type:     Fallback
Status:   Unknown
Type:     Paused
External Metric Names:
s0-prometheus
Health:
s0-prometheus:
  Number Of Failures:  0
  Status:              Happy
Hpa Name:                keda-hpa-ct-logic-uni-ad-listing-consumer
Original Replica Count:  1
Scale Target GVKR:
Group:            apps
Kind:             Deployment
Resource:         deployments
Version:          v1
Scale Target Kind:  apps/v1.Deployment
Events:               <none>

I described HPA:

π ~>  kubectl describe hpa keda-hpa-ct-logic-uni-ad-listing-consumer
Name:                                      keda-hpa-ct-logic-uni-ad-listing-consumer
Namespace:                                 default
Labels:                                    app=ct-logic-uni-ad-listing-consumer
                                       app.kubernetes.io/managed-by=Helm
                                       app.kubernetes.io/name=keda-hpa-ct-logic-uni-ad-listing-consumer
Annotations:                               meta.helm.sh/release-name: ct-logic-uni-ad-listing-consumer
                                       meta.helm.sh/release-namespace: default
CreationTimestamp:                         Mon, 26 Feb 2024 22:29:53 +0700
Reference:                                 Deployment/ct-logic-uni-ad-listing-consumer
Metrics:                                   ( current / target )
"s0-prometheus" (target average value):  0 / 2
Min replicas:                              1
Max replicas:                              9
Deployment pods:                           1 current / 1 desired
Conditions:
Type            Status  Reason            Message
----            ------  ------            -------
AbleToScale     True    ReadyForNewScale  recommended size matches current size
ScalingActive   True    ValidMetricFound  the HPA was able to successfully calculate a replica count from external metric s0-prometheus(&LabelSelector{MatchLabels:map[string]string{scaledobject.keda.sh/name: ct-logic-uni-ad-listing-consumer,},MatchExpressions:[]LabelSelectorRequirement{},})
ScalingLimited  True    TooFewReplicas    the desired replica count is less than the minimum replica count
Events:           <none>

My metric:

I'm not sure if there is any missing config. ?

If we don't have the communication issues we are moving forward indeed! 😄 Could you try copycatting the exact query into your prometheus? sum(ad_listing_system_logic_priority_queue_tasks_counter{deployment="ct-logic-uni-ad-listing-metrics"}[2m])

The picture doesn't show the same query as it has no filters. The problem because I ask this is because I ignoreNullValues: true can hide querying errors converting null values into 0, which can fit in your case (you can just try removing the property temporally and if I'm right, you will see errors in KEDA opertor)

Hi @JorTurFer I checked again. so the query is incorrect bro

sum(ad_listing_system_logic_priority_queue_tasks_counter{deployment="ct-logic-uni-ad-listing-metrics"}[2m])

and I update new the query like

sum(ad_listing_system_logic_priority_queue_tasks_counter{app="ct-logic-uni-ad-listing-metrics"}[1m])

and I checked again and it worked as expected. Events:

Conditions:
  Type            Status  Reason               Message
  ----            ------  ------               -------
  AbleToScale     True    ScaleDownStabilized  recent recommendations were higher than current one, applying the highest recent recommendation
  ScalingActive   True    ValidMetricFound     the HPA was able to successfully calculate a replica count from external metric s0-prometheus(&LabelSelector{MatchLabels:map[string]string{scaledobject.keda.sh/name: ct-logic-uni-ad-listing-consumer,},MatchExpressions:[]LabelSelectorRequirement{},})
  ScalingLimited  True    TooManyReplicas      the desired replica count is more than the maximum replica count
Events:
  Type    Reason             Age                  From                       Message
  ----    ------             ----                 ----                       -------
  Normal  SuccessfulRescale  16m                  horizontal-pod-autoscaler  New size: 2; reason: external metric s0-prometheus(&LabelSelector{MatchLabels:map[string]string{scaledobject.keda.sh/name: ct-logic-uni-ad-listing-consumer,},MatchExpressions:[]LabelSelectorRequirement{},}) above target
  Normal  SuccessfulRescale  7m53s                horizontal-pod-autoscaler  New size: 12; reason: external metric s0-prometheus(&LabelSelector{MatchLabels:map[string]string{scaledobject.keda.sh/name: ct-logic-uni-ad-listing-consumer,},MatchExpressions:[]LabelSelectorRequirement{},}) below target
  Normal  SuccessfulRescale  6m20s                horizontal-pod-autoscaler  New size: 8; reason: external metric s0-prometheus(&LabelSelector{MatchLabels:map[string]string{scaledobject.keda.sh/name: ct-logic-uni-ad-listing-consumer,},MatchExpressions:[]LabelSelectorRequirement{},}) below target
  Normal  SuccessfulRescale  6m6s                 horizontal-pod-autoscaler  New size: 2; reason: external metric s0-prometheus(&LabelSelector{MatchLabels:map[string]string{scaledobject.keda.sh/name: ct-logic-uni-ad-listing-consumer,},MatchExpressions:[]LabelSelectorRequirement{},}) below target
  Normal  SuccessfulRescale  3m41s (x2 over 15m)  horizontal-pod-autoscaler  New size: 4; reason: external metric s0-prometheus(&LabelSelector{MatchLabels:map[string]string{scaledobject.keda.sh/name: ct-logic-uni-ad-listing-consumer,},MatchExpressions:[]LabelSelectorRequirement{},}) above target
  Normal  SuccessfulRescale  3m25s (x2 over 15m)  horizontal-pod-autoscaler  New size: 8; reason: external metric s0-prometheus(&LabelSelector{MatchLabels:map[string]string{scaledobject.keda.sh/name: ct-logic-uni-ad-listing-consumer,},MatchExpressions:[]LabelSelectorRequirement{},}) above target
  Normal  SuccessfulRescale  3m9s (x2 over 15m)   horizontal-pod-autoscaler  New size: 16; reason: external metric s0-prometheus(&LabelSelector{MatchLabels:map[string]string{scaledobject.keda.sh/name: ct-logic-uni-ad-listing-consumer,},MatchExpressions:[]LabelSelectorRequirement{},}) above target
  Normal  SuccessfulRescale  2m53s (x2 over 15m)  horizontal-pod-autoscaler  New size: 20; reason: external metric s0-prometheus(&LabelSelector{MatchLabels:map[string]string{scaledobject.keda.sh/name: ct-logic-uni-ad-listing-consumer,},MatchExpressions:[]LabelSelectorRequirement{},}) above target

nice! I close the issue as it looks solved, let me know if there is any other issue and I'll open it again

kedacore / keda

Unable to get external metric on GKE #5527