SocialGouv / support

Support de l'activité des startups SocialGouv
http://socialgouv.github.io/support
7 stars 5 forks source link

CNPG: Alertes Mattermost #391

Open igorrenquin opened 1 year ago

igorrenquin commented 1 year ago

Se renseigner pour voir comment être alerté en cas de perte de replicas

octomir commented 1 year ago

@revolunet est-il possible de recetter le ticket et le fermer merci

octomir commented 1 year ago

des alertes sont effectifs sur le canal mattermost un test sur la suppression d'un replica doit être fait

revolunet commented 1 year ago
revolunet commented 1 year ago

maybe related : https://github.com/cloudnative-pg/cloudnative-pg/issues/1814

achauve commented 1 year ago

yes je suis tombé dessus en cherchant aussi, mais pas de solution claire ? effectivement passer la métrique sur le primary alors qu'on regarde le lag sur les replica ça paraît louche ?

revolunet commented 1 year ago

Règles par défaut : https://github.com/cloudnative-pg/charts/blob/8fe6dee4e7966ca474d33f0769d2207a38befb96/charts/cloudnative-pg/values.yaml

Settings sur les clusters : https://gitlab.fabrique.social.gouv.fr/infra/apps-infra/-/blob/main/prometheus-operator/common.values.yaml#L136

LucasBassoOcto commented 1 year ago

Session de pair afin de parametrer le monitoring cnpg (délai entre le réplica et le primaire) dans la chart helm de l'operateur

igorrenquin commented 1 year ago

TO DO :

SRE

OPS

revolunet commented 1 year ago

Erreurs PGReplication

Comportement normal sur les alertes vérifiées : les données sont MAJ toutes les heures seulement sur ces DBs

https://gitlab.fabrique.social.gouv.fr/infra/apps-infra/-/merge_requests/644/diffs

igorrenquin commented 1 year ago

Ajout d'un filtre sur la PR de julien. Cause de l'erreur : la requête de la métrique s'applique sur tous le cluster CNPG plutôt que sur le noeud master. En attente d'une PR du côté CNPG (nouvelle realease)