dadosfera / Bugsfera

Other
1 stars 0 forks source link

[Ticket UnimedVR] Erro no sync de uma pipeline #106

Closed beatrizaantunes closed 1 year ago

beatrizaantunes commented 1 year ago

image O ID é: 08d5b17b-6bfb-4f34-9058-c6b22cd8c663

beatrizaantunes commented 1 year ago

@rafaelsantanaep pode dar uma olhada nisso aqui por favor? image https://airflow.dadosfera.ai/dags/unimedvrcombr_08d5b17b_6bfb_4f34_9058_c6b22cd8c663/graph (não consegui olhar no data app de suporte pq ele tá fora do ar)

rafaelsantanaep commented 1 year ago

Máquina do nimbus da unimed estourou memória, provavelmente, de forma abruta visto que isso não foi capturado pelos alertas de infraestrutura. To reiniciando a máquina aqui.

rafaelsantanaep commented 1 year ago

Temos que ter um alerta para quando o endpoint de coleta de métricas do node_exporter não está acessível, dessa forma, conseguiríamos detectar esses casos em que a máquina vai de 0 a 100 muito rápido. Implementei isso na afya da seguinte forma:

    - alert: Endpoint_Down
      expr: up == 0
      for: 5m
      labels:
        severity: critical
      annotations:
        summary: "Exporter is down: {{ $labels.instance }}"
        description: "The endpoint {{ $labels.instance }} is not able to be scraped by Prometheus."

Acho que vale priorizarmos isso como um débito técnico para ser atacado no monitoramento das instâncias.

rafaelsantanaep commented 1 year ago

@beatrizaantunes máquina religada e serviço do nimbus está em pé. Acredito que o problema não ocorrerá novamente.

beatrizaantunes commented 1 year ago

Obrigada Santana! Vou validar com o cliente

allansene commented 1 year ago

Recebemos o retorno no ticket de que está ok, mas precisamos de um card para avaliar o pq da falha do monitoramento e acerta-lo

beatrizaantunes commented 1 year ago

Cliente falou que deu certo