cpnr / computing

0 stars 0 forks source link

서버 성능저하, lapras 다운 #13

Closed jhgoh closed 8 months ago

jhgoh commented 8 months ago

현재 서버 성능이 저하되는 문제가 있음.

slurm job 수가 너무 많아서인지 의심됨.

jhgoh commented 8 months ago

일시적으로 전원부족이 일어났던 것으로 추정.

분석 UPS쪽으로 인가되는 전원량이 높았던 것으로 보임. 이 결과 UPS가 배터리모드로 동작중이었음. redundant power가 장착된 각 서버들은 일반전원으로 동작하고 있었고, UPS에 연결된 허브가 간헐적으로 동작하고 있었던 것으로 보임.

해결

추가증상과 해결 coredns 서비스의 CPU사용량이 과도하게 높게 나타나면서 웹 서비스가 중지됨

각 노드들을 모두 microk8s 노드에서 제거.

https://raynix.info/archives/4090 에서 참고하여, coredns를 재시작. indico도 정상 동작하고 있지 않아 재시작.

kubectl rollout restart deploy -n kube-system coredns
kubectl rollout restart deploy -n indico indico-nginx
jhgoh commented 8 months ago

다시 비슷한 상황이 발생한 것으로 보임. 서버실 방문 필요 (2월 8일 23시 59분)

jhgoh commented 8 months ago

서버실에서 시간을 들려 확인 결과, UPS쪽으로의 고용량 전원 공급 연결부에 문제가 있는 것 같음.

  1. 전원 연결부분에서 열이 날 때가 있음. 높은 확률로 흔히 접촉불량시에 나는 노이즈가 발생. (지지직 소리)
  2. 이 상황에서 높은 확률로 UPS가 배터리 모드로 전환됨. 자주 있는 현상일 수 있음
  3. 가만히 있으면 본래 상태로 되돌아 올 수도 있는 것 같음.
  4. 배터리 모드에서 계산노드 작업이 돌면 UPS전력을 소모하면서 전원 차단됨
  5. 서버들은 UPS가 아닌 일반 전원도 redundant power연결이 되어 있기 때문에 꺼지지 않고 정상 동작
  6. 그러나 network hub들은 모두 redundant power없이 UPS에만 연결되어 있어 네트워크가 멈춤
  7. job이 멈추면서 전원사용량이 줄어들게 됨
  8. UPS에서 다시 전원공급이 되면서 네트워크 살아남 -> job 다시 돌면서 전력 모자람 -> 전원차단 -> 네트웍 멈춤 무한반복

이런 상황으로 보임.

임시 조치:

설 연휴 이후 action item:

jhgoh commented 8 months ago

새로운 이슈를 열어서 전원 문제에 집중. #16