Closed jhgoh closed 8 months ago
일시적으로 전원부족이 일어났던 것으로 추정.
분석 UPS쪽으로 인가되는 전원량이 높았던 것으로 보임. 이 결과 UPS가 배터리모드로 동작중이었음. redundant power가 장착된 각 서버들은 일반전원으로 동작하고 있었고, UPS에 연결된 허브가 간헐적으로 동작하고 있었던 것으로 보임.
해결
추가증상과 해결 coredns 서비스의 CPU사용량이 과도하게 높게 나타나면서 웹 서비스가 중지됨
각 노드들을 모두 microk8s 노드에서 제거.
https://raynix.info/archives/4090 에서 참고하여, coredns를 재시작. indico도 정상 동작하고 있지 않아 재시작.
kubectl rollout restart deploy -n kube-system coredns
kubectl rollout restart deploy -n indico indico-nginx
다시 비슷한 상황이 발생한 것으로 보임. 서버실 방문 필요 (2월 8일 23시 59분)
서버실에서 시간을 들려 확인 결과, UPS쪽으로의 고용량 전원 공급 연결부에 문제가 있는 것 같음.
이런 상황으로 보임.
임시 조치:
설 연휴 이후 action item:
새로운 이슈를 열어서 전원 문제에 집중. #16
현재 서버 성능이 저하되는 문제가 있음.
slurm job 수가 너무 많아서인지 의심됨.