Open jhgoh opened 12 months ago
테스트로 설정 완료.
hep 서버에 influxdb 설정
각 노드에 telegraf 설치 (https://docs.influxdata.com/telegraf/v1/install/?t=RedHat+%26amp%3B+CentOS)
dnf -y install telegraf
/etc/telegraf/telegraf.conf
파일 수정 (url, token 등등은 별표 표시로 가림)
[global_tags]
[agent]
interval = "10s"
round_interval = true
metric_batch_size = 1000
metric_buffer_limit = 10000
collection_jitter = "0s"
flush_interval = "10s"
flush_jitter = "0s"
precision = ""
hostname = ""
omit_hostname = false
[[outputs.influxdb_v2]]
urls = ["***************"]
token = "****************"
organization = "*******"
bucket = "*******"
[[inputs.cpu]]
percpu = false
totalcpu = true
collect_cpu_time = false
report_active = false
[[inputs.kernel]]
[[inputs.system]]
[[inputs.nvidia_smi]]
service telegraf restart
grafana에서 datasource 설정 뒤 대시보드에 각종 아이템 추가함.
노드의 이미지에 telegraf 설치하고 이미지 리빌드.
cp /etc/yum.repos.d/influxdb.repo ./etc/yum.repos.d/
dnf -y install telegraf --installroot=/opt/ohpc/admin/images/rocky8/
\cp /etc/telegraf/telegraf.conf ./etc/telegraf/telegraf.conf
wwvnfs rocky8
작업 완료.
gpu01 리붓 후 확인 결과 telegraf가 제대로 설치된 상태가 아닌 것으로 보임.
Telegraf 와 influxdb를 이용하여 노드 상태를 모니터링 하기.