issues
search
eubnara
/
study
6
stars
2
forks
source link
Disk and Datanode Size in HDFS
#248
Open
eubnara
opened
2 years ago
eubnara
commented
2 years ago
https://blog.cloudera.com/disk-and-datanode-size-in-hdfs/
꼭 HDFS 에 국한되는 것이 아니라 분산파일시스템에서 공통적으로 적용될 만한 사항.
많은 디스크를 사용하면 I/O bandwidth 가 높아지고 효율적으로 데이터를 읽게 되지만 Network bandwidth 가 병목이 될 수 있다. 무조건 크다고 좋은 건 아니다. block reporting 도 오래걸릴 수 있다.
8TB 디스크 12장이 16TB 6장으로 구성할 때보다 Read/Write Throughput, IOPS 가 높다. (무조건 좋다는 뜻은 아님)
8개의 디스크, 총 100TB 용량을 추천(1 디스크당 대략 8 ~ 12TB)
dense storage node 를 쓰면, (많은 디스크와 큰 디스크를 쓴다면) Failure recovery 시간이 오래걸린다.
한 볼륨당 크기가 커지면(큰 디스크를 쓰면) bit-rot(디스크 열화) 를 찾는데 시간이 오래걸린다.
장비 장애가 생길 때, 그 장비에 있던 데이터들을 다른 곳에 복사해야 하므로 커질수록 시간이 오래 걸린다.
https://blog.cloudera.com/disk-and-datanode-size-in-hdfs/