Cloud Hadoop - Githubissues

1. Cloud Hadoop

NaverCloud에서 제공하는 Cloud Hadoop은 managed / PaaS 이다.

클라우드 생성을 완전 관리해주며 서비스 관리는 사용자가 직접해야한다.

이를 self-managed 라고 부르기도 한다.

터미널 SSH를 통한 edge node 접속
- edge node 에서 master node / worker node 접속할 수 있음
  - SSH 터널링을 통해 master node에 접속할 수 있음
- 같은 네트워크 ( 네이터 클라우드 망 )인 경우 별도의 설정 없이 접속 가능
- 다른 네트워크 ( 외부 )인 경우 별도의 설정 필요 가이드 참고
  1. SSL VPN 생성 : Client to Network 사용자가 네트워크에 접속하기 위해 사용되는 VPN
  2. SSL VPN 설정에서 사용자 등록
  3. Subnet Route Table 에 SSL VPN 설정
  4. ACG 에 접속하고자 하는 고정 IP / port 등록 설정
Web UI 를 통한 edge node 접속
- Web UI 내에서 터널링으로 Application 접속
  - 터널링을 하는 이유에 대해 파악해보기 > 캡슐화로 인한 안전한 연결과 방화벽 우회를 위한 것 https://www.cloudflare.com/ko-kr/learning/network-layer/what-is-tunneling/

egde node : 외부 접속 gateway 역할
- public / private subnet
master node : worker 노드 관리 역할
- public / private subnet
- 고가용성을 위한 master node 2개
  
  관리 = coordinator + monitoring monitoring = health check
worker node : 실제 작업하는 노드 ( =computing node )
- private subnet

각 Node 내에 Client , Master , Slave 타입의 component가 존재한다.

Client , Master, Slave 구조

Cloud Hadoop Node 에 따른 Application 정보는 Ambari > Hosts > x-node 를 클릭하면 확인할 수 있다.
Edge node , master node, data node에 설치되어있는 client type component 구성은 동일하다.
Master node에는 master type의 component가 많이 설치 되어있는 것을 확인할 수 있으며 Edge Node에 존재하는 master component와 다른 종류가 있음을 확인할 수 있다.
Master node 는 고가용성을 위해 2개 존재하고 worker node 는 상황에 맞춰 증가 가능하다.

Cloud Hadoop 을 사용하여 HDFS , Block Storage, Object Storage, NAS 를 활용할 수 있다.

13380308-76a5-4eac-95ab-f5ca78be7206

파일을 블록 단위로 저장하는 파일 시스템이다.
데이터를 분산해서 저장하기 때문에 대용량의 데이터도 다룰 수 있다.
별도의 장비가 필요한 것이 아닌 일반적인 장비에서 사용 가능하기 때문에 범용적인 파일시스템이다.
HDFS는 기본적으로 master-slave 구조를 따르고 있으며 Name node와 Data node가 있다.
- Name Node 는 파일의 각 블록들이 어느 Data Node 에 위치하는지에 대한 메타 정보를 가지고 있다.
  - 메타 정보는 Name Node의 메모리에 존재한다.
  - 데이터를 블록단위로 나누어 Data Node에 할당한다.
- Data Node 는 실제 데이터 블록이 존재하는 노드이다.

사용자는 데이터의 위치 정보만 Name Node를 통해 가져오고 이후 데이터에 접근은 직접 Data Node로 한다.

Cloud Hadoop 과 HDFS 를 사용하는 경우
- 데이터가 증가하면 Data Node 를 증가하여 확장성있게 사용할 수 있다.
- 요청을 빠른 시간 내에 처리하는 것 보다 동일한 시간 내에 더 많은 요청을 처리할 수 있는 것에 초점을 둔다.
- 데이터 노드에 데이터를 복사하여 replication 안정성을 가질 수 있다.

Block Storage에 HDFS (Hadoop Distributed File System)을 구성한다

Storage 가 기본이고 그 위에 File System 을 구축한다. 이때 Cloud Hadoop 은 Block Storage 를 기본으로하고 그 위에 HDFS 를 설치하는 것이다.

File 은 Block 의 상위 개념이며 File은 폴더에 저장되고 위치에 따른 i-node 메타 데이터가 존재한다.

YARN & HDFS 6cd764d2-2330-44c8-951e-f60dc3c46dcf

여기서 YARN resource manager 와 HDFS Name node 는 프로세스이다.

Apache HBase

데이터를 객체로 저장하는 것과 파일로 저장하는 것의 접근 방식 차이

데이터를 객체로 저장한다는 것은 데이터 + 메타 데이터 = 객체 의 의미이며
파일로 저장한다는 것은 데이터를 블럭 형식의 파일로 폴더 내에 저장한다는 의미이다. 이때 i-node 메타 데이터를 사용하게 되며 사용자가 직접 위치를 지정할 수 있다는 것이 차이이다.
파일은 블럭 형식의 데이터를 폴더 내에 계층화된 구조로 저장한 것을 의미한다.

Q. HBase 도 비정형 데이터에 적합한 스토리지 , Object Storage 도 비정형 데이터에 적합한 스토리지인데 두 스토리지를 사용함에 따른 차이점은 무엇인가

Block Storage + HDFS + HBase 는 비정형 데이터를 블럭으로 저장하고, Object Storage 는 비정형 데이터를 객체로 저장한다는 차이점을 갖는다.
Object Storage 의 경우 트랜잭션에 적합하지 않다. 한 번 업로드 후 여러번 읽히는 작업에 적합하다. HBase 의 경우 트랜잭션 작업에도 대응할 수 있다.

752c2f0b-ddb1-4a80-b6fe-9430c35f8eaa