su3inni / cs-study

0 stars 0 forks source link

Cloud Hadoop #7

Open su3inni opened 11 months ago

su3inni commented 11 months ago

1. Cloud Hadoop

NaverCloud에서 제공하는 Cloud Hadoop은 managed / PaaS 이다.

클라우드 생성을 완전 관리해주며 서비스 관리는 사용자가 직접해야한다.

이를 self-managed 라고 부르기도 한다.

1-1. Cloud Hadoop 접속 방법

  1. 터미널 SSH를 통한 edge node 접속

    • edge node 에서 master node / worker node 접속할 수 있음
      • SSH 터널링을 통해 master node에 접속할 수 있음
    • 같은 네트워크 ( 네이터 클라우드 망 )인 경우 별도의 설정 없이 접속 가능
    • 다른 네트워크 ( 외부 )인 경우 별도의 설정 필요 가이드 참고
      1. SSL VPN 생성 : Client to Network 사용자가 네트워크에 접속하기 위해 사용되는 VPN
      2. SSL VPN 설정에서 사용자 등록
      3. Subnet Route Table 에 SSL VPN 설정
      4. ACG 에 접속하고자 하는 고정 IP / port 등록 설정
  2. Web UI 를 통한 edge node 접속

1-2. Cloud Hadoop Node 종류

1-3. Cloud Hadoop Node 구성

각 Node 내에 Client , Master , Slave 타입의 component가 존재한다.

su3inni commented 10 months ago

2. Cloud hadoop Storage

Cloud Hadoop 을 사용하여 HDFS , Block Storage, Object Storage, NAS 를 활용할 수 있다.

2-1. HDFS

13380308-76a5-4eac-95ab-f5ca78be7206

사용자는 데이터의 위치 정보만 Name Node를 통해 가져오고 이후 데이터에 접근은 직접 Data Node로 한다.

Block Storage에 HDFS (Hadoop Distributed File System)을 구성한다

Storage 가 기본이고 그 위에 File System 을 구축한다. 이때 Cloud Hadoop 은 Block Storage 를 기본으로하고 그 위에 HDFS 를 설치하는 것이다.

File 은 Block 의 상위 개념이며 File은 폴더에 저장되고 위치에 따른 i-node 메타 데이터가 존재한다.

YARN & HDFS 6cd764d2-2330-44c8-951e-f60dc3c46dcf

여기서 YARN resource manager 와 HDFS Name node 는 프로세스이다.

Apache HBase

2-2. Object Storage

데이터를 객체로 저장하는 것과 파일로 저장하는 것의 접근 방식 차이

Q. HBase 도 비정형 데이터에 적합한 스토리지 , Object Storage 도 비정형 데이터에 적합한 스토리지인데 두 스토리지를 사용함에 따른 차이점은 무엇인가

2-3. NAS : Network Attached Storage

752c2f0b-ddb1-4a80-b6fe-9430c35f8eaa

resource