morebo2ks / hadoop

5 stars 0 forks source link

1주차 hadoop 스터디 #2

Closed KilJaeeun closed 2 years ago

KilJaeeun commented 2 years ago

파트

JSYoo5B commented 2 years ago

유재상 스터디 내역

진행 상황

전반적으로 설치에 오랜 시간이 걸림 (VirtualBox)

  1. 강의 자료에서 HDP 3.0의 경우 리소스가 많이 필요하다고 해서 시도해봄
    8 thread, 40 GB 환경에서 모든 모듈 설치는 성공했으나, 강의의 튜토리얼 화면 진입 방법을 모르겠음
    설치 과정이나 이후 부팅에서 커널 패닉이 몇번 일어남. 이 정도 리소스로는 부족한듯
  2. 결국 강의자료를 따라 HDP 2.6.5 기준으로 설치 진행 중 여전히 생각보다 오래 걸림 (동일하게 8 thread, 40 GB 환경으로 설치) 설치는 성공했으나 Web console에 화면이 나타나지 않음.
  3. Docker 기반 환경으로 변경 (Host: Windows)
    크게 HDP 기능을 수행하는 hortonworks/sandbox-hdp 이미지와, Web console을 연결하는 hortonworks/sandbox-proxy 두 개의 컨테이너가 수행됨
    sandbox-proxy가 포트 매핑 과정에서 계속 오류가 생겨서, 트러블 슈팅 도중 포기
  4. Docker 기반 환경으로 변경 (Host: Linux)
    이전 Windows와 달리 포트 매핑 과정에서는 오류가 발생하지 않음.
    하지만 sandbox-proxy가 실행 시 바로 종료됨.
    DBus 오류 발생은 proxy측에 --privileged 옵션을 추가하면 해결됨. 로그를 찍어보니 nginx 기반 proxy가 동작하는데, sandbox-hdp의 주소를 잡지 못함.
  5. 2.5.0 기반 버전으로 다시 변경 (Virtualbox)
    실행에 지장 없음

설치 과정 주요 특징

설치 로그를 보면(처음 부팅시 생성되는 로그) docker 등 컨테이너 기반 이미지를 다운받아 동작시키는 듯

3.0 기준으로, HDP 웹 콘솔에서 일부 서비스들이 다 정상적으로 올라오는 것이 아닌 것 같음. 개별적으로 서비스들을 직접 실행시켜줘야 하고, Knox 서비스의 경우 시작 실패함 (이 부분은 강의 스크린샷에서도 모든 서비스가 올라와있지 않은 상태가 일반적인듯)

특이사항: 왜 VirtualBox 내 guest에서 커널 에러가 이렇게 자주 발생하는 지 모르겠음. (Host OS/CPU/VirtualBox가 불안한가?)

전반적인 버전 별 특징

질문사항

  1. Hadoop을 비롯한 Big-data processing이 OLAP/Data warehouse와 다른 점은 무엇인가?
  2. 예전에 Hadoop 처음 나올때만 써봐서 직접 설치만 해봐서 모르는데, 보통 각 구성 요소들 설치를 어떤 식으로 구성하는가? => Ambari 등으로 실제 배포하기도 한다고 함

추가 자료

wookiist commented 2 years ago

오재욱 스터디 내역

내용 정리

hyunju-song commented 2 years ago

송현주 스터디 내역

내용정리

udemy hadoop 섹션1 강의 정리 -> 저는 이전에 hadoop udemy section1 까지는 들었어서 과거에 정리한 글을 조금 수정해서 공유드립니다.

논의하고 싶은 사항

클라우드 기반으로 hadoop을 사용하시는 분 계신가요? emr말고 다른 방법으로 클라우드를 활용해서 구현할 수 있는 방법이 있을까요? 가령 spark의 경우에는 emr을 쓰지 않고, eks위에 작업해서 사용하거나, emr을 eks위에서 올리는 등의 방법이 있는데, 이런 경우 말고 다른 경우도 혹시 실제 사용경험이나 들어본 사례가 있는지 궁금합니다!

jasonkang14 commented 2 years ago

강병진 스터디 내역

  1. 설치는 직접 진행해보지 않음. 단톡에서 설치에 어렵다고 하신 점을 보아 linux환경에서 설정하는게 도커 사용 등에 더 유리할 것 같다. 강의에서는 AWS와 GCP만 제시했지만 네이버 클라우드에서 주말간에 세팅 해볼 예정
  2. 하둡이란?
    • 빅데이터 분산처리에 능함.
    • 데이터 처리를 심지어 병렬적으로 하기 때문에 속도가 매우 빠름.
    • 예전에는 CPU 큰 거 쓰면 장땡이었는데 요즘은 그걸로 핸들링 하기에는 데이터 규모가 워낙 커서 문제가 있음
    • 이러한 이유로 인해 회사에도 도입하면 참 좋겠다는 생각을 했음. 스터디 끝나고 이해도가 조금 생기면 회사에 도입을 의뢰해야 할 것 같다는 생각
    • 심지어 데이터 복구도 잘 해준다는데 사용하지 않을 이유가 없을 것 같다.
  3. 생태계에 관한 논의
    • 사실 직접적으로 어떤 뜻인지 느낌이 오진 않음. 코드를 쳐보기 시작해야 각자의 역할을 조금 더 이해할 수 있을 것 같다.
    • 분산 시스템이다보니 데이터 분산 저장소가 있는 건 당연한데, 분산된 데이터들을 모아서 하나의 데이터베이스에서 접근할 수 있도록 해주는 Hive가 인상적이다.
    • 개인적으로 데이터 처리할 때 dependency가 중요하다고 생각하는 편인데 (예를 들면 A 과정이 끝나고 B로 넘어가야 하는데, A를 끝내지 않고 B로 넘어가면 에러가 발생하기 때문에), 그래서 파이썬이 주 언어다보니 luigi를 많이 사용했었다. 강의를 들어보니 hadoop에서는 oozie가 그런 역할을 해주는 것 같다. 둘 중에 뭐가 나을지는 고민을 좀 해봐야 할 것 같다.
    • 스파크에 대한 설명도 인상적인데, scala 언어를 추천하는 걸로 봐서는 그 언어의 장점이 있는 것 같다. 스터디를 통해서 코드를 계속 구현해야 한다면 새로운 언어를 접해보는 것도 좋을 것 같다.
KilJaeeun commented 2 years ago

https://www.notion.so/1-Hortoworks-Data-PlatForm-SandBox-ec7844a089e54de29efd79854161269e

wookiist commented 2 years ago

OLTP

OLAP