morebo2ks / hadoop

5 stars 0 forks source link

16주차 하둡 스터디(인강 마지막 날) #17

Closed KilJaeeun closed 2 years ago

KilJaeeun commented 2 years ago

파트

발표 기간

해야할일

  1. 책거리 회식 장소, 날짜 시간 정하기
  2. 새로 멤버 초대 (깃허브, 일정표, 책 공유)

참고 링크

hyunju-song commented 2 years ago

https://hazel-developer.tistory.com/299

jasonkang14 commented 2 years ago

인강마지막~~ 고생하셔슴다 https://www.notion.so/byeongjinkang/2b72387675df461a855964bc7628051f

wookiist commented 2 years ago

마지막! 다들 고생 많으셨어요.

JSYoo5B commented 2 years ago

유재상 스터디 로그

강의때 안 다룬 기술 간단 요약 강의때 다뤘던 기술들 간략하게 복습 이 기술들을 바탕으로 문제정의에서 문제 구체화, 기술 선택 등의 과정을 예시로 보임

Impala

Cloudera의 Hive 대체제 Hadoop의 대량 병렬 SQL engine 언제나 실행중(대기)이므로 Hive query 시작할때와 달리 초반 비용이 들지 않음 BI 스타일, 신속한 데이터 결과

Accumulo

HBase와 같이 BigTable 이론의 구현체 그런데 Cell 단위의 보안 모델을 제공 서버측 프로그래밍 (streaming할때 processing 하듯 데이터 추가 시 가공이 가능하단 소리?)

Redis

분산 인메모리 데이터 저장공간 memcached의 대체재 DB에 자주 접근해서 트랜잭션 몰리는 문제를 해결하는 방법 중 하나 인메모리가 기본 동작이지만, 디스크에 데이터 저장도 가능 보통 캐시로 이야기하지만, 캐시 수준 이상을 제공하긴 함 (여기서 얘기하는거 맞긴 한데 형이 왜 여기서 나와)

Ignite

인메모리 데이터 패브릭 (패브릭이 뭐지) Redis의 대채재라 생각하면 됨 근데 DB의 기능에 가까움 + in-memory (sqlite, dqlite야...)

ElasticSearch

ELK 조합으로 검증된 그것 분산 문서 검색 및 분석 엔진 거의 실시간같이 처리 가능 매우 인기있음

Kinesis + AWS 생태계

AWS 버전 Kafka (아니라고 한다! 데이터 저장 공간으로 쓰긴 애매함) AWS 생태계의 주요 기능과 함께함 EMR (Elastic MapReduce)가 Hadoop cluster를 on-demand로 굴리기 좋음

Apache NiFi

데이터 라우팅에 대한 방향 그래프(?) 데이터를 수집/전달 하는데 사용하는 도구?

Falcon

데이터 거버넌스 엔진 Oozie 위에서 동작

Apache slider

YARN 클러스터 위에 앱을 배포하는 도구 앱을 scalable하게 동작시켜주기 위한 도구

KilJaeeun commented 2 years ago

https://www.notion.so/11-7096b109b2174a3fb7e32c76ff376367