morebo2ks / hadoop

5 stars 0 forks source link

5주차 hadoop 스터디 #7

Closed KilJaeeun closed 2 years ago

KilJaeeun commented 2 years ago

파트

hyunju-song commented 2 years ago

송현주 스터디 자료


질문 사항 정리

wookiist commented 2 years ago

오재욱 스터디 자료

KilJaeeun commented 2 years ago

https://www.notion.so/4-Spark-6875271f2d2b4752abb35a099e827364

JSYoo5B commented 2 years ago

유재상 스터디 로그

Spark

Pig의 목적과 비슷하게, MapReduce보다 좀 더 쉽게 데이터 분석 개발을 하고자 함.

구성 요소

속도가 빠른 이유

기존 MapReduce 등은 연산 결과를 hdfs(disk)에 임시 저장하는데, 대부분의 이것을 메모리에 임시 저장하여 IO 속도 문제를 해결하는 듯

+DAG를 활용한다는데, 이건 Pig에서도 얘기한거랑 비슷한 이유라서 Spark만의 특징이라고 하긴 애매할듯

개발 방식

Python, Java, Scala 지원 / RDD (Resilient Distributed Dataset) 개념 위에서 개발

RDD (Spark 1.0)

직접 입력, 파일, Hive, 외에도 DB나 다른 서비스를 통해서도 데이터셋을 생성 가능함.

MapReduce의 개념에서 사용하던 함수형 연산을 제공 (map, filter, distinct, sample, collect, count, reduce...)

Lazy evaluation으로 동작함. (이건 함수형 프로그래밍, Scala 구현의 특성인듯)

DataSets (Spark 2.0)

RDD에서 "DataFrame" 객체로 확장

강의 두번 보긴 했는데 뭐가 어떻게 다르다는건지 잘 이해가 안됨.

실습

기존 Pig나 MR 등에서는 간단하게, 일관되게 평균 등을 구했는데, 이젠 평가 개수 등을 반영하여 조금 더 의미있는 데이터를 분석하게 됨. (그냥 앞의 예제에서는 더 해도 되는걸 안한게 아닐까...)

jasonkang14 commented 2 years ago

내려가는 기차에서 마무리합니다! 내일 뵙겠습니다~

링크 잘못돼서 수정합니다~ https://www.notion.so/byeongjinkang/SPARK-6dd494c14261484ca0e088155dc7327b