KilJaeeun commented 2 years ago

파트

섹션4. spark로 hadoop 프로그래밍하기
발표자
송현주
발표 기간
6월 23일 22:00 ~
마감 기한
6월 22일 23:59 까지
참고 링크
일정표 : https://www.notion.so/Hadoop-4f533d9016884066ae0c87199d2bf65d
하둡 완벽가이드: http://grut-computing.com/HadoopBook.pdf
udemy 강의 : https://www.udemy.com/course/best-hadoop/learn/lecture/28318946?start=30#overview

hyunju-song commented 2 years ago

송현주 스터디 자료

spark

질문 사항 정리

자세한 건 스터디 발표할때 한번 더 언급하겠습니다~!
1. 28강 중 : SparkSQL을 통해 DAG 이상의 최적화를 달성한다는게 무슨의미일까요? - DataFrame과 관련된 걸까요?
2. 29강 중 : Creating RDD에 HiveContext부분 - 이후 DataFrame생성에서 hivecontext가 또 언급되면서 DataFrame을 생성하는 방법이라고 하는데 Creating RDD에서도 왜 언급됐는지 모르겠습니다
3. 31강 중 : DataFrame은 RDD위에 구축되었으므로 내재된 RDD를 추출해서 RDD수준의 작업을 할 수도있다. 'rdd'를 사용해 열 객체가 들어있는 'DataFrame'의 RDD를 되찾아 그 열 객체에 함수를 적용하고 RDD 수준의 작업이 가능합니다?? - 이게 무슨 말일까요?
4. 31강 중 : DataSet의 Shell access 슬라이드 부분이 잘 이해가 안 갑니다
5. 33강 중 : RDD로 출력한 후 -> 행객체로 전환(row) -> DataFrame으로 전환해주는 이유는? spark.read.text()로 하면 바로 DataFrame으로 출력해주는데 이를 바로 사용안하고 굳이 RDD로 전환한후에, RDD의 map 연산을 거친후에 다시 DataFrame으로 전환해주는 이유는?

wookiist commented 2 years ago

오재욱 스터디 자료

28강
29강
30강
31강
[32강~35강]()

KilJaeeun commented 2 years ago

https://www.notion.so/4-Spark-6875271f2d2b4752abb35a099e827364

JSYoo5B commented 2 years ago

유재상 스터디 로그

Spark

Pig의 목적과 비슷하게, MapReduce보다 좀 더 쉽게 데이터 분석 개발을 하고자 함.

구성 요소

Driver Program: Spark의 작업을 어떻게 진행할 지
Cluster Manager: 그 Spark의 작업을 어떤 클러스터로 전송할지
Executer: 실제 실행을 하는데, Cache와 Task를 갖고 있음. (속도의 핵심은 Cache와 DAG)

속도가 빠른 이유

기존 MapReduce 등은 연산 결과를 hdfs(disk)에 임시 저장하는데, 대부분의 이것을 메모리에 임시 저장하여 IO 속도 문제를 해결하는 듯

+DAG를 활용한다는데, 이건 Pig에서도 얘기한거랑 비슷한 이유라서 Spark만의 특징이라고 하긴 애매할듯

개발 방식

Python, Java, Scala 지원 / RDD (Resilient Distributed Dataset) 개념 위에서 개발

RDD (Spark 1.0)

직접 입력, 파일, Hive, 외에도 DB나 다른 서비스를 통해서도 데이터셋을 생성 가능함.

MapReduce의 개념에서 사용하던 함수형 연산을 제공 (map, filter, distinct, sample, collect, count, reduce...)

Lazy evaluation으로 동작함. (이건 함수형 프로그래밍, Scala 구현의 특성인듯)

DataSets (Spark 2.0)

RDD에서 "DataFrame" 객체로 확장

기존 RDD가 튜플 정도로, 스키마 정보가 없이 데이터 모음이라면, 스키마가 추가됨
다른 파일/서비스 등으로 읽기/쓰기, 통신이 가능함
SQL식 표현 지원

강의 두번 보긴 했는데 뭐가 어떻게 다르다는건지 잘 이해가 안됨.

실습

기존 Pig나 MR 등에서는 간단하게, 일관되게 평균 등을 구했는데, 이젠 평가 개수 등을 반영하여 조금 더 의미있는 데이터를 분석하게 됨. (그냥 앞의 예제에서는 더 해도 되는걸 안한게 아닐까...)

jasonkang14 commented 2 years ago

내려가는 기차에서 마무리합니다! 내일 뵙겠습니다~

링크 잘못돼서 수정합니다~ https://www.notion.so/byeongjinkang/SPARK-6dd494c14261484ca0e088155dc7327b

morebo2ks / hadoop

5주차 hadoop 스터디 #7

파트

발표자

발표 기간

마감 기한

참고 링크