Closed KilJaeeun closed 2 years ago
Pig의 목적과 비슷하게, MapReduce보다 좀 더 쉽게 데이터 분석 개발을 하고자 함.
기존 MapReduce 등은 연산 결과를 hdfs(disk)에 임시 저장하는데, 대부분의 이것을 메모리에 임시 저장하여 IO 속도 문제를 해결하는 듯
+DAG를 활용한다는데, 이건 Pig에서도 얘기한거랑 비슷한 이유라서 Spark만의 특징이라고 하긴 애매할듯
Python, Java, Scala 지원 / RDD (Resilient Distributed Dataset) 개념 위에서 개발
직접 입력, 파일, Hive, 외에도 DB나 다른 서비스를 통해서도 데이터셋을 생성 가능함.
MapReduce의 개념에서 사용하던 함수형 연산을 제공 (map, filter, distinct, sample, collect, count, reduce...)
Lazy evaluation으로 동작함. (이건 함수형 프로그래밍, Scala 구현의 특성인듯)
RDD에서 "DataFrame" 객체로 확장
강의 두번 보긴 했는데 뭐가 어떻게 다르다는건지 잘 이해가 안됨.
기존 Pig나 MR 등에서는 간단하게, 일관되게 평균 등을 구했는데, 이젠 평가 개수 등을 반영하여 조금 더 의미있는 데이터를 분석하게 됨. (그냥 앞의 예제에서는 더 해도 되는걸 안한게 아닐까...)
내려가는 기차에서 마무리합니다! 내일 뵙겠습니다~
링크 잘못돼서 수정합니다~ https://www.notion.so/byeongjinkang/SPARK-6dd494c14261484ca0e088155dc7327b
파트
발표자
발표 기간
마감 기한
참고 링크