Closed wookiist closed 2 years ago
과거 Hadoop의 주요 처리 방식이었으나, 최근 Hive, Spark 등의 등장으로 점점 도태되어 가는 처리 방식 하지만 Big Data 처리의 본질이 MapReduce였으므로 자세히 알아보기로 한다.
참고로 Map, Reduce는 함수형 프로그래밍(선언형 프로그래밍)의 패턴임.
앞서 Map, Reduce는 함수형 프로그래밍의 패턴이라 했으며, 이 패턴들은 함수형 패러다임의 특징에 따라 분산으로 동작해도 지장이 없다. (정확한 용어나 개념이 기억 안나는데, 각 입력 값에 대해 매번 동일한 결과를 반환하므로, 어디에서나 수행되어도 되고, 동시에 계산되어도 문제가 없다 등의 특성이었던 것으로 기억)
어쨋든 분산 처리를 통해 데이터를 처리하는 것이 속도 상의 핵심이 된다.
분산 처리에는 처리 과정을 여러 노드로 나누는 것 뿐만 아니라, 노드의 고장 여부도 고려해야 함
Map-Reduce 단계를 그나마 간단한 파이썬 코드로 보여줌. 파이썬 코드만으로 실행해 볼 수도 있으며, Hadoop에 연결하여 동작시킬 수도 있음.
다음주부터는 저도 주말에 해야겠습니다 ㅠㅠ https://www.notion.so/byeongjinkang/MapReduce-3f7614408bf647c7a98d5374815c686e
파트
발표자
발표 기간
마감 기한
참고 링크