Open hyunju-song opened 1 year ago
조인할 두 데이터 세트를 각각 정렬합니다. 정렬 작업은 일반적으로 맵리듀스 프레임워크의 맵 단계 이전에 수행됩니다. 이를 위해 데이터를 메모리에 로드하여 정렬합니다.
작은 데이터 세트를 메모리에 로드합니다. 이를 맵사이드 데이터 세트라고 합니다.
맵사이드 데이터 세트의 각 레코드를 맵 함수에 전달하여 조인 작업을 수행합니다. 맵 함수는 맵사이드 데이터 세트의 키를 기반으로 조인을 수행하고, 나머지 데이터 세트를 스캔하여 동일한 키를 가지는 레코드를 찾습니다.
조인된 결과를 맵 단계에서 바로 출력합니다. 리듀스 단계를 거치지 않고 조인 결과를 바로 반환합니다.
조인할 두 데이터 세트를 동일한 해시 함수를 사용하여 해시 파티션으로 분할합니다. 각 데이터 세트의 레코드는 해시 함수에 적용되어 고유한 해시 키를 생성합니다.
분할된 파티션 간에 조인 작업을 수행합니다. 동일한 해시 키를 갖는 레코드들끼리 조인됩니다. 이때, 동일한 해시 키를 가지는 레코드가 동일한 노드 또는 처리 단위에 위치하므로 네트워크 통신이 최소화됩니다.
조인된 결과를 반환합니다. 각 파티션에서 조인된 결과를 생성하고, 이를 병합하여 최종 조인 결과를 얻습니다.
조인 대상 데이터 세트를 각각 정렬합니다. 일반적으로 정렬 작업은 데이터를 메모리에 로드한 후에 수행됩니다.
정렬된 데이터를 병합합니다. 두 데이터 세트에서 동일한 키 값을 갖는 레코드를 찾아 조인합니다. 이때, 정렬된 상태에서 병합 작업을 수행하므로 효율적으로 조인할 수 있습니다.
3, 조인 결과를 반환합니다. 동일한 키 값을 갖는 레코드가 조인되어 새로운 레코드가 생성됩니다. 이러한 결과는 일반적으로 새로운 데이터 세트로 생성되거나 원하는 형식으로 출력됩니다.
response time
이 중요함job
을 실행함job
은 일반적으로 오래걸리기 때문에, 사용자는 job이 끝날때까지 기다리지 않음throughput
으로 결정됨nginx log를 활용해서 가장 많이 접근하는 페이지를 파악하는 방법
cat /var/log/nginx/access.log |
aws '{print $7}' |
sort |
uniq -c |
sort -r -n |
head -n 5
stdin
은 키보드에서 받아서 stdout
은 화면으로 전송됨
stdin
과 stdout
의 사용을 지향함
less
로 아웃풋이 나감브로드캐스트
라는 단어는 큰 입력의 각 파티션에 대한 mapper 가 작은 입력의 전체를 읽는다는 것해시
라는 단어는 해시 테이블을 사용한다는 것awk
, sed
, grep
, sort
, uniq
, xargs
전체 워크플로를 독립된 하위 작업으로 나누지 않고 작업 하나로서 다룬다는 점
아직 유효한 데이터로부터 계산을 다시 해서 복구
벌크 동기식 병렬
이 널리 사용되며, Apache Giraph, Spark Graph X API, Flink Gelly API 등이 BSP 구현체며, 이는 프리글 (pregel) 모델이라고도 부름
파트
Part03. 파생 데이터 10. 일괄 처리
발표자
유재상
발표 기간
7월 12일 오후 10시
마감기한
7월 12일 오후 10시
참고 링크
일정표 : https://clever-bull-d00.notion.site/bd201441d8a44c83a70375001278c850 책 : http://www.yes24.com/Product/Goods/59566585