issues
search
tonykang22
/
study
0
stars
0
forks
source link
14. MapReduce 기능
#166
Open
tonykang22
opened
1 year ago
tonykang22
commented
1 year ago
MapReduce 기능
GenericOptionsParser
역할 : Hadoop job을 실행할 때 사용되는 option을 분석하여 configuration에 설정
conf
configuration 파일을 전달하여 conf 설정
D
propery, value 값을 설정에 추가해준다.
fs
FS를 지정할 수 있게 해준다.
jt
YARN의 resource manager를 설정하게 해준다.
files
지정된 파일을 로컬 파일 시스템에서 MapReduce가 사용하는 공유 파일 시스템으로 복사하게 해준다.
libjars
지정된 jar 파일을 로컬 파일 시스템에서 MapReduce가 사용하는 공유 파일 시스템으로 복사하고 Classpath에 추가하게 해준다.
archives
지정된 압축 파일을 로컬 파일 시스템에서 MapReduce가 사용하는 공유 파일 시스템으로 복사하게 해준다.
Counter
Job에 대한 통계 정보를 수집하는 기능
문제 진단에 유용
대용량 분산 어플리케이션에서는 로그를 확인하는 방법보다 Counter를 활용하는 방법이 더 유용하다.
Counter 종류
Built-in Counter
Task counter
각 Task가 실행될 때, 해당 Task의 정보를 수집하여 Job의 모든 Task의 값을 취합하여 최종 결과 반환
Job counter
Application Master에 의해 유지되며, Job 수준의 통계 값을 수집한다.
사용자 정의 Counter
사용자가 Counter 집합을 직접 정의한 후에 Mapper 혹은 Reducer에서 원하는 방식으로 count 할 수 있다.
정렬
MapReduce는 정렬이 기본 기능
MapReduce에서 제공하는 정렬 과정을 이용
Join
MapReduce는 대용량 데이터셋 간의 조인을 지원
조인 종류
Map-side 조인
Mapper에 의해 조인 수행
Join 하려는 데이터셋이 작은 경우, 분산 캐시를 사용하여 구현할 수 있다.
입력 데이터셋이 동일한 개수의 파티션으로 분할되어 있고, 동일한 조인 키로 정렬되어 있어야 한다.
Reduce-side 조인
Reducer에 의해 조인 수행
MapReduce의 같은 key가 같은 reducer로 모이는 shuffle 기능을 활용한다.
분산 캐시
실행 시점에 파일과 아카이브의 사본을 태스크 노드에 복사하여 이를 이용할 수 있게 해주는 기능
GenericOptionParser를 이용하여 옵션으로 추가
-files
-archives
API이용
Job 클래스에서 제공하는 API 이용
addCacheFile(URI uri)
addCacheArchive(URI uri)
setCacheFiles(URI[] files)
setCacheArchives(URI[] archives)
addFileToClassPath(Path file)
addArchiveToClassPath(Path archive)
MapReduce 기능
GenericOptionsParser
Counter
Counter 종류
정렬
Join
분산 캐시