nowol79 / MOOC

edx, coursera...
0 stars 0 forks source link

Chapter 4. Parallel Processing - quiz #5

Open nowol79 opened 6 years ago

nowol79 commented 6 years ago

copyright by edX PageLinuxFoundationX: LFS103x Introduction to Apache Hadoop

이거 틀림.. ;; ETL이라는 개념이 처음인데.. Extract, Transform and Load 란다. Data Warehouse 대표적인 용어인듯..

ETL은 데이터의 추출(Extraction)·변환(Transformation)·적재(Loading)의 약자로 비즈니스인텔리전스(BI) 구현을 위한 기본 구성요소 가운데 하나다. ETL툴은 다양한 원천 데이터를 취합해 데이터를 추출하고 하나의 공통된 포맷으로 변환해 데이터웨어하우스(DW)나 데이터마트(DM) 등에 적재하는 과정을 지원하는 툴을 의미한다. 

틀림. MR작업은 무조건 Mappers/Reducers 작업을 거쳐야 된다고 생각했는데.. 아니란다. 실제로 Streaming 작업할 때는 SetReducer 옵션을 none로 설정해서 돌리는 경우도 있다고 함

이것도 틀림 ;; single key/ multiple key 개념이 헷갈린듯.. input으로 들어가는 거는 무조건 single key-value pair이고.. output으로 나오는거는 multiple key-values 라는 건데... @,.@ 이건 잘 모르겠다...

Key Points to Remember I

The main ideas we discussed in this chapter are summarized below:

Key Points to Remember II

The main ideas we discussed in this chapter are summarized below (continued):

Key Points to Remember III

The main ideas we discussed in this chapter are summarized below (continued):

Key Points to Remember IV

Bookmark this page The main ideas we discussed in this chapter are summarized below (continued):