사실상 cloud 를 제일 잘할 수 있는 Google 이 cloud 의 왕좌를 amazon 에게 빼앗겨서, 절치부심해서 Google Cloud Platform 에 대한 미끼 상품(?) 으로 만든 것이 Google BigQuery 라고 합니다. 그만큼 amazon 의 RedShift 에 비해 더 좋다는 평가가 많은 거 같습니다.
Data Warehouse, Data Lake 모두 장단점이 있는데요. 최근에는 두가지 장점을 합친 Data Lakehouse platform 을 많이 사용하는 거 같습니다. Data Lakehouse 의 대표주자가 Snowflake 와 Databricks 로 평가받는 거 같습니다. Google 에서도 Data Lakehouse platform 의 성장을 지켜보며, BigLake 라는 상품을 내놨는데요. 아직까지는 Snowflake 나 Databricks 보다는 시장에서 약한 느낌입니다.
Data Warehouse 로만 구성된 경우, 비정형 데이터 처리가 어렵고 저장 공간이 비싼 단점이 있다고 합니다.
Current two-tier architectures
정형/비정형 데이터를 모두 Data Lake 에 넣고 정형 데이터는 Data Warehouse 에 ETL 로 넣어 처리하는 2-tier 아키텍쳐로 현재 구축되어 있다고 합니다.
그러나 2-tier 아키텍쳐의 경우 아래와 같은 한계가 있다고 합니다.
1) 구성이 복잡
2) Data Warehouse 데이터는 Data Lake 에서 추출한 데이터이므로 Data Lake 에 비해 stale data
3) 데이터의 Single-Source-Of-Truth 원칙을 위반하는 한계가 있다고 합니다.
또한 기존 Hadoop, Hive 기반의 Data Lake 의 경우 아래와 같은 한계가 있다고 합니다.
1) Data Warehouse 에 비해 구성이 복잡
2) 데이터 저장/처리 부분과 달리 meta 정보는 확장이 어려워 scalability 이슈가 있음
3) storage 와 query engine 분리로 transaction 이슈가 있어 특정 속도 이상으로 데이터를 저장하지 못함
Data Lakehouse platform
2-tier 아키텍쳐의 한계를 극복하기위해 Data Warehouse 와 Data Lake 을 합친 Data Lakehouse platform 을 많이 사용한다고 합니다.
구성이 단순하고, 데이터의 Single-Source-Of-Truth 원칙을 구현할 수 있습니다.
기존 Data Lake 의 scalability, transaction 이슈를 기술적으로 해결했다고 합니다.
비교 대상 platform 과 비교 기준
비교 결과
평가