Open LOG-INFO opened 6 months ago
p386. 지금은 맵리듀스의 중요성이 떨어지고 있지만
- Google은 2014년에 더이상 Map-Reduce를 사용하지 않는다고 발표
- Map-Reduce는 너무 일반화된 데이터 흐름 엔진이기 때문
- MapReduce가 이룬 것은 분산 처리로 데이터 플랫폼을 구축할 수 있다고 인식을 변화시켰다는 것
- 스토리지와 컴퓨팅이 점진적으로 확장 가능하고,
- 이기종 워크로드를 잘 지원하며,
- 비싼 머신보다 저렴한 머신에서는 결함이 더 자주 발생하지만, 이에 대해 강력한 내결함성을 가졌다는 것,
- 등등
- 구글은 MapReduce 대신 Cloud DataFlow 라는 걸 쓰기 시작했음 (2014년)
p392. 동일한 데이터 모델인 데이터베이스 간에도 한쪽에서 다른 쪽으로 데이터를 옮기는 게 쉽지 않다. => 마이그레이션은 상당히 흔한 유즈케이스인데 왜일까? DB는 상업용으로 판매되는 케이스가 많기 때문에 자사 제품 이탈율을 줄이기 위해서?
p393. 프로그램의 출력을 파이프를 이용해 네트워크와 연결하지는 못한다. =>
netcat
이나curl
를 사용할 수 있음. BSD 소켓 API는 in-out File Descriptor를 1개로 쓴다. (보통은 input / output 각각 1개씩 사용)
Reducer는 병합하는 용도로 사용하기 위해서는 Mapper보다 메모리 가용량이 훨씬 커야하지 않나?
끄적끄적