codestates / ds-blog

blog sharing for data science bootcamp course
2 stars 4 forks source link

[송지] What is Data Visualization? #90

Open mynameisji opened 4 years ago

mynameisji commented 4 years ago

나는 늘 데이터 시각화에 관심이 많았다. 프론트엔드니 데이터베이스니 너무 딴 세계 같고, 그나마 접근 가능한 IT 계열이 이 분야가 아닐까 막연히 생각해온 것이다. '나중에 대학원 가면 데이터 시각화쪽 공부해보려고요' 하면 10명중 9명은 아 그거 엑셀에서 차트 만드는거?라고 반응했고, 사실 나도 그 이상의 대답은 하지 못했다. 뭐 대충 그런건데 코딩도 하고 좀 예쁘게 만드는 거겠지 생각하면서 늘 입으론 이 분야에 큰 관심이 있는 마냥 떠들었다.

그러니까, 그렇다면, 데이터 시각화가 과연 뭔데?

데이터 시각화는 정제되지 않은 순수 데이터를 여러 각도로 분석·가공해 정보화한 후 시각언어로 표현하는 업무다.

A교차로가 가장 정체되는 시간이 언제인지 데이터를 모아서 시각화를 해보자.


보통 교차로 CCTV는 방범 목적용과 교통단속용이 혼재되어 설치되었으니 일단 둘다 데이터를 뽑아보자. 기간은 얼마로 정해야 의미있는 데이터를 만들 수 있을까? 6개월 정도면 충분할듯 하다. 교통관제센터에서 보내준 CCTV 데이터를 다 확인해보자. 6개월치를 전부 차례대로 통계를 뽑으려니 용량이 너무 많다. 잠깐만요. 정체 시간 데이터를 뽑아서 어디에 쓸건지 먼저 확인해햐 하지 않을까요? 새로 도로를 깔기 위한 사전 자료 조사에 목적이 있군요. 먼저 확인해야할 기본 정보가 있습니다. 이 교차로는 도시 외곽 고속도로로 향하는 길목에 위차하네요. 그렇다면 출퇴근 시간에 가장 붐빈다고 유추할 수 있겠군요. 그렇다면 지난 6개월간 평일 6-9시와 17-20시 사이의 자료 집중적으로 보면 되겠네요! 교통량이 유독 많았던 시간 데이터를 뽑아봤습니다. 대략 저희의 추측대로 나올 것 같아요. 어, 그런데 주말엔 아침 저녁 상관없이 정체량이 엄청난데요? 출퇴근 시간 정체가 큰 이슈인줄 알았는데, 또 다른 이슈가 보이네요.


이 지난한 과정들이 데이터의 시각화를 구현하기 전에 이뤄진다. 막연히 생각할땐 '시각화'라는 말에 꽂혔지만, 알고보니 우리가 진정으로 집중해야 할 부분은 '데이터'다. 먼저 데이터를 탐색하고(EDA;Exploratory Data Analysis), 그 중 필요한 데이터를 뽑아서 정리(Featuring Data) 한다. 데이터 탐색 전부터 무엇을 위한 데이터인지 목적이 분명한 경우도 있지만, 때로는 그저 '교통량'이라는 광범위한 데이터 안에서 어떤 인사이트를 발견해야한다. 그렇게 뽑은 데이터들을 합쳐서 새로운 조합을 만들거나, 재정렬하여 나의 목적에 맞는 데이터를 최종적으로 뽑아낸다. (Data Manipulation) 이 최종 데이터를 어떻게 보여주면 효과적으로 정보을 읽을 수 있을지 고민한 후 데이터 시각화(Data Visualization) 를 구현한다.

5

Interactive Data Visualization(대화형 데이터 시각화)

데이터 시각화 기술의 진가는 interactive한 자료에서 확인할 수 있다. 데이터 시각화의 목적은 시각 자료를 사용하여 분석가가 데이터의 중요성을 효율적이고 효과적으로 이해하도록 돕는 데 있다. 대화형 데이터 시각화는 사용자가 그래픽 플롯의 요소를 수정할 수 있어 보다 직접적인 작업을 가능하게 한다.

Alt Text

위 예시 처럼, 동시에 여러가지 데이터의 흐름을 보여준다. 사실 뭐가 뭔지 알아보기 힘들 것 같기도 하다. 봤을때 눈이 휘둥그레 지는 효과들 보다, 얼마나 눈에 잘 들어오는지가 더 중요한 것 같다.

데이터 시각화의 개념을 정리하고 싶어서 시작한 글인데, Interactive Visualization에 빠져버렸다... 단 한명에게라도 이렇게 재밌는 세상을 소개할 수 있다면 만족한다^^!

사실 시각화를 도와주는 소프트웨어나 여러 툴들은 많다. 결국 데이터를 제대로 분석하고 가공하는 작업이 잘 이루어져야 그 기술들을 효과적으로 사용할 수 있다. 시각 자료를 통해 인사이트를 얻어 실제 문제 해결에 도움이 되는것이 그 목적이니, 예쁘다고 혹하지 말자.

대화형 데이터 시각화를 어떻게 구현하는지에 대한 기술적인 부분과 어떤 소프트웨어가 있는지 더 알아보고 싶다. (to be continue)


출처 및 참고 The 25 Best Data Visualizations of 2019 The 25 Best Data Visualizations of 2018 데이터 시각화 디자이너라는 직군도 있다.

johnnykoo84 commented 4 years ago

인터액티브 데이터 시각화! 점점더 엄청나질 것으로 기대합니다.

johnnykoo84 commented 4 years ago

마지막 즈음에 그림이 하나 안 뜨는게 있는데 확인 한 번 해 주시겠어요? @mynameisji 더 욕심을 내 보자면, 예시로 넣어주신 그림들에 대해 작성자 분의 의견을 1-2줄 더 아주 조금이라도 더 추가하면 좋겠다..라고 생각했어요.

mynameisji commented 4 years ago

마지막 즈음에 그림이 하나 안 뜨는게 있는데 확인 한 번 해 주시겠어요? @mynameisji 더 욕심을 내 보자면, 예시로 넣어주신 그림들에 대해 작성자 분의 의견을 1-2줄 더 아주 조금이라도 더 추가하면 좋겠다..라고 생각했어요.

조언 주신대로 제 의견도 더 추가하고, 새로 찾은 그림도 넣어봤습니다. 사실 저도 용두사미같다고 생각했는데 덕분에 수정해봤네요!ㅎㅎ 마지막 그래프(what rich people wear?) 이미지 저는 git로 잘 보이는데.. 여전히 안보이시나요?ㅜㅠ