[Week1/박찬서] 발표자료 피드백

chsop commented 3 years ago

아직 전체 코드를 다 보지는 못했는데 실시간으로 피드백 드리는게 도움 될 것 같아서 우선 전처리 및 EDA부분 피드백 공유드립니다.

1. 데이터 분포 확인 부분 히스토그램 부분에 데이터 특징에 대한 설명과 간단한 가설이 같이 들어가면 어떨까 싶습니다. 예를 들면 유니콘 기업은 연매출액이나 인당 매출액 상단, 연금보험료나 직원수는 중상 정도에 위치할것 같다는 식으로요..!

2. 데이터 구간 나누는 부분 bin = 5로 나눴을 때 연매출액 5번 bin에 포함되는 값들은 평균, 중위값 간의 갭이 큰데, 이건 bin을 10으로 해도 마찬가지네요.. ㅠㅠ 어떻게 나누는게 베스트일지 더 고민해보면 좋을것 같습니다.

3. 월값 vs 연평균값 wanted_nps_df 데이터가 월별로 나눠져 있는데, 회사마다 존재하는 월 데이터 수가 다르니 회사별 & 연도별 groupby로 평균값(혹은 중위값) 계산 후 qcut 하는게 맞지 않을까 싶습니다. 예를 들어 규모가 큰 회사의 데이터가 많고 (5년치 모두 존재) 작은 회사의 데이터가 적은 경우 (2년치만 존재) boxplot 보는데 있어서 왜곡이 생길수 있지 않을까 하는 생각이 듭니다..!

4. 인당 매출액 계산 부분 연평균값을 쓰게 된다면 인당 매출액 계산부분도 수정해야 할것 같습니다!

jaehwan2 commented 3 years ago

찬서님의 꼼꼼한 피드백 감사합니다 :) 피드백 주신 내용에 대한 제 의견 전달드리니, 다른 팀원분들도 의견 부탁드립니다.

히스토그램이 그려지는 부분은 아직 가설을 세우기 전에 데이터의 특징 및 분포를 확인하는 부분이라 말씀주신 부분을 구두로 간단히 얘기하고 넘어가도 좋을 것 같습니다. 히스토그램의 모양을 봤을 때, '유니콘 기업은 각 항목의 상단 그룹에 공통으로 속하는 특징이 있지 않을까라고 추측합니다.' 라는 멘트를 추가하면 어떨까요~?
중위값과 평균값을 맞춰줄 필요는 없다고 생각합니다. 오히려 이 데이터의 경우에는 평균의 함정에 더 쉽게 빠질 수 있는 데이터임이 확인되었기 때문에, 이 내용을 간단하게라도 언급하면 넘어가면 더 좋을 것 같습니다. 예를 들어, 평균과 중위값의 차이가 큰 것으로 보아 값의 분포가 상당히 넓게 펼쳐질 것으로 추측됩니다.와 같은 멘트를 발표에 추가하면 어떨까요~?
아 저는 EDA에서는 우선 모든 Value들의 분포나 특징이 어떤지 궁금해서 따로 집계하지 않고 다 살펴보려는 의도가 있었습니다. 기업 기준으로 집계를 하여 EDA를 진행하는 게 좋을까요? 다른 팀원들의 의견이 궁금합니다.
3번의 내용이 정리되면, 3번의 내용에 맞게 진행하면 될 것 같습니다.

ttobaegi commented 3 years ago

2번 기준이 모호하다면, 유니콘 기업데이터 분포 기준으로 나눠 파악해보는게 좋을까요..? 제 생각에는 내일 발표인 만큼 다시 진행하는 것보다는 위에 재환님이 말씀하신 것 처럼 언급하고 지나가도 괜찮을 것 같아요!

3번 4번 어제 미팅때 말씀드린 내용대로, 저도 찬서님과 동일한 고민을 하여,

월별로 달라지는 변수 (직원수 연금보험료 인당매출액)
연도별로 달라지는 변수 (매출액) 이렇게 두가지로 나눠 성장율을 계산한 뒤에, 평균을 내는 방식으로 진행하였습니다. 코드는 어제 풀리퀘한 내역에 포함되어있어요!

혹시 필요하시면 이 부분 참고해주세요 :) 3.1 월별 데이터 있는 변수 : 직원수, 연금보험료, 인당매출액¶ 3.2 연도별 데이터 있는 변수 : 매출액

chsop / team4_wanted_onboarding

[Week1/박찬서] 발표자료 피드백 #44