Closed chsop closed 3 years ago
찬서님의 꼼꼼한 피드백 감사합니다 :) 피드백 주신 내용에 대한 제 의견 전달드리니, 다른 팀원분들도 의견 부탁드립니다.
2번 기준이 모호하다면, 유니콘 기업데이터 분포 기준으로 나눠 파악해보는게 좋을까요..? 제 생각에는 내일 발표인 만큼 다시 진행하는 것보다는 위에 재환님이 말씀하신 것 처럼 언급하고 지나가도 괜찮을 것 같아요!
3번 4번 어제 미팅때 말씀드린 내용대로, 저도 찬서님과 동일한 고민을 하여,
혹시 필요하시면 이 부분 참고해주세요 :) 3.1 월별 데이터 있는 변수 : 직원수, 연금보험료, 인당매출액¶ 3.2 연도별 데이터 있는 변수 : 매출액
아직 전체 코드를 다 보지는 못했는데 실시간으로 피드백 드리는게 도움 될 것 같아서 우선 전처리 및 EDA부분 피드백 공유드립니다.
1. 데이터 분포 확인 부분 히스토그램 부분에 데이터 특징에 대한 설명과 간단한 가설이 같이 들어가면 어떨까 싶습니다. 예를 들면 유니콘 기업은 연매출액이나 인당 매출액 상단, 연금보험료나 직원수는 중상 정도에 위치할것 같다는 식으로요..!
2. 데이터 구간 나누는 부분 bin = 5로 나눴을 때 연매출액 5번 bin에 포함되는 값들은 평균, 중위값 간의 갭이 큰데, 이건 bin을 10으로 해도 마찬가지네요.. ㅠㅠ 어떻게 나누는게 베스트일지 더 고민해보면 좋을것 같습니다.
3. 월값 vs 연평균값 wanted_nps_df 데이터가 월별로 나눠져 있는데, 회사마다 존재하는 월 데이터 수가 다르니 회사별 & 연도별 groupby로 평균값(혹은 중위값) 계산 후 qcut 하는게 맞지 않을까 싶습니다. 예를 들어 규모가 큰 회사의 데이터가 많고 (5년치 모두 존재) 작은 회사의 데이터가 적은 경우 (2년치만 존재) boxplot 보는데 있어서 왜곡이 생길수 있지 않을까 하는 생각이 듭니다..!
4. 인당 매출액 계산 부분 연평균값을 쓰게 된다면 인당 매출액 계산부분도 수정해야 할것 같습니다!