Open cheunx2 opened 3 years ago
필터링 한 기업 중에 월별 직원수가 항상 증가한 기업은 없었습니다. 가장 첫 데이터와 가장 마지막 데이터의 상승률을 구하여 상위 20개 기업과 같이 자르는 것도 방법도 좋아보입니다.
연 매출은 항상 증가한 기업으로 필터링 하는 것이 좋다고 생각합니다.
저는 필터링 한 결과 21개의 기업 중, 연매출액과 월별 직원수를 그래프로 그려서 같은 모양인, 추세가 같은 기업들을 추렸습니다. 그 결과 5개 정도의 기업이 나왔습니다.
21개의 기업 대상으로, 상관관계 히트맵 그려본 결과 연매출액과 월별직원수, 월별 연금보험료에 매우강한 상관관계를 확인할 수 있었습니다. 그리고 추가적으로 1인당 매출액과 월별 직원수의 상관관계를 확인 했습니다. 이부분으로 접근해도 괜찮을 거 같습니다.
이 전 이슈에다가 작성한 내용 축약인데요.
유니콘 기업은 역성장 하지 않는다는 가정으로 연매출 기준 한 번이라도 마이너스 성장한 회사, 즉 전년도(기록연도) 대비 매출액 증감률이 0% 이하인 회사 1187개 제거하여 457개 회사 남았습니다.
연월 데이터가 아예 없는 경우가 많아서... '년도'로 그룹핑하여 월별 직원수의 평균으로 '연평균 직원수'를 만들고 연평균 직원수가 전년대비 감소했다면 성장이 정체되었을 것이라 보아 제거했더니 215개 기업이 남았습니다.
이렇게 할 생각인데 그 관건인 '어느정도'로 해야 하는가를 모르겠네요
** 성장률
연매출
직원수
** 진행방향
저는 현재 유니콘 기업을 기반 삼아 살펴보았습니다. 기본적인 필터링은 마지막 연도 매출액이 500억 이상 입니다,
연매출 0프로 이상 상승 연직원수 하락시 제외 1인 평균 연매출로 sort, 상위 10위 기업 선정하여 데이터 분석
어제 성현님이 의견 주셨던 대로, 연 평균 직원 수를 산출한 다음 전년 대비 평균 직원 수가 증가하는 기업만 필터링해봤는데 477곳이네요...!
set1 = set(comlist)
set2 = set(unicorn[unicorn["연매출액"] >= 24900000]["회사ID"].unique())
set3 = set(unicorn.groupby('회사ID').filter(lambda x: len(x)>=36)["회사ID"].unique())
print("기준 1 충족 : ", len(set1))
print("기준 2 충족 : ", len(set2))
print("기준 3 충족 : ", len(set3))
print("세 기준을 모두 충족하는 기업은 몇 군데?", len(set1 & set2 & set3))
기준 1 충족 : 477
기준 2 충족 : 433
기준 3 충족 : 1127
세 기준을 모두 충족하는 기업은 몇 군데? 90
참고가 되실까 하여 남겨둡니다
저도 어제 성현님 의견에 추가로 제가 말했던 1인당 매출액 상승률까지 추가 적용해본 결과 59곳의 기업이 남네요.
저는 앞서 말씀드린 남은 215개 기업에서
으로 필터링했더니 22개 기업이 남았고, 연월별 직원 수 변화를 시각화하여 살펴보니
를 제외하여 16개 기업이 남았습니다.
이렇게 7개 기업이 남았고, 연속 3개년 데이터가 아니여서 증가율에서 데이터 왜곡이 발생할 수 있을것이라 판단한 1개의 기업을 제외하여 최종 6개 기업을 선정하였습니다.
지금도 적절한 방안을 찾는 중입니다.
참고용/기록용으로 적었습니다.
성장률에 대한 의견 정리하여 남겨 주시면 감사하겠습니다 :)