issues
search
kevinpark2021
/
team3_wanted_onboarding
팀3 온보딩 코스 과제를 위한 main 저장소입니다.
2
stars
3
forks
source link
week1. EDA 내용 정리
#30
Open
Aliasss
opened
3 years ago
Aliasss
commented
3 years ago
week1. EDA 내용 정리
<주의!> EDA 작업에서의 연평균 성장률 개념은 단순 평균값으로, 이후 분석 과정에서는
연평균 성장률 공식(CAGR)을 활용함
제공받은 데이터(company_nps_data) 기본 내용
연매출액 단위: 천 원
2015년~2019년 데이터
월별 데이터: 직원수, 국민연금 보험료(인원수에 대한 상한선 존재)
데이터 Shape : (99801, 6)
데이터 type
회사ID (int64)
연매출액 (int64)
년도(int64)
월(int64)
월별_연금보험료(int64)
월별_직원수(int64)
5000개 기업으로 구성된 데이터
결측치 관련
제공받은 데이터에 isnull().sum()이나 info() 등으로 확인했을 땐 결측치 X
그러나, 값이 존재하지 않는 연도는 아예 데이터에서 누락이 되어있음을 확인
1개년도만 데이터가 있는 회사 다수 존재
결측치를 어떻게 처리할 것인가?
연매출액 관련
연매출액 10조 원 넘는 회사: 2개(ID: 63, 419945)
단, 두 회사 모두 1년치 데이터만 존재
ID 63 회사는 2018년 데이터만, ID 419945 회사는 2019년 데이터만 존재
연매출액이 마이너스인 회사도 존재
boxplot으로 확인한 결과, 극단값 매우 많이 존재
연매출액 최솟값: 약 -78억 원
연매출액 최댓값: 약 11조 3287억 원
2015년 대비 2019년 연매출 성장률 상위 30개 기업(2015년 연매출액 대비 2019년 연매출액 증감률)
월별 연금보험료 & 월별 직원수 관련
월별 연금보험료 0원인 회사 11개 존재
월별 연금보험료 최댓값: 약 9억 7천만 원
월별 직원수 10명 이하인 회사 3178개 존재
연금보험료와 직원수 간에는 강한 양의 상관관계(0.95) 및 선형적 관계 존재
외부 자료 활용하여 취합한 기존 유니콘 기업 데이터 관련
크레딧잡, 중소기업현황정보시스템 활용하여 데이터 수집
원티드로부터 제공받은 데이터와 똑같은 컬럼과 동일 포맷으로 구성
2015~2019년 데이터
연매출액 단위: 천 원
결측치 없음
유니콘 기업들의 연평균 성장률(
단순 평균값
): 252.92%
옐로모바일의 경우 4년 동안의 연평균 성장률(
단순 평균값
)이 마이너스를 기록 (이후 분석과정에서 사용하는 CAGR과 다른 정의임을 주의)
월별 연금보험료의 평균값: 191932076.19
월별 연금보험료의 최솟값: 488133.00
월별 직원수 평균값: 751.63
월별 직원수 최솟값: 7.00
EDA 종합적 결론
유니콘 기업으로 정의할 수 있는
기준
이 필요
기준을 찾기 위해 실제 유니콘 기업들의 외부 데이터를 조사해야 함
주어진 데이터셋에서 활용할 수 있는 변수가 연매출액, 월별 연금보험료, 월별 직원수로 한정적이므로 각 변수들을 조합한 새로운 피쳐를 생성해야 함
기존 피쳐 간의 조합을 통해 도출가능할 것으로 예상한 피쳐들
매출액 상승률
외부 데이터의 1인당 매출액과 주어진 데이터의 1인당 매출액 비교
연금보험료 상승률
임금 대비 매출액 변화율
1인당 임금 변화율 등
taeyoonahn
commented
3 years ago
좋은내용이네요. 통합 ipynb파일을 만드는 방향성을 잡는데 큰 도움이 될것같습니다.
week1. EDA 내용 정리
<주의!> EDA 작업에서의 연평균 성장률 개념은 단순 평균값으로, 이후 분석 과정에서는 연평균 성장률 공식(CAGR)을 활용함
제공받은 데이터(company_nps_data) 기본 내용
결측치 관련
연매출액 관련
월별 연금보험료 & 월별 직원수 관련
외부 자료 활용하여 취합한 기존 유니콘 기업 데이터 관련
EDA 종합적 결론