chsop / team4_wanted_onboarding

Team 4 온보딩 코스 과제를 위한 main 저장소입니다.
7 stars 7 forks source link

[Week1/윤준식] 발표자료 피드백 #42

Closed hellojun12 closed 3 years ago

hellojun12 commented 3 years ago

Week1_Jaehwan_analysis_v1.1.ipynb 파일 기준으로 피드백 하겠습니다.

출력 결과가 많이 다른 점이 지수 scoring 방식에 있는지 알았는데 아녔습니다.

연매출액 1000억 이상 기업 선정 때 문제가 생긴 거 같습니다.

image

filtered_df = filtered_df.query('연매출액>100000000').reset_index().drop('index',axis=1)

위 코드에서 잘못된 점이 연매출액 1000억이상인 부분만 추출해서 filtered_df에 저장하는 점입니다.

연매출액 1000억 이상인 '기업'을 추출해서 그 기업이 가진 모든 데이터를 filtered_df에 저장해야 되는데

연매출액 1000억 이상인 부분만 저장합니다.

[필터링을 통해 나온 기업 "403470"을 예시로 들겠습니다.] image

[filtered_df 에서 403470 검색] image

[wanted_cps_df 에서 403470 검색] image

wanted_cps_df에서는 해당 기업의 전체 데이터가 나오는 반면에 filtered_df에서는 1000억매출을 초과한 년도인 2018년도만 출력됩니다.

따라서 로직은

  1. 기업 리스트를 뽑는다.
  2. wanted_cps_df에서 해당 기업 리스트에 대한 row를 전부 뽑는다
  3. filtered_df를 초기화 하고 뽑은 데이터를 전부 저장한다.

이런 순으로 되야 할 것 같습니다.

[해당 로직 코드] image

※ 월별_직원수 < 1000인 부분도 추가했습니다

jaehwan2 commented 3 years ago

필터에 아직 문제가 있었군요 ㅜ 꼼꼼한 검증 감사합니다! 준식님 피드백 반영하여 수정하도록 하겠습니다!

hwangnakjoo commented 3 years ago

집념의 준식님.. 대단합니다!

jaehwan2 commented 3 years ago

준식님 더블 체킹 아니었으면 엉뚱한 결과로 발표 진행할 뻔 했습니다..